「自社サービスにAIエージェントを組み込みたい。でも、何ができて、何が難しくて、どこにお金がかかるのか、正直わからない」——そんな発注をご検討中の方に向けて書いています。

専門用語はできるだけ翻訳し、「どんな課題に、私たちがどう判断して、どう解決したか」を中心にお伝えします。AIエージェント開発に興味のあるエンジニアの方にも、読み物として楽しんでいただける内容です。

題材は、私たちが自社で開発した汎用AIエージェント 「LocaNeco(ロカネコ)」 です。

📝 3行まとめ
① ChatGPTのような“賢いエージェント”は、実は「優秀なAIに丸投げ」では作れません。
② 私たちは、スマホの中だけで動く小さなAIを賢く振る舞わせる挑戦をしました。
③ その過程で見つけた「AIを賢くする6つの戦略」を、設計判断の理由ごとご紹介します。

そもそも「AIエージェント」とは?

ここ1〜2年で「AIエージェント」という言葉が一気に広がりました。代表的なサービスを並べると、輪郭が見えてきます。

  • ChatGPT / Claude … 質問に答えるだけでなく、計算ツールやWebブラウザやコードを、AI自身が「道具」として使い分ける。
  • Perplexity … 答える前にWebを検索し、出典付きで回答する“調べてから答える”タイプ。
  • Devin … 人間の代わりにコードを書き、テストし、修正まで自律的に回すエンジニア型。

共通しているのは、「考える」だけでなく「自分で道具を使って動く」 という点です。チャットボットが“物知りな人”だとすれば、エージェントは“調べ物も計算もこなす有能なアシスタント”。この違いが、ビジネスで使えるかどうかの分かれ目になります。

そして、これら有名サービスにはもう一つ共通点があります。巨大なAIを、強力なクラウドサーバー上で動かしていることです。私たちは、あえてその逆をやりました。

LocaNecoとは ― 「スマホの中だけ」で動く汎用エージェント

LocaNecoは、AIをクラウドに頼らず、iPhoneの中だけで動かす汎用エージェントです(iOSネイティブアプリ)。

  • あなたの質問も会話も、外部のサーバーに送りません(=プライバシーに強い)。
  • ネットがなくても、計算やこれまでの会話に基づく回答は動きます(オフライン対応)。
  • 必要なときだけ、AI自身の判断でWebを調べ、出典付きで答えます。

ただし、ここに最大の難所があります。スマホに載るAIは、ChatGPTの裏で動く巨大モデルに比べて、何十倍も“小さい” のです(LocaNecoが使うのは2Bクラスと呼ばれる小型モデル)。

小さいAIは、軽くて速くて安全。けれど、油断するとすぐ間違える。「この小さなAIを、どうやって賢く振る舞わせるか」——これがLocaNeco開発の全テーマでした。そしてこれは、皆さまの事業の「コストを抑えてAIを載せたい」というニーズと、まったく同じ問題です。

最初にぶつかった壁:「小さなAIは、自分の限界を知らない」

開発初期、私たちは正攻法を試しました。AIにこう聞いたのです。「この質問、あなたは自信を持って答えられる? それとも調べるべき?」

ところが小さなAIは、この判断がとびきり苦手でした。知らない用語をでっち上げておきながら「自信あり」と答えてしまう。これは“自分の実力を正しく見積もれない”という、小さなAIの根本的な弱点です。

ここで、多くの開発現場が陥りがちな“応急処置”があります。「特定のキーワードが入っていたら検索する」というルール表を人力で作り込むやり方です。最初は動きます。でも——

  • 新しい話題が出るたびにルールを足し続ける羽目になる
  • 日本語以外になると、ルール表が丸ごと通用しない
  • 結局、誰も全体を把握できない“継ぎ接ぎ”の塊になる

私たちは、この応急処置を最初から捨てると決めました。私たちの開発ポリシーは一貫して 「対症療法ではなく、論文の裏付けがある一般解で作る」 です。場当たり的なハックは、短期では速くても、中長期で必ず保守コストとして跳ね返ってくる。これは受託開発において、お客様の資産を守るための私たちの判断基準でもあります。

では、どうしたか。AIを賢くする6つの戦略としてご紹介します。

AIを賢くする6つの戦略

戦略①:苦手な質問は、最初から投げない

「答えられる?」と聞くのが苦手なら、得意な質問に置き換える。これが出発点でした。小さなAIでも、こう聞くと驚くほど正確に答えます。「この質問は、どの“言葉(固有名詞)”がカギになっている?」「この質問に答えるには、どんな“計算”が必要?」

“自信があるか”という曖昧な自己評価ではなく、“何を調べ、何を計算すべきか”という具体的な作業の洗い出しなら、小さなAIにもできる。あとは、洗い出された言葉をこちらのプログラムがWebで調べ、計算はこちらの電卓で実行して、その結果をAIに渡して答えさせる。

これは「まず調べて、それから考える(Retrieve-then-Reason)」という、検索拡張生成(RAG)の考え方そのものです。小さなAIの“弱点”を回避し、“得意”だけを使う設計に切り替えた瞬間でした。

💡 発注者の方へ:「うちの小さなAIは精度が出ない」——その多くは、AIの能力不足ではなく“役割の振り方”の設計ミスです。私たちはまず「AIにやらせること」と「プログラムにやらせること」の線引きからご提案します。

戦略②:計算は、AIにさせない

意外に思われるかもしれませんが、小さなAIは計算が苦手です。面白いのは、「式は正しく立てられるのに、その式を解く段で自滅する」こと。

実例があります。「時速60kmで90分走ると何km?」という質問。旧バージョンのAIは「54km…いや訂正して30km…」と、正しい式(60×1.5)を何度も書きながら答えだけ暴走し、最後は安全装置で強制停止していました。

私たちの解決はシンプルです。式を立てるのはAI、計算するのは確定動作の電卓。AIから式(60*1.5)だけ受け取り、プログラムが「90」と確定させ、それをAIに渡す。結果、回答は「時速60kmで90分走ると、90kmです。」と一発で正答。「電卓の値が最終結果。再計算は禁止」とAIに指示することで、暴走の芽も断ちました。

これは「計算は外部ツールに任せる(PAL方式)」という研究に基づく判断です。AIの“それっぽい嘘”を、確定動作のツールで消す——この発想は、業務でAIを使う上で決定的に重要です。

💡 発注者の方へ:請求金額、在庫数、日付計算——ビジネスでAIに数字を“生成”させるのは事故のもとです。私たちは「数字や事実は必ず確定ロジックで担保する」設計を標準にしています。

戦略③:一度で諦めず、「調べた結果を見て、もう一度考える」

賢いアシスタントは、調べ物が一発で終わらないことを知っています。たとえば「今の総理大臣の出身県の、県庁所在地は?」という質問。これは段階的な調べ物です。① 総理大臣は誰か → ② その人の出身県は → ③ その県の県庁所在地は。

旧バージョンは①②まで調べて「奈良県」にたどり着いたものの、「県庁所在地は確認できませんでした」と諦めていました。最初の一回の検索だけでは、構造的に最後までたどり着けないのです(次に何を調べるべきかは、調べてみるまでわからないから)。

そこで私たちは、「集めた情報を一度AIに見せ、“まだ足りないものは何か”だけをもう一度挙げさせる」 工程を1回だけ追加しました。するとAIは「奈良県」を見て「奈良県 県庁所在地」を追加で調べ、「総理は高市早苗氏。出身は奈良県。奈良県の県庁所在地は奈良市です。」と、出典付きで段階的に完走できるようになりました。

これは Self-Ask / IRCoT と呼ばれる多段推論の手法です。「観測してから、もう一度計画する」——この一手間が、“調べ物の質”を大きく変えます。

戦略④:自信がないときは、「多数決」で安定させる

それでも、立てる式や検索語が回答するたびにブレることがあります。小さなAIの“能力の限界”に近い、難しい問題ほど顕著です。

ここで使ったのが多数決(自己整合性)。同じ問題をAIに数回考えさせ、いちばん多く出てきた答えを採用する。間違える時のブレ方は毎回バラバラなので、正解こそが「最頻値」として浮かび上がる、という研究に基づく手法です。

LocaNecoでは、ユーザーが「じっくり考える」モードを選ぶと、AIが内部で複数案を出して多数決します。しかも、答えが早々に決まれば途中で打ち切る(無駄に時間をかけない)。“考える深さ”を、速度とのバランスで選べるようにしました。

戦略⑤:わからないときは、「わかりません」と言う

エージェントの信頼性は、正しく答える力と同じくらい、知ったかぶりをしない力で決まります。

LocaNecoは、調べても確かな根拠が得られなかったとき、推測で“それっぽい話”をでっち上げません。「確認できませんでした」と正直に伝え、一般論で答えられる範囲だけ答える。逆に、電卓の計算結果のような確定した根拠があるときは、堂々と高い信頼度で答える。

“ハルシネーション(AIの作り話)対策”は、業務利用で最も問い合わせの多いテーマです。私たちは「根拠があるときだけ断言する」を設計の芯に置いています。

戦略⑥:「キーワード表」を捨てると、どの言語でも動く

最後は、地味ですが効く話です。LocaNecoの内部には、「この単語が来たらこう動く」という日本語のルール表が一切ありません

たとえば「計算が必要か」の判定は、キーワードではなく「文中に“数字”が含まれるか」という文字の性質で見ています。この“数字”は、半角・全角はもちろん、漢数字(三、七十)でも、アラビア語の数字でもヒットします。だから、特別な対応をしなくても多言語でそのまま動く

応急処置のキーワード表を積み上げる開発は、一見早い。でも「日本語専用」「特定業界専用」の壁にすぐ突き当たります。私たちが論文ベースの一般解にこだわるのは、それが長く使え、横展開できる資産になるからです。

「ちゃんと動く」を、どう証明したか

ここまでが“賢くする戦略”。でも発注者にとって本当に大事なのは、「で、本当に動くの? 壊れないの?」 ですよね。私たちはLocaNecoのために、自動品質テストの仕組みを自前で作りました。

  • 本物のAIモデルを、本番と同じ経路に通して、約100件の質問を自動で走らせる
  • 「文字化け」「途中で止まる」「内部の設定文が表に漏れる」といった“壊れた出力”は、必ずゼロ件を合格条件にする
  • 文字数や書式などの“軽微な未達”は別管理にして、改善の指標として記録する

結果、改良版は100件すべてで“壊れた出力”ゼロ。有害な要求はきちんと断り、医療や自傷のようなデリケートな話題には安全に配慮し、過剰に断りすぎることもない——そこまで自動で検証しています。

これは単なる自慢ではありません。「AIは“だいたい動く”では納品できない。壊れないことを仕組みで保証する」——この品質への姿勢こそ、受託開発で私たちが最も大切にしている部分です。

有名サービスと、何が違うのか

「ChatGPTを使えばいいのでは?」——もっともな疑問です。整理します。

観点ChatGPT / Claude などLocaNeco(私たちの設計)
AIの置き場所巨大モデルをクラウドで小型モデルを端末内で
データサーバーへ送信端末内で完結(送らない)
通信常時オンライン前提オフラインでも一部動作
コスト利用量に応じて課金端末で動くので推論コスト極小
難所大きいので比較的“賢い”小さいAIを賢く見せる工夫が必要

巨大モデルは確かに賢い。けれど、「データを外に出せない」「通信が不安定」「ランニングコストを抑えたい」 という現場は山ほどあります。そこで効くのが、“小さなAIを設計で賢くする” 私たちの技術です。

そして大事なのは、ここで使った6つの戦略はLocaNeco専用の裏ワザではないということ。RAG・ツール連携・多段推論・多数決・根拠主義——これらは、クラウドの巨大モデルを使う案件でも、そのまま品質を底上げする普遍的な設計です。私たちは「どのAIを使うか」だけでなく、「AIに何をどう任せ、何を任せないか」の設計から、お手伝いできます。

私たちが提供できること

LocaNecoの開発を通じて、私たちはこんなことが得意になりました。

  • AIエージェントの設計(どこまでAIに任せ、どこを確定ロジックで守るか)
  • 小型・オンデバイスAIの活用(コスト・プライバシー・オフライン要件のある案件)
  • ハルシネーション対策と品質保証(“壊れない”を仕組みで担保する)
  • iOSネイティブアプリ開発(AIを実際のプロダクトに載せきる力)

「自社サービスにAIを組み込みたいが、何から始めれば?」——そのご相談の段階から歓迎です。“賢いふりをするAI”ではなく、“現場で壊れないAI” を一緒に作りましょう。