人に話しかけるのと同じ感覚で、ぬいぐるみと会話ができる。そんな温かな体験を届ける「おしゃべりAIエージェント(開発名:AIしていると言ってくれ)」は、Unityとアイリア SDKを軸に、開発者の遊び心と技術が融合して誕生したプロダクトです。本稿では、開発を手がけた「おなかソフト」代表・伊藤 周さんと、アイリアの客野一樹にインタビューを実施。その誕生の背景から、AIエージェントが切り拓く今後の可能性までを伺いました。
※本記事はアイリアの製品およびサービスを紹介するPR記事です。
開発者の遊び心から生まれた、親しめるAIエージェント
——まずは、伊藤さんが代表を務める「おなかソフト」について教えてください。
伊藤 周氏(以下:伊藤氏):私が代表を務めるおなかソフトは、Unityコンサルタンティング業務やVRゲーム開発をしている会社です。なかでもUnityに関する皆さんのお悩みを解決したり、ソフトウェアを作ったり、あとは「恵比寿Unity部」というボランティア活動をして、子どもたちにプログラミングを教えたりしています。今回、アイリアの「おしゃべりAIエージェント」では開発を担当しました。
——おしゃべりAIエージェントは、どのような流れで開発に至ったのでしょうか。
客野一樹(以下:客野):アイリア SDKの活用例を広く知ってもらうことを目的に、どんなことができるのかを示す活動がキッカケとなっています。音声認識のアイリア Speechや音声合成のアイリア VOICEの具体的な使い方を伊藤さんと議論していくなかで、「ぬいぐるみのクマちゃんを喋らせてみたらおもしろいのでは」というアイデアが浮かんできたんです。

伊藤氏:念頭には、開発者が「こんなおもしいものが作れるんだ」と感じられるような、キャッチーなプロダクトを目指してみようという気持ちがありました。そこから一気にイメージが膨らんだ感じですね。過去にも別のエージェントを使ってこういった人形を喋らせたことがあるんですが、そのときはあまり賢くなくて(笑)、少しだけ返事ができる程度のお遊びレベルで終わっていました。しかし、今回のプロジェクトをきっかけに「今ならもっとよいものが作れるかもしれない」と思ったのが出発点となっています。
おしゃべりAIエージェントの開発秘話
——開発はどのようなかたちで進められたのでしょうか。
伊藤氏:客野さんがおっしゃるように、まずは「どう広めるか」を軸に開発がはじまりました。そのなかでアウトプットのひとつとしてプロダクトを形にしてみたら、想像以上におもしろくて。このまま製品化できるかも、という流れになっていった感じです。
AIエージェントといえば、一般的には画面内のデジタルアバターが喋るタイプが多いですよね。でも、それだと他のサービスと大きな差が出ない。だからこそリアルな“なにか”が喋ると、ユニークなんじゃないんじゃないかと考えました。
実際、かたちあるものが喋ると、想像以上に「魂が宿っている」ように感じられるんです。例えばスマホが喋っても「スマホが喋ってるな」と思うだけですが、ぬいぐるみのような存在が話すと、それに人格を感じる。それは新鮮な発見でしたし、他にはない独自性だと思います。
——過去に制作されたエージェントと比較して、特に進化したと感じるポイントは?
伊藤氏:私が開発に関わったのは10年以上前で、当時のクマちゃんは、こちらの発言をうまく解釈できず、間違った理解のまま誤った返答をしてしまうことも多く、会話として成り立たない場面がありました。その点AIが発達した現在、開発したこのおしゃべりAIエージェントは、かなり自然な受け答えができるようになっています。これはやはり、アイリア SDKの力だと感じています。
——開発において、特に注力された点や印象的なエピソードがあれば教えてください。
伊藤氏:もっとも悩んだのは、会話の“間”の処理です。こうしたエージェントとの会話では、質問してから返答までにどうしても2〜3秒のタイムラグが生まれます。音声をテキスト化し、ネット経由でAIに送って、返ってきた内容を音声に変換する。その処理中に、相手が“考えている”ように見せる工夫が必要でした。
最初は録音済みの「うんうん」といった相づちを流していたんですが、毎回同じ音だとすぐに“録音だ”と分かってしまい、人間らしさが損なわれる(笑)。そこで、20種類ほどの相づちを用意してみたものの、再生にはワンテンポ遅れがあって違和感が残りました。

そのとき思い出したのが、テレビのクイズ番組です。「カチ、カチ、チーン」という音が流れることで、“今考えているんだな”“あ、答えが出たな”という文脈が自然に伝わります。この既存の“コンテキスト”を借りて、シンキングタイムを演出することにしました。別に「うんうん」でも良かったんですが、「カチ、カチ、チーン」にしたのは、人間の感覚に馴染んでいたからですね。ちょっとした話ですが、個人的には興味深い発見でした。
——そのほか、開発中に新たな気づきなどはありましたか?
伊藤氏:やはり、ぬいぐるみという実態があって、目があることの影響は大きいように感じました。実体があって、視線を向けると反応が返ってくる。それだけで人は自然と親近感を抱きます。それに今回はぬいぐるみにモーターを搭載して動きをつけることで、さらに生き物っぽさを感じられる。これはデジタルなアバターでは得られない体験で、開発中にあらためて実感した発見でした。
——完成版をご覧になったときに感じたことは?
客野:まず、ユーザー体験の良さを強く感じました。従来のAIエージェントは、PC上で音声認識のスタートボタンをクリックしてはじめるものでしたが、今回は物理的なボタンを押して会話が始まる。その“押す”という動作があることで、よりリアルな体験になっていて、しかも音声のやり取りも滑らか。アナログな違いですが、まるで魔法にかかったような感覚がありました(笑)。
伊藤氏:実は、そのボタン操作を入れるかどうかは迷っていたんですよ。最初のアイリア SDKのサンプルは常時音声を聞いていて、文節ごとにテキスト化していましたが、それだと話の区切りが曖昧で、人の意図が伝わりにくいと感じたんです。そこで、明確に「ここから話す」と区切るために、ボタン操作を取り入れました。
客野:インターフェースがないのもよいポイントですね。ボタンを押して話すだけなので、誰でも迷わずに使えます。多くのAIエージェントは使うまでにアプリやソフトを立ち上げる手間がありますが、これなら誰でも数秒で使いはじめられる。この“UIがない”ことが、かえって大きなメリットになっていると感じています。
アイリア SDKでつなぐ、リアルとAIの境界線
——今回のプロダクトにおいて、アイリアの技術はどのように活かされているのでしょうか?
伊藤氏:このプロダクトはすべてUnity上でアイリア SDKを使って構築しています。中核となっているのは3つの機能です。まず、話しかけた音声をテキストに変換する「Speech to Text」。次に、内容を理解して返答を考える「LLM(大規模言語モデル)」。そして最後に、それを音声に変換する「Text to Speech」。この一連の処理をUnity内で完結できるのが、大きなポイントですね。
——使用している技術自体はすでに存在していたものかと思いますが、開発面での利便性はどうでしたか?
伊藤氏:確かに技術そのものは目新しいものではないですが、Unity上で統合的に扱えるというのは非常に珍しいです。しかも、アイリア SDKには必要なサンプルやソリューションが一通りそろっているので、ゼロから構築する必要がなく、スムーズに着手できました。

客野:世のなかにAIエンジンやPythonのライブラリはたくさんありますが、それをUnityのC#環境に無理なく組み込めるケースは少ないんです。例えば音声認識と音声合成を同時に使おうとすると、不具合が出ることも多い。でもアイリア SDKならそうした心配もなく、すぐに統合できるのが大きな利点です。
——他の製品やサービスへの応用の可能性も見えてきましたか?
伊藤氏:はい。Unity環境でのAI活用が、想像以上に簡単に実現できると分かりました。今後も、UnityでAIを使いたいという案件が出てきたら、まずアイリア SDKが候補に上がるだろうなと確信しています。
おしゃべりAIエージェントの、実践フィールドでの活かし方
——おしゃべりAIエージェントは、どのような業種やシーンでの活用が想定されますか?
伊藤氏:僕がまず思いついたのは、介護現場です。以前からアイリアさんとも話していたのですが、高齢者の話し相手として活用できるのではと感じています。実際、私の母は人形作りが趣味でして、たまに作った人形に話しかけているそうなんです。それを聞いて、おしゃべりAIエージェントのデモを見せたら、すごく喜んでくれて。自然に受け入れられるものなんだなと驚きました(笑)。
これは一例に過ぎませんが、世のなかには無駄話でもいいので、人とやり取りができる存在というのは求められているんですよね。例えば地方のイベントで、ゆるキャラが喋るような使い方もあり得ますし。また、厳密な回答精度が求められない場面なら、パーソナライズされた相手として会話が成立するだけで楽しめる。そんなシーンなら、幅広く展開できると思います。

客野:ある程度決まった案内を求められる企業の受付などはもちろん、伊藤さんのおっしゃった会話のための使用でも活躍できますし。さらに、デスクに置いて「ちょっと困ったら相談する」ような使い方もできると思います。例えば会議室や現場で、意見を求められたときに発言するなど、軽やかに使える補助役としての可能性もあります。
あと、個人的にはAIを知っていただくためのキャンペーン用途にも使えるかなと思っています。昨今はAIエージェントの関心が高まっていますが、実際に「触ってみないとわからない」という声も多い。そこでパソコンで試すのはハードルが高いですが、このようなデバイスであれば、置いておくだけでAIエージェントを体験していただけます。
——今後、おしゃべりAIエージェントをさらに進化させるにあたって、アイリアのソリューションに期待する点は?
伊藤氏:やはり高速化ですね。今回は「Speech to Text」の処理がかなり速くなりましたが、さらに応答全体のレスポンスが上がれば、リアルな会話体験に一層近づきます。また現在はLLMとしてChatGPTを使用していますが、本当はローカルLLMで完結できれば理想ですね。エッジにしてネット接続が不要になれば、現場でも安定して運用できますし、ローカルで処理できるのはアイリア SDKの強みでもあります。できるだけ軽量かつ高速な動作環境が整えば、さらに活用の幅が広がると思います。
客野:開発方針としても、すべてを速くするというより「音声認識なら2倍速い」「音声合成ならこれが最速」といった尖った性能で勝負していきたいと考えています。例えばARMのFP16対応なども進めていて、実装がどんどん現実的になってきました。また、LLMも、小型化が進んでいます。最近はGEMMA3のような軽量モデルも登場していて、ローカルで閉じて運用する環境がだいぶ現実的になってきました。通信に頼らず、サーバートラブルにも強いというのは、非常に大きなメリットになりますね。
——AIエージェントの今後の発展について、どのような展望がありますか?
伊藤氏:実装できていない構想のひとつが「目を持たせること」です。視覚機能を持たせれば、周囲の状況を把握し、人を個別に認識できるようになります。そうすれば「おばあちゃん、昨日の○○はどうだった?」といった、文脈のある問いにも応えられるようになる。目があることで、声だけでなく相手の存在や環境を認識した上で応答できれば、さらに没入感のある体験が生まれるはずです。アイリア SDKには画像認識の機能もあるので、実現可能なアイデアだと考えています。
——カメラを搭載することで、セキュリティ分野への応用も?
伊藤氏:確かに、家族に渡して「見守りAI」として使うことはできると思います。ただ「監視」と受け取られてしまうと難しい面もあるので、プライバシーとの線引きが重要です。とはいえ、目があることで生まれる可能性はたくさんあると感じますね。
客野:視覚が加わると、情報の扱いがセンシティブになるぶん、ローカルで閉じた処理の重要性が増します。そういう意味でも、セキュリティを確保しながら高機能なAIを提供できる仕組みが活きてくると思います。
——アイリアとして、今後おしゃべりAIエージェントをどう展開していきたいと考えていますか?
客野:最近では「コーディングエージェント」のように、エージェントが実際に働くシーンが増えてきました。今後弊社キャラクター「あいにゃん」の姿をしたおしゃべりAIエージェントを量産して、月額で貸し出す“あいにゃん派遣”のようなかたちもおもしろいなと考えています。さまざまな現場で使ってもらうことで、こちらが想定していなかった新しいユースケースが見えてくるかもしれません。
技術者たちが見据えるAIエージェントの未来
——伊藤さんは社外から関わる立場として、アイリアのAI技術をどう見ていますか?
伊藤氏:Unity上で使えるAIエージェントはまだ少ないなかで、すべてを統合的に扱えるのは本当に貴重ですし、そうした強みをぜひ今後も維持していただきたいと思っています。特にAIの進化はとにかく速く、2カ月も経つと使っていた技術が古くなってしまうこともある。そのスピードについていけるかどうかが勝負どころです。開発を止めてしまった瞬間に置いていかれるので、継続してアップデートされることに大きな価値があると感じていて、大変なことだとは思いますが、期待しています。
客野:おっしゃる通りで、3カ月前と今とでは状況がまったく違うのがAIの世界です。最近ではGoogle、Microsoft、OpenAIの三社が立て続けに発表を行い、それだけを追うだけでも相当な労力がかかるような状況です。さらに、各社のフレームワークもどんどん変わっていて、開発のスピードを落とした瞬間に競争から取り残されるリスクもある。逆に言えば、今はフレームワークを継続して開発できる企業が減っているというのも事実で、そこで粘り強く続けていけば、独自の価値を持ったグローバルプロダクトを生み出せるチャンスでもあると思います。
——AIと音声コミュニケーションの今後については、どのように感じていますか?
伊藤氏:これまで文字入力が中心だったコミュニケーションが音声に置き換わることで、ユーザーとデバイスの距離がグッと縮まってくるかと思います。その分、操作が直感的になって、人間の負担が減る。そこにこそAIエージェントの存在意義があると思うんです。例えば、ぬいぐるみのように目を合わせて話せるものや、ロボット的な存在も候補になるでしょう。ただ、いきなりロボットにするのは少し先を行き過ぎている気もしていて、もっとシンプルな形であればウェアラブル端末などでもよいのではと思います。
そういった開発を進めるときに、「音声・映像・LLM」などを必ずしも全部一体化する必要はなくて、必要な機能を柔軟に組み合わせられるSDKがあると非常に助かります。そういう意味でも、開発者にとってアイリア SDKはありがたい存在であるのかなと。

客野:今回開発したおしゃべりAIエージェントは、アイリア SDKの特性を活かしつつ、他にはない独自性の高い製品に仕上げられたのかなと思っています。海外の企業が開発するAIデバイスって、無機質な感じだったりしますよね。でも、このプロダクトにはよい意味で日本人の感性も出ていて、ぬいぐるみのキャラクター性がある。あの「カチ、カチ、チーン」といったシンキングタイムの演出も、まさに日本ならではのコンテキストを持つアイデアで、世界にない魅力だと思います。
伊藤氏:たしかに、日本にはソフトキャラクターを活用したビジネスの土壌がありますから、そこにAIを組み合わせるのはすごく可能性があると思います。今後、おしゃべりAIエージェントがさまざまな企業や自治体などのゆるキャラの形で実装されたらと思うと夢がありますし、日本の文化的な強みを生かしたAI活用は、これからもっとおもしろくなりそうですね。
「話したくなる」AI体験を、あなたの手元に
会話に“魂”を宿すような体験を目指して誕生した、おしゃべりAIエージェント。UnityとアイリアSDKの高い親和性、そして現場の開発者ならではの発想が融合したこのしゃべるAIエージェントは、「話してみたい」と思わせる次世代のインタラクションを実現しています。
Speech to Text、LLM(大規模言語モデル)、Text to Speech、そしてリアルに発話するアバター。この一連の流れをスムーズに統合できたのは、アイリアの技術力ならではのポイント。今後、このパッケージがさまざまなシーンで活用され、皆さんの目に触れる機会もますます増えていくかもしれません。
デモ動画や詳細資料は、アイリアの公式サイトにて公開中。おしゃべりAIエージェントが切り拓く新たな体験を、ぜひその目と耳で体験してみてください。

※本記事はアイリアの製品およびサービスを紹介するPR記事です。

おなかソフト 伊藤 周 氏(写真右)
Unityコンサルタンティング業務やVRゲーム開発を行う企業「おなかソフト」の代表取締役。Unityを学ぶ環境と居場所を提供し、これらの機会創出を目的に活動する子どもたちのための「恵比寿Unity部」なども展開。子ども達の自主性を最優先とし、Unityに限らずやりたい事ができる環境と居場所を提供している。
https://onaca.jp/
アイリア株式会社 客野一樹 (写真左)
筑波大学大学院において各種初等関数のハードウェア実装の研究で博士号を取得。独自のAIフレームワークであるアイリア SDKを企画、開発。現在は先端技術分野を中心にR&Dおよび事業化を行っている。