エーアイ(東京都文京区)は、生成AIと連携し高速に発話開始を可能にする「入力ストリーミング音声合成API」を開発し、miiboに採用されたと発表した。この技術は、生成AIが出力するテキストトークンをリアルタイムで音声合成APIに入力し、文章生成中に音声を生成する。これにより、長文の応答も高速化される。

miibo(代表取締役CEO 功刀雅士)は、このAPIを利用し、会話型AIの高速応答を実現。利用者は、miiboプラットフォームで簡単に会話型AIを作成できる。試用を希望する方はmiiboに問い合わせることができる。デモ動画では、大阪観光案内や父の日のプレゼント相談などのシナリオが紹介されている。

生成AIとの音声コミュニケーションでは、従来の音声合成では文章全体の解析が必要で、応答に時間がかかることが課題だった。しかし、エーアイの新APIでは、テキストトークンごとに解析を開始し、人間のように「考えながら喋る」ことが可能になる。これにより、生成AIとの自然な音声対話が実現される見込みだ。

エーアイは、AITalk6 Serverとして2024年上期に新機能を販売開始する予定である。音声対話システムへの導入に興味がある場合は、問い合わせ先に連絡を取ることができる。この技術は、ChatGPTやClaude3、Gemini Proなど、さまざまな生成AIに対応している。

出典:プレスリリース