Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
%20(1).webp)
自動音声認識AI「Conformer-2」、英数字や固有名詞の認識など向上
AssemblyAIは、自動音声認識用の最新AIモデルであるConformer-2を発表した。Conformer-1の成功を踏まえて構築されたConformer-2は、単語認識、固有名詞の精度、ノイズ耐性の向上を誇っている。
Conformer-2は、前バージョンよりも大幅に大きい110万時間の英語音声データからなる広範なデータセットでトレーニングされた。このモデルは、ラベル付けに複数の強力な教師モデルを使用するモデルアンサンブルを活用し、トレーニング中に過去に見たことがないデータにさらされた場合の堅牢性とパフォーマンスを向上させる。
ワード誤り率(WER)はConformer-1と一致していたが、Conformer-2はさまざまなユーザー指向のメトリクスで大幅な向上を示した。英数字の転写精度は31.7%向上し、固有名詞エラー率とノイズに対する堅牢性はそれぞれ6.8%と12.0%向上した。
Conformer-2の開発中に重要な焦点となったのは、固有名詞に特化したモデルのパフォーマンスを定量化する固有名詞エラー率(PPNER)メトリクスの作成であり、これは実際のユースケースに不可欠だ。
Conformer-2のトレーニングはAssemblyAI独自のGPUコンピューティングクラスター上で実行され、クラウドベースのインフラと比較して速度の向上が可能になった。この社内ハードウェアの導入により、継続的な実験と研究が促進され、モデルの優れたパフォーマンスに貢献した。
今後に向けて、AssemblyAIはユーザーのフィードバックに基づいてモデルを改良し、現実世界のアプリケーションに関連するより多くのメトリクスを開発し続ける予定だ。同社はまた、将来の進歩に向けて、マルチモダリティーと自己教師あり学習の探求を開始した。
Conformer-2のリリースで、AssemblyAIはそのAPIにspeech_thresholdパラメーターを導入した。ユーザーが処理するオーディオファイルに必要な音声の割合のしきい値を設定できるようにする。Conformer-2はAssemblyAIのAPIを介してアクセスできるデフォルトモデルとなり、既存のAPIユーザーによる変更を必要とせずに優れたパフォーマンスを提供する。
Conformer-2のパワーを体験したい場合、ユーザーはAssemblyAIのPlaygroundを通じてそれを試すことができる。音声ファイルまたはYouTubeリンクをアップロードして、高速で正確な文字起こしを受け取ることができる。
最新のニュース
Copyright © 2024 Generatived - All right Reserved.
ニュース
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。



%20(1).webp)


