レアゾン・ホールディングス(東京都新宿区)は、世界最大級の日本語音声コーパスと高精度日本語音声認識モデル「ReazonSpeech v2」を公開した。同社のReazonSpeechは、以前から日本語音声認識コミュニティーから注目を集めており、音声コーパスの自動構築手法に関する論文は、言語処理学会で優秀賞を受賞した。

「ReazonSpeech v2」は、前バージョンと比べてコーパス量が1.8倍の35,000時間に増加し、認識速度も7倍に向上。これにより、リアルタイムでの会話書き起こしなどへの応用が容易になった。音声コーパスは機械学習の学習材料として重要で、特に日本語の大規模なコーパスの公開は技術発展に寄与する。

ReazonSpeechの音声コーパスは、ワンセグ放送の録画データから自動抽出される。新たに公開されたコーパスは、日本語音声データベースの中で類を見ない規模を誇る。また、ライセンスはCDLA-Sharing-1.0を適用し、商用利用も可能だ。

ReazonSpeechの日本語音声認識モデルは、OpenAIのWhisperと比較しても高精度で高速。新バージョンでは、ESPnetとNeMoを用いたモデルを提供し、より幅広いニーズに応える。同社は、ReazonSpeechコミュニティーを通じて、日本語音声認識技術の普及と発展を目指す。

出典:プレスリリース