モルフォAIS(東京都千代田区)は、日本語LLMの学習データ生成に特化したAI-OCRサービスを開始すると発表した。このサービスは、企業や研究機関が独自のLLMを構築する際に必要な多様な日本語テキストデータを提供することを目的としているとのこと。

日本語LLMを構築する上で、1990年以前の文書など多様なデータが不足している問題に対応するため、モルフォAISは高精度なテキスト生成を可能にするOCR出力サービスを提供する。これにより、組織は自らの保有する文書から正確な日本語データを抽出し、LLMの学習に活用できるようになるという。

サービスの特徴としては、文書専用のAI-OCRを用いて読み順を含む約7000種類の文字種の正確な読み取りが可能であり、画像ファイルを含む雑多な文書もテキストデータに変換できる。国立国会図書館を含む多数の機関での実績があるとのこと。

興味のある組織は、モルフォAISのウェブサイトから無償トライアルを申し込むことができる。FROG AI-OCRは、国立国会図書館のNDLOCRをコアエンジンとしており、クラウド上で全機能を利用可能であるとのことだ。

出典:プレスリリース