BigQueryは、Document AIとの統合を発表したとのことで、これにより、ユーザーはドキュメントデータから貴重な洞察を抽出し、大規模な言語モデルを使用して新しいアプリケーションを開発できるようになる。このコラボレーションにより、BigQueryユーザーは、特定のドキュメントタイプとメタデータに合わせて調整された、Googleの高度なモデルを使用したカスタムエクストラクタを作成できるようになるとのことだ。これらのエクストラクタはSQLを使用してBigQuery内で直接呼び出すことができ、非構造化ドキュメントデータを構造化された実用的な情報に変換するプロセスを合理化する。

この統合により、多大な手作業と投資が必要となることが多かった、独立した Document AI パイプラインを構築するこれまで複雑なプロセスが簡素化される。今後、ユーザーは Document AI カスタム抽出ツールのリモート モデルを BigQuery で簡単に確立できるようになりました。この進歩により、ドキュメントの分析と生成 AI のより大規模な適用が容易になり、データ主導型の意思決定とイノベーションの強化への道が開かれる。

BigQuery と Document AI の統合により、データ抽出から AI アプリケーションまでシームレスなエクスペリエンスが提供される。ユーザーは、BigQuery Studio でSQLを使用して、ドキュメント スキーマの定義、カスタム モデルのトレーニング、ドキュメントの分析を行うことができる。このプロセスには、リモート モデルの登録、Cloud Storage に保存されているドキュメントのオブジェクト テーブルの作成、ML.PROCESS_DOCUMENT 関数を使用したデータ フィールドの抽出が含まれる。この統合により、ドキュメント分析が強化されるだけでなく、構造化データと非構造化データを組み合わせてビジネスに関する包括的な洞察を得ることができるとのことだ。

BigQueryとDocument AIのパートナーシップは、分析を超えて生成AIアプリケーションにまで広がり、ユーザーは高度な検索クエリのインデックスを構築し、プライバシーフィルタリングやコンテンツの安全性チェックなどのタスクに生成LLMアプリケーションを利用できる。構造化テキストデータは、他のメタデータとともに、言語モデルを微調整するためのトレーニングデータセットの準備に役立つとのことだ。この統合により、LLM ユースケースが適切に管理されたエンタープライズグレードのデータに基づいて構築され、より制御された効率的な AI エクスペリエンスが提供される。

ソース:AI & Machine Learning | Google Cloud Blog