サンフランシスコ、2024年4月4日 – Gretelは、エンタープライズ分野のAI機能を強化することを目的とした、大規模なオープンソースのText-to- SQLデータセットのリリースを発表した。Hugging Hugging Faceでホストされているこのデータセットは、Apache 2.0でライセンスされており、SQLメタデータを備えた10万を超える合成Text-to- SQLサンプルを誇り、100の異なる業種を幅広くカバーしている。このリソースは、ビジネスユーザーがエンタープライズデータをより効果的に活用できるようにするAIモデルのトレーニングを促進し、さまざまな組織全体でAI主導のプロジェクトを加速することを目的としている。

Gretelの共同設立者兼最高製品責任者であるアレックス・ワトソン氏は、生成AI開発における質の高いトレーニングデータの重要性を強調した。同氏は、オープンソース コミュニティーに貢献するというGretelの取り組みは、そうしたデータの不足に取り組むための戦略的な動きであると強調した。Gretelが提供する合成テキストからSQLへのデータセットは、自然言語クエリーを解釈してSQLコマンドに変換できるAIモデルを開発者が作成できるように設計されている。この革新により、技術者以外のユーザーでも、SQLを習得したり専門チームに頼ったりすることなく、複雑なデータベースから簡単に洞察を抽出できる。

企業がデータリポジトリーの潜在能力を解き放とうとしているため、テキストからSQLへのデータの需要が急増している。データリポジトリーは、多くの場合、SQLに精通したユーザーしかアクセスできない。従来のテキストからSQLへのデータセットは、範囲が限られており、作成にコストがかかる。これは、Yaleの学生が注釈を付けるのに多大な労力を要したSpiderデータセットに例えられる。これとは対照的に、GretelのデータセットにはSQLコードの自然言語による説明が含まれており、ユーザーの理解とデータの実用性が向上する。

Gretelのデータセットは、コピーレフトライセンスによって制限される可能性のある他のデータセットとは異なり、より柔軟なApache 2.0ライセンスの下で配布されているため、開発者は制約の少ない派生作品を作成できる。このリリースは、データクエリーを簡素化する会話型AIアプリケーションを可能にすることで、金融、医療、政府など、さまざまな分野に力を与えることを目指している。AIアプリケーションのデータ品質を向上させるというGretelの取り組みは、データセットの作成に高度な生成AIモデルとプライバシーテクノロジーを使用していることから明らかだ。詳細については、ブログとHugging Faceをご覧ください。Gretelの提供内容の詳細については、同社のウェブサイトをご覧ください。

出典:プレスリリース