Cerebras が CG-1 スーパーコンピューターで三言語 AI モデルをトレーニング

Cerebras Systems は最近、バルセロナスーパーコンピューティングセンターで洗練された三言語言語モデルである FLOR-6.3B のトレーニングに成功したことで話題になりました。英語、スペイン語、カタロニア語を含むこのモデルは、Condor Galaxy (CG-1) AI スーパーコンピューターを使用して 2.5 日という驚くほど短期間で開発されました。 Cerebras と G42 のコラボレーションである CG-1 は、64 台の Cerebras CS-2 システムで構成されており、アラビア語と英語のモデルである Jais の初期の成功に続き、多言語 AI モデルの進歩に貢献してきました。

バルセロナスーパーコンピューティングセンターは、FLOR-6.3B モデルをトレーニングすることによって AI 分野で革新を行っています。このモデルは、英語に比べて利用可能なトレーニングデータが少ないカタルーニャ語やスペイン語などの言語に重点を置いていることが特に注目に値します。 BSC チームは Cerebras と協力して、完全にトレーニングされた大規模言語モデル (LLM) の埋め込み層を調整するという新しいアプローチを採用し、より大規模なデータセットを使用したトレーニングの効果をシミュレートしました。この手法は、データリソースであまり表現されていない言語の AI モデルを強化する広範な取り組みの一環です。

FLOR-6.3B は FLOR シリーズの一部であり、7 億 6,000 万から 63 億のパラメータを持つモデルに及び、BLOOM プロジェクトの公開されているチェックポイントから派生しています。これらのチェックポイントは、多言語データの多様なコーパスで事前トレーニングされました。モデルをカタロニア語とスペイン語にさらに近づけるために、50,257 個のサブワードの語彙を備えた新しいトークナイザーが開発され、BLOOM 語彙の要素とターゲット言語でより一般的なサブワードが結合されました。このカスタマイズにより、言語適応が改善されただけでなく、モデルのパラメーター数も削減され、推論コストが 10% 以上削減されました。

FLOR モデルのトレーニングでは Condor Galaxy 1 AI スーパーコンピューターの能力を活用し、小型モデルでは個々の Cerebras CS-2 システムを使用し、大型の FLOR-6.3B モデルでは 16 台の CS-2 を使用しました。 FLOR-6.3B のトレーニングプロセス全体は、1,400 億トークンに対してわずか 2.5 日で完了しました。このモデルは現在オープンソースであり、研究と商業利用の両方にその機能を提供しています。 Cerebras と G42 の合弁事業である Condor Galaxy は、世界最大の AI スーパーコンピューターの 1 つであり、4 エクサフロップスの計算能力と最大 6,000 億のパラメーターを持つモデルをサポートする能力を誇ります。その設計により、プログラミングが簡素化され、分散コンピューティングに通常伴う複雑さが排除されるため、大規模な AI モデルの開発が加速されます。

出典：プレスリリース

AI企業/製品/技術 AIと法律/制度/経済/社会