人工知能(AI)は医療分野に変革をもたらしており、GatorTronGPTのような生成AIモデルがその先頭に立っている。スーパーコンピューターで訓練されたこのモデルは、Nature Digital Medicineの最近の論文で詳しく説明されている。GatorTronGPTは、ChatGPTと同様に、GPT-3フレームワークを使用して、臨床データでトレーニングされた大規模言語モデル(LLM)の成長傾向の一部だ。このモデルは、匿名化された臨床ノートからの820億語と、さまざまな英語テキストからの1950億語を含む、2770億語のコーパスを使用してトレーニングされたという。

革新的な工夫として、研究チームはGatorTronGPTを使用して、200億語を超える合成臨床テキストコーパスを生成した。医師が書いた実際の臨床メモを模倣したこの合成臨床テキストは、GatorTron-Sと呼ばれるBERTベースのモデルをトレーニングするために使用された。このアプローチは、膨大な量のデータを必要とするLLMと、入手可能な質の高い医療データが限られているという課題に対処するとのこと。

GatorTron-Sは、臨床概念抽出や医療関係抽出などの臨床自然言語理解タスクで優れたパフォーマンスを実証した。これは、820億語の臨床データセットでトレーニングされたオリジナルのBERTベースのモデルGatorTron-OGによって設定された記録を上回った。特に、GatorTron-Sはより少ないデータを使用してこれを達成したとのこと。

GatorTron-OGモデルとGatorTron-Sモデルは両方とも、スーパーコンピューター上でNVIDIAのMegatron-LMパッケージを実行する560個のNVIDIA A100 TensorコアGPUでトレーニングされた。LLMによって作成された合成データを使用すると、HIPAAなどの医療プライバシー規制に準拠したモデルトレーニングも保証される。GatorTronGPTとのこの取り組みは、さまざまな分野を支援するためにLLMをどのように調整できるかを例示し、アクセラレーションコンピューティングを活用した新しいAI技術によって可能になった進歩を示しているとのことだ。

ソース:NVIDIA Newsroom