LegalOn Technologiesの研究者らは、OpenAIのGPT-4とAnthropicのClaude 2が米国のほとんどの弁護士の要件である法曹倫理試験に合格できることを証明し、人工知能(AI)の分野で大きな進歩を遂げた。この成果は、法律専門家を支援するAIの可能性を浮き彫りにし、法律分野における大規模な言語モデルの高度化を示しているという。

今年の初めに、生成AIモデルGPT-4が法学部学生を上回る成績で統一司法試験に合格できる可能性があることが判明した。LegalOnの最近の研究はこの発見を拡張し、これらのモデルが職業上の責任に関連する複雑なルールや事実パターンも処理できることを示している。法律における倫理の重要性は、弁護士が合格する必要がある独立した倫理試験によって強調されているとのこと。

LegalOnは研究の中で、OpenAIのGPT-4、GPT-3.5、AnthropicのClaude 2、GoogleのPaLM 2 Bisonなど、いくつかの主要な生成AIモデルをテストし、Multistateとして知られる法曹倫理試験用に設計された問題に正しく答える能力をテストした。GPT-4は最高のパフォーマンスを示し、質問の74%に正解し、平均的な人間の受験者を推定6%上回った。GPT-4とClaude 2は両方とも、MPREが必要とされる全ての州で、MPREのおおよその合格基準を上回るスコアを獲得したという。

この研究では、GPT-4のパフォーマンスが主題分野によって異なることも明らかになり、改善の余地があることが示された。利益相反や顧客との関係などの分野では非常に優れたパフォーマンスを発揮したが、資金の保管などのテーマではそれほどうまくいきませんでした。これらの調査結果は、より専門分野に特化した知識と弁護士主導のトレーニングと検証によってパフォーマンスが向上する可能性があることを示唆している。LegalOnの調査では、専門家の法律コンテンツと知識をAIシステムと統合してプロレベルのツールを開発することの重要性が再確認されているとのことだ。

出典:プレスリリース