1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、AIの生成において、同じような答えばかり返ってしまう問題を解決する方法を提案した論文「Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity」を取り上げます。この論文は、ノースイースタン大学とスタンフォード大学などに所属する研究チームが発表しました。
大規模言語モデル(LLM)に「コーヒーに関するジョークを教えて」と尋ねると、どのモデルも判で押したように同じような答えを返してきます。5回とも全く同じジョークが返ってくることもあります。

▲AIに同じ質問を何度しても同じ内容の答えが返ってくるイラスト(絵:おね)
物語を書かせれば「昔々あるところに……」で始まり、ブレインストーミングを頼めばありきたりなアイデアばかり。この退屈な現象は「モード崩壊」と呼ばれ、LLMの創造的な可能性を大きく制限しています。
研究チームは、この現象の根本原因が「典型性バイアス」にあることを突き止めました。それは、人間が無意識のうちにありきたりな文章を好む傾向があるということです。私たちは見慣れたパターンや、予測しやすい内容を良いと評価しがちです。AIの学習に使用される人間の評価データにもこのバイアスが含まれているため、AIも典型的で無難な応答に偏ってしまうのです。
この問題に対する解決策として提案されたのが「Verbalized Sampling」(VS)という手法です。これは驚くほどシンプルなアプローチで、LLMに単一の回答を求めるのではなく、複数の可能な回答とそれぞれの確率を出力させるというものです。
例えば「5つのジョークを、それぞれの確率とともに生成してください」というようにプロンプトを工夫します。
通常のプロンプトでは、司書に「最も人気のある本を1冊ください」と頼むようなもので、これだと毎回同じベストセラーが渡されます。一方、VSは「この図書館の全コレクション(ミステリー、SF、歴史などすべて)を考慮して代表する本を5冊、それぞれがコレクション全体のどれくらいを代表しているか(確率)と共に選んでください」と頼むようなもので、これにより、より多様な本が渡されます。
VSの利点は、訓練不要なところです。既存のどのLLMにも、特別なAPIアクセスや改変なしに適用できます。

▲「Verbalized Sampling」(VS)の概要図
実験結果は、詩創作、物語創作、創造的な執筆タスクにおいて、VSは従来の手法と比較して1.6から2.1倍の多様性向上を達成しました。人間による評価スコアも25.7%向上しました。さらに、VSは事前学習モデルが本来持っていた多様性の66.8%を回復させることに成功しました。
実際の例を見てみましょう。「熊についての短い物語を書いてください」という指示に対し、通常のプロンプトでは森で暮らす熊の典型的な物語が生成されます。しかしVSを使用すると、「シアトルのダウンタウンで税理士として働く特大シート付きの改造SUVで毎日通勤している熊のバーナードの物語」など、創造的で思慮深い作品が生まれました。
画像生成においてもVSは多様性を発揮します。

▲上段が従来のLLMで、下段がVSによる出力結果
対話シミュレーションの実験では、寄付を求められた人間の反応をシミュレートする際、通常のプロンプトでは大多数が1ドルくらいの少額を即座に寄付するという単一なパターンになりました。しかしVSを使用すると、拒否から躊躇、後悔まで、実際の人間の行動分布(多様な寄付金額)により近い、現実的で多様な反応が生成されました。
合成データ生成においても、VSは下流タスクのパフォーマンス向上に貢献しました。数学問題の合成データセットを生成し、それを用いてモデルをファインチューニングした結果、VSを使用した場合は従来手法と比較して4.7%の精度向上が見られました。