謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ) | GameBusiness.jp

謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ)

今回は、わずか2700万パラメータという小規模なモデルでありながら、複雑な推論タスクにおいて最先端の大規模言語モデル(LLM)を凌駕するモデルを開発した論文「Hierarchical Reasoning Model」を取り上げます。

その他 その他
謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ)
  • 謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ)
  • 謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ)
  • 謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ)

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、わずか2700万パラメータという小規模なモデルでありながら、複雑な推論タスクにおいて最先端の大規模言語モデル(LLM)を凌駕するモデルを開発した論文「Hierarchical Reasoning Model」を取り上げます。

この論文はシンガポールのSapient Intelligenceと清華大学による研究発表です。Sapient Intelligenceはシンガポールに本社を置き、サンフランシスコと北京に研究センターを構えるグローバルなAGI研究企業です。精華大学卒の若き2人が創設し、チームメンバーにはGoogle DeepMind、DeepSeek、Anthropic、xAIの出身者が含まれます。

今回提案したオープンソースモデル「Hierarchical Reasoning Model」(HRM、階層的推論モデル)は、たった2700万パラメータという超軽量タイプ。比較すると、クローズドモデルはほとんど非公開なのでわかりませんが、OpenAIのGPT-3は1750億パラメータ、オープンモデルだとMetaのLlama 3で最大4050億パラメータです。

現在のLLMは、複雑な推論を行う際に「Chain-of-Thought」(CoT)と呼ばれる手法に依存しています。これは、問題を言語的なステップに分解して順次処理する方法ですが、タスク分解の脆弱性、データ量の要求が大きく、応答時間が遅いという課題があります。

HRMは人間の脳における階層的処理と時間スケールの分離という原理に着想を得ています。脳では、高次の皮質領域が抽象的で長期的な処理を担当し、低次の領域が詳細で即時的な処理を行います。これを模倣して、HRMは高レベルモジュールと低レベルモジュールという2つの相互依存する再帰的モジュールで構成されています。

▲脳にヒントを得たHRMは、異なる時間スケールで動作する2つの再帰型ニューラルネットワークを持つ

高レベルモジュールは抽象的な計画立案を担当し、ゆっくりと更新されます。一方、低レベルモジュールは詳細な計算を高速で実行し、各サイクル内で局所的な収束に達します。このプロセスにより、標準的な再帰型ニューラルネットワークが陥りがちな早期収束の問題を回避し、効果的な計算深度を大幅に増加させることに成功しています。

実験の結果は、わずか1000件のトレーニング例を使用し、事前学習やCoTなしで、HRMは複雑な推論タスクで卓越した性能を達成しました。人間には簡単だがAIには難しい汎用人工知能(AGI)を測定するベンチマーク「ARC-AGI-1」では40.3%の精度を達成し、これはOpenAIのo3-mini-highの34.5%、Claude 3.7 8Kの21.2%を上回る成果です。

特に、最先端のCoTモデルが完全に失敗する極めて困難な数独パズルで55%、30×30の迷路探索で74.5%という高い精度を達成しています。

さらに、リリース記事ではAGIを評価するより難しいベンチマーク「ARC-AGI-2」において、スコア5%のパフォーマンスを達成し、はるかに大きなサイズとコンテキスト長に依存するOpenAI o3-mini-high、DeepSeek R1、Claude 3.7 8Kなどを大幅に上回りました。

▲ベンチマークタスクにおけるHRMによる中間予測の可視化した図

▲1000件のトレーニング例で評価したベンチマークスコア




《山下裕毅(Seamless)》

この記事の感想は?

  • いいね
  • 大好き
  • 驚いた
  • つまらない
  • かなしい
【注目の記事】[PR]

関連ニュース

特集

人気ニュースランキングや特集をお届け…メルマガ会員はこちら