導入

Grok3 は事前トレーニング済みモデルの「エンドポイント」になると思いますか?

イーロン・マスク氏とxAIチームは、ライブストリームでGrokの最新バージョンであるGrok3を正式に発表しました。この発表に先立ち、膨大な関連情報とマスク氏の24時間体制のプロモーション活動が相まって、Grok3への世界的な期待はかつてないレベルにまで高まりました。わずか1週間前、マスク氏はライブストリームでDeepSeek R1についてコメントし、「xAIはより優れたAIモデルをリリースしようとしている」と自信たっぷりに述べました。ライブ配信で発表されたデータによると、Grok3は数学、科学、プログラミングのベンチマークにおいて、現在の主流モデルをすべて上回っていると報告されています。マスク氏はGrok3がSpaceXの火星探査ミッションに関連する計算タスクに利用され、「3年以内にノーベル賞レベルのブレークスルーが達成される」と予測しています。しかし、これらは現時点ではマスク氏の主張に過ぎません。発表後、私はGrok3の最新ベータ版をテストし、大規模モデルに関する定番のトリック質問をしてみました。「9.11と9.9、どちらが大きいですか？」残念ながら、修飾語やマークがないにもかかわらず、いわゆる最も賢いGrok3でさえこの質問に正しく答えることができませんでした。Grok3は質問の意味を正確に理解できなかったのです。

このテストはすぐに多くの友人からかなりの注目を集め、偶然にも、海外のさまざまな同様のテストでは、Grok3 が「ピサの斜塔から最初に落ちるボールはどれですか?」などの基本的な物理/数学の問題に苦戦していることがわかりました。そのため、Grok3 は「簡単な質問に答えたがらない天才」というユーモラスなレッテルを貼られています。

Grok3 は良いですが、R1 や o1-Pro より優れているわけではありません。

Grok3は、実際に多くの一般常識テストで「失敗」を経験しました。xAIのローンチイベントで、マスク氏はGrok3を使って、自身が頻繁にプレイしているというゲーム「Path of Exile 2」のキャラクタークラスと効果を分析するデモを行いましたが、Grok3が出した解答のほとんどは不正解でした。ライブ配信中、マスク氏はこの明らかな問題に気づきませんでした。

このミスは、海外のネットユーザーがマスク氏をゲーム業界で「代替品を探している」と嘲笑する根拠をさらに強めただけでなく、Grok3の実用における信頼性について重大な懸念を引き起こしました。このような「天才」は、実際の性能はさておき、火星探査のような極めて複雑な応用シナリオにおける信頼性には依然として疑問が残ります。

現在、数週間前に Grok3 へのアクセス権を取得した多くのテスターと、昨日数時間モデルの機能をテストしたばかりのテスターは、全員が共通の結論を示しています。「Grok3 は優れていますが、R1 や o1-Pro より優れているわけではありません。」

「NVIDIAの破壊」に関する批判的視点

リリース中に公式に発表された PPT では、Grok3 がチャットボットアリーナで「はるかにリードしている」ことが示されましたが、これはグラフィックテクニックを巧みに使用したものでした。リーダーボードの縦軸には 1400 ～ 1300 のスコア範囲の結果のみがリストされ、テスト結果の元の 1% の差がこのプレゼンテーションでは非常に大きく見えるようにしました。

実際のモデルスコアリング結果では、Grok3 は DeepSeek R1 および GPT-4.0 をわずか 1 ～ 2% 上回っており、これは多くのユーザーが実践テストで「目立った違いはない」と感じた結果と一致しています。Grok3 は後継機種を 1 ～ 2% 上回っているだけです。

Grok3は現在公開されているすべてのモデルよりも高いスコアを獲得していますが、多くの人はこれを真剣に受け止めていません。というのも、xAIはGrok2時代に「スコア操作」の疑いで批判されたことがあるからです。リーダーボードが回答の長さをペナルティの対象としたことでスコアは大幅に低下し、業界関係者は「スコアは高いが能力は低い」という現象をしばしば批判しました。

リーダーボードの「操作」やイラストのデザイントリックなど、これらの事例は、xAIとマスク氏がモデル能力において「他をリードする」という概念に執着していることを如実に表しています。マスク氏はこうしたマージンを得るために、大きな代償を払いました。発表会では、20万基のH100 GPU（ライブ配信では「10万基以上」と主張）を使用し、総トレーニング時間2億時間を達成したと豪語しました。この発言を受け、DeepSeekがGPU業界にとって新たな大きな恩恵をもたらすと信じる声も上がり、DeepSeekがGPU業界に与える影響は「愚か」だと考える声も上がっています。特に注目すべきは、純粋な計算能力こそがモデルトレーニングの未来を担うと考える人がいることです。

しかし、一部のネットユーザーは、DeepSeek V3を作成するために2ヶ月間2,000基のH800 GPUを消費した計算結果を比較し、Grok3の実際のトレーニング消費電力はV3の263倍であると算出しました。1,402ポイントを獲得したDeepSeek V3とGrok3の差はわずか100ポイント弱です。このデータが公開された後、多くの人がすぐに、Grok3が「世界最強」という称号の背後には、明確な限界効用効果、つまり、より大きなモデルがより高いパフォーマンスを生み出すというロジックが、収穫逓減の傾向を示し始めたことに気付きました。

Grok2は「スコアは高いが能力は低い」という特徴を備えていたものの、X（Twitter）プラットフォームから得られる膨大な量の高品質なファーストパーティデータによって運用をサポートしていました。しかし、Grok3の学習において、xAIは当然のことながら、OpenAIが現在直面している「限界」に遭遇しました。つまり、高品質な学習データの不足によって、モデルの能力の限界効用が急速に露呈してしまうのです。

Grok3の開発者とマスク氏は、おそらくこれらの事実を深く理解し、認識している最初の人物でしょう。だからこそマスク氏はソーシャルメディアで、ユーザーが現在体験しているバージョンは「まだベータ版」であり、「フルバージョンは数ヶ月以内にリリースされる」と繰り返し述べています。マスク氏はGrok3のプロダクトマネージャーの役割を担い、ユーザーが遭遇した様々な問題についてコメント欄でフィードバックを提供するよう促しています。彼はおそらく、地球上で最もフォロワー数の多いプロダクトマネージャーでしょう。

しかし、わずか1日でGrok3のパフォーマンスは、より強力な大規模モデルの学習に「巨大な計算力」を期待する人々に間違いなく警鐘を鳴らしました。Microsoftが公開している情報によると、OpenAIのGPT-4のパラメータサイズは1兆8000億で、GPT-3の10倍以上です。噂によると、GPT-4.5のパラメータサイズはさらに大きくなる可能性があるとのことです。

モデルのパラメータサイズが急増するにつれて、学習コストも急騰しています。Grok3の登場により、GPT-4.5などの競合モデルは、パラメータサイズによってモデル性能を向上させるために「資金を浪費」し続けたいと考えているため、今や明らかに見えてきた限界を考慮し、それを克服する方法を検討する必要があります。OpenAIの元チーフサイエンティストであるイリヤ・スツケバー氏は昨年12月に「私たちが慣れ親しんできた事前学習は終わりを迎える」と述べており、この発言が議論の中で再燃し、大規模モデルの学習における真の道筋を見出すための取り組みが活発化しています。

イリヤ氏の見解は業界に警鐘を鳴らした。彼は、利用可能な新規データが間もなく枯渇し、データ取得によるパフォーマンス向上が不可能になる状況を的確に予測し、それを化石燃料の枯渇になぞらえた。「石油と同様に、インターネット上の人間が生成したコンテンツは有限の資源である」と彼は指摘した。スツケヴァー氏の予測によれば、事前学習を経た次世代モデルは「真の自律性」と「人間の脳に匹敵する」推論能力を備えるという。

今日の事前学習済みモデルは主にコンテンツマッチング（学習済みモデルコンテンツに基づく）に依存していますが、将来のAIシステムは、人間の脳の「思考」に似た方法で問題解決のための方法論を学習し、確立できるようになります。人間は基本的な専門文献を読むだけで、ある分野の基礎的な能力を習得できますが、AIの大規模モデルは、最も基本的なエントリーレベルの有効性を達成するだけでも数百万のデータポイントを必要とします。たとえ言葉遣いがわずかに変更されたとしても、これらの基本的な質問は正しく理解されない可能性があり、モデルの知能が真に向上していないことを示しています。記事の冒頭で述べた、基本的でありながら解決できない質問は、この現象の明確な例です。

結論

しかし、力ずくの手段を超えて、Grok3 が実際に「事前トレーニング済みモデルの終焉が近づいている」ことを業界に明らかにすることに成功した場合、この分野にとって重大な意味を持つことになります。

おそらく、Grok3 をめぐる熱狂が徐々に収まった後、Fei-Fei Li 氏の「特定のデータセットでわずか 50 ドルで高性能モデルをチューニングする」という例のような事例がさらに増え、最終的に AGI への真の道が発見されることになるだろう。

ELVケーブルソリューションを探す

制御ケーブル

BMS、BUS、産業、計装ケーブル用。

ここをクリック

構造化配線システム

ネットワーク＆データ、光ファイバーケーブル、パッチコード、モジュール、フェースプレート

ここをクリック

2024年の展示会とイベントのレビュー

投稿日時: 2025年2月19日

「世界で最も賢い」Grok3のテスト

導入

Grok3 は良いですが、R1 や o1-Pro より優れているわけではありません。

「NVIDIAの破壊」に関する批判的視点

結論

制御ケーブル

構造化配線システム

2024年4月16日～18日 ドバイにおける中東エネルギー会議

2024年4月16日～18日 モスクワのSecurika

2024年5月9日 上海で新製品・新技術発表イベント開催

2024年10月22日～25日 北京にて開催されたSECURITY CHINA

2024年11月19日～20日 コネクテッドワールドサウジアラビア

2024年4月16日～18日ドバイにおける中東エネルギー会議

2024年4月16日～18日モスクワのSecurika

2024年5月9日上海で新製品・新技術発表イベント開催

2024年10月22日～25日北京にて開催されたSECURITY CHINA

2024年11月19日～20日コネクテッドワールドサウジアラビア