「世界で最も賢い」GROK3のテスト

AIPUワトングループ(1)

導入

GROK3は事前に訓練されたモデルの「エンドポイント」になると思いますか?

Elon MuskとXaiチームは、ライブストリーム中にGrok 3 Grok3の最新バージョンを正式に発売しました。このイベントの前に、マスクの24時間年中無休のプロモーション誇大広告と相まって、かなりの量の関連情報がGROK3に対するグローバルな期待を前例のないレベルに引き上げました。ちょうど1週間前、MuskはLiveStreamで自信を持って「Xaiはより良いAIモデルを立ち上げようとしている」とコメントしながら、自信を持って述べました。ライブで提示されたデータから、GROK3は数学、科学、プログラミングのベンチマークで現在のすべての主流モデルを上回っていると伝えられており、MuskはGROK3がSpaceXの火星ミッションに関連する計算タスクに使用され、3年以内にノーベル賞レベルでのブレークスルーを予測すると主張しています。しかし、これらは現在、マスクの主張にすぎません。発売後、GROK3の最新のベータバージョンをテストし、「どちらが9.11または9.9が大きいですか?」残念ながら、予選やマーキングがなければ、いわゆる賢いGROK3はまだこの質問に正しく答えることができませんでした。 GROK3は、質問の意味を正確に識別できませんでした。

 

このテストはすぐに多くの友人からかなりの注目を集めました。偶然にも、海外でのさまざまな同様のテストでは、GROK3が「ピサの傾斜塔から最初に落ちるボール」などの基本的な物理学/数学の質問に苦労していることが示されています。したがって、それはユーモラスに「簡単な質問に答えたくない天才」とラベル付けされています。

640

GROK3は優れていますが、R1やO1-Proよりも優れていません。

GROK3は、実際に多くの一般的な知識テストで「障害」を経験しました。 Xaiの打ち上げイベント中に、MuskはGROK3を使用して亡命2のゲームパスからのキャラクターのクラスと効果を分析することを実証しました。ライブストリーム中のムスクは、この明らかな問題に気づきませんでした。

 

この間違いは、海外のネチズンがゲームで「代替品を見つける」ためにムスクをock笑するためのさらなる証拠を提供しただけでなく、実際のアプリケーションにおけるGROK3の信頼性に関する重要な懸念を提起しました。そのような「天才」の場合、実際の能力に関係なく、火星探査タスクなどの非常に複雑なアプリケーションシナリオでの信頼性は疑わしいままです。

 

現在、grok3にアクセスした多くのテスター、および昨日数時間モデル機能をテストしたばかりのテスターは、すべてが共通の結論を指します:「GROK3は良いが、R1またはO1-PROよりも優れていません。」

640(1)

「nvidiaの破壊」に関する重要な視点

リリース中に公式に提示されたPPTでは、GROK3がチャットボットアリーナで「はるかに先」であることが示されましたが、この巧妙に使用されたグラフィックテクニック:リーダーボード上の垂直軸は1400-1300スコア範囲にリストされている結果、テスト結果の元の1%の違いがこのプレゼンテーションで非常に重要に見えます。

640

実際のモデルスコアリング結果では、GROK3はDeepSeek R1とGPT-4.0をわずか1〜2%先に示しており、これは「顕著な違いがない」と見られた実際のテストでの多くのユーザーの経験に対応しています。 GROK3は後継者を超えて1%〜2%を超えています。

640

GROK3は現在公開されているすべてのモデルよりも高いスコアを獲得していますが、多くはこれを真剣に受け止めていません。結局のところ、Xaiは以前にGROK2時代の「スコア操作」で批判されてきました。リーダーボードが回答の長さスタイルを罰したため、スコアは大幅に減少し、業界のインサイダーがしばしば「スコアリングが高いが能力が低い」という現象を批判することがよくあります。

 

リーダーボードの「操作」であろうと、イラストのデザインのトリックを介して、モデル機能における「パックをリードする」という概念に対するXaiとMuskの執着を明らかにします。マスクはこれらのマージンに急な価格を支払いました。打ち上げ中に、彼は200,000 H100 GPU(ライブストリーム中に「100,000以上」を主張する)を使用し、合計2億時間のトレーニング時間を達成することを自慢しました。これにより、GPU業界にとってもう一つの重要な恩恵を表していると信じる人もいれば、このセクターに対するディープシェクの影響を「愚か」と見なすようになりました。特に、純粋な計算能力がモデルトレーニングの未来になると考える人もいます。

 

ただし、一部のネチズンは、2か月にわたって2000 H800 GPUの消費量を比較してDeepSeek V3を生成し、GROK3の実際のトレーニング電力消費量がV3の263倍であると計算しています。 1402ポイントを獲得したDeepSeek V3とGROK3のギャップは100ポイント弱です。このデータのリリースに続いて、多くの人は、GROK3のタイトルの背後に「世界最強」としての明確な限界ユーティリティ効果があることをすぐに認識しました。

640(2)

「スコアが高いが能力が低い」にもかかわらず、GROK2にはX(Twitter)プラットフォームからの高品質のファーストパーティデータが膨大な量の使用をサポートしていました。ただし、GROK3のトレーニングでは、Xaiは現在直面している「天井」に自然に遭遇しました。プレミアムトレーニングデータの欠如は、モデルの能力の限界効用を迅速に公開します。

 

GROK3とMUSKの開発者は、これらの事実を深く理解して特定した最初の人物である可能性が高いため、Muskはソーシャルメディアで、ユーザーが現在経験しているバージョンは「まだ単なるベータ」であり、「フルバージョンは今後数か月以内にリリースされる」とソーシャルメディアで継続的に述べています。 Muskは、GROK3のプロダクトマネージャーの役​​割を引き受け、ユーザーがコメントセクションで遭遇するさまざまな問題についてフィードバックを提供することを提案しています。

 

しかし、1日以内に、GROK3のパフォーマンスは、「大規模な計算筋肉」に依存してより強力な大きなモデルを訓練することを望んでいる人々のために間違いなくアラームを提起しました。噂によると、GPT-4.5のパラメーターサイズがさらに大きくなる可能性があります。

 

モデルパラメーターサイズが急上昇するため、トレーニングコストも急上昇しています。 GROK3の存在により、GPT-4.5などの候補者や、パラメーターサイズを介してより良いモデルパフォーマンスを達成するために「燃焼」を継続したい他の候補者は、現在明確に見えている天井を考慮し、それを克服する方法を考慮する必要があります。現時点では、Openaiの元チーフサイエンティストであるIlya Sutskeverは、昨年12月に「私たちがよく知っている事前トレーニングは終わりに近づいている」と述べ、議論で再浮上し、大きなモデルを訓練するための真の道を見つける努力を促しました。

640(3)

イリヤの視点は、業界の警告を発しています。彼は、アクセス可能な新しいデータの差し迫った疲労を正確に予見し、データ収集を通じてパフォーマンスを強化し続けない状況につながり、化石燃料の疲労に例えます。彼は、「オイルのように、インターネット上の人間で生成されたコンテンツは限られたリソースである」と述べた。 Sutskeverの予測では、次世代のモデルであるPre-Pre-Trainingは、「真の自律性」と「人間の脳と同様の推論能力を持ちます。

 

主にコンテンツマッチング(以前に学習したモデルコンテンツに基づいて)に依存している今日の事前に訓練されたモデルとは異なり、将来のAIシステムは、人間の脳の「思考」に似た方法で問題を解決するための方法論を学習して確立することができます。人間は、基本的な専門文献だけを持つ主題の基本的な習熟度を達成できますが、AIの大規模なモデルでは、最も基本的なエントリーレベルの有効性を達成するために何百万ものデータポイントが必要です。文言がわずかに変更された場合でも、これらの基本的な質問は正しく理解されていない場合があり、モデルの知能が真に改善されていないことを示しています。記事の冒頭で言及されている基本的な未解決の質問は、この現象の明確な例を表しています。

微信图片_20240614024031.jpg1

結論

しかし、ブルートフォースを超えて、GROK3が実際に「事前に訓練されたモデルが彼らの目的に近づいている」ことを業界に明らかにすることに成功した場合、それはこの分野に大きな意味を持ちます。

おそらく、GROK3を取り巻く狂気の後に徐々に沈静化した後、FEI-FEI LIの「特定のデータセット上の高性能モデルをわずか50ドルで調整する」という例のようなより多くのケースを目撃し、最終的にAGIへの真の道を発見します。

ELVケーブルソリューションを見つけます

制御ケーブル

BMS、バス、産業、計装ケーブル。

構造化されたケーブルシステム

ネットワークとデータ、光ファイバーケーブル、パッチコード、モジュール、フェイスプレート

2024展示会とイベントレビュー

2024年4月16日から18日、ドバイの中東エネルギー

2024年4月16日から18日、モスクワのSecurika

2024年5月9日、上海での新製品&テクノロジーの立ち上げイベント

2024年10月22日25日、北京のセキュリティ中国

2024年11月19-20日、つながりの世界KSA


投稿時間:2月19-2025