Googleが「Gemini 3 Deep Think」をGoogle AI Ultraの加入者向けに展開したことで、数学オリンピック金メダル超えの推論エンジンが実務で使える選択肢になった。

ARC-AGI-2で84.6%、IMO証明問題で90%に達した推論の実力

Gemini 3 Deep Thinkは2025年7月、国際数学オリンピック(IMO)で金メダル水準のスコアを達成した。IMOは世界最難関の数学競技のひとつで、2025年大会では42点満点中35点を記録している。2026年2月のアップグレード以降は証明問題ベンチマーク「IMO-ProofBench Advanced」でも最大90%に達し、推論精度がさらに上がった。

評価指標として注目されているのが「ARC-AGI-2」のスコア84.6%だ。これはパターン暗記ではなく、見たことのない問題を「考えて」解く能力を測るベンチマークで、現在のAIモデルの中でも最上位クラスにある。難問集「Humanity’s Last Exam」——現代のフロンティアモデルの限界を測るために設計された問題集——でも、外部ツールなしで48.4%を記録している。

Deep Thinkという名前のとおり、このモデルは回答を出す前に複数の推論ステップを重ねる。単純な質問への速答ではなく、複雑な問題を分解し、複数の角度から検証し直す設計になっている。答えが出るまでに時間がかかることもあるが、その分、精度は高い。

ラトガーズ大学の数学者が発見した、査読を通り抜けた論理の欠陥

ラトガーズ大学の数学者リサ・カーボーン氏がDeep Thinkを使って高度な数学論文を査読したところ、人間の査読をくぐり抜けていた論理的な欠陥を特定した。AIが専門的な論理検証に実際に役立った具体例として、研究コミュニティでも注目されている。

こうした使い方は数学論文に限らない。法律文書の矛盾チェック、財務モデルの前提検証、複雑な技術仕様のレビューなどでも同様のアプローチが使える。「専門家でないと判断できない」と思われていた領域に、AIが補助として入ってくる動きは今後も続くはずだ。自社のどの業務に応用できるかを考えると、選択肢は意外と広い。

Google AI Ultraでのみ使える現状と、今後の展開

現在Deep Thinkが使えるのはGoogle AI Ultraの加入者と、Gemini APIの早期アクセスプログラムに参加している研究者・企業のみ。Ultraは2026年5月に料金体系が改定されて二段階構成になった。AI市場ではGeminiとClaudeの台頭でChatGPTのシェアが50%を割り込むほど競争が激化しており、GoogleはUltraを高度な推論能力が必要なユーザー向けの最上位の差別化軸として位置づけている。

APIへの一般展開は今後見込まれており、企業向けの活用はさらに広がりそうだ。数学・科学・論理推論に特化した能力が月額サービスの範囲で使えるようになった変化は、技術系の意思決定や高難度の調査を行う組織にとってひとつの転換点になりうる。専門家の頭の中にしかなかった判断基準を、ツールが補完し始めている。

ドリップドリップ(執筆)

数学オリンピックと聞くと「自分には関係ない話」って思いますよね。でも実は、この推論能力って論文査読だけじゃなく、ビジネスの論理チェックにも使える話なんです。

査読を通り抜けた欠陥をAIが発見した事例、読んでいて少し背筋が伸びました。「専門家じゃないと無理」と思っていたレビュー作業が、少し変わってきそうです。

Ultraを使っている方はまず触れてみてください。「これに使える」を自分で見つけることが、次の一歩になるはずです。

FREE DOWNLOAD

実務で使えるお役立ちコンテンツを無料で見る

無料会員登録で、実務で使えるAIテンプレート・プロンプト・PDFを受け取れます。

全PDFにアクセスする(無料)

無料会員登録して受け取る