NVIDIAがNemotron 3 Ultraを公開

NVIDIAが550Bパラメータのオープンモデル「Nemotron 3 Ultra」を公開し、高性能なAIエージェントを自社環境で動かせる選択肢が現実になりました。

Computex 2026（6月1日）で発表されたこのモデルは、MoE（混合エキスパート）アーキテクチャを採用しています。550Bという数字を見ると重そうですが、実際に推論で動くパラメータは55Bだけです。「必要な専門家だけを起動する」仕組みで、300トークン/秒以上のスピードを出しており、体感的な遅さはありません。

Artificial Analysis Intelligence Indexで米国オープンモデル最高スコア

ベンチマーク「Artificial Analysis Intelligence Index」では48点を記録し、米国産オープンモデルで過去最高スコアです。比較すると、Gemma 4 31Bが39点、前バージョンのNemotron 3 Superが36点、OpenAIのgpt-oss-120bが33点。差はかなりはっきりしています。

スコアだけでモデルの優劣は決まりませんが、コーディングや長期調査、企業の複雑なワークフローでこれだけの差があれば、実際の作業クオリティに反映されます。

エージェントフレームワークへの対応が最初から整っている

今回の大きなポイントは、主要なエージェントプラットフォームとの連携が最初から整備されていることです。Hermes Agent、LangChain Deep Agents、OpenHands、OpenCodeなど、企業がエージェントを動かすときに使うオーケストレーションフレームワークとの相性を調整した上でリリースされています。

エージェント開発の現場では複数のAIモデルを使い分ける動きが広がっていますが、オープンウェイトでここまで性能が高いモデルが出てくると、クローズドAPIと組み合わせるという選択肢が一段と現実的になります。

自社サーバーで動かせることの意味

オープンウェイトモデルの強みは、重みをダウンロードして自分のサーバーで動かせる点です。顧客データや社内の機密情報を外部APIに送らずに済むため、情報管理の観点でクローズドモデルより選びやすいケースがあります。

コスト面でも変わります。APIを呼ぶたびに課金されるクローズドモデルと違い、サーバーを確保すれば使い放題に近い運用が可能です。エージェントは1タスクで何度もLLMを呼ぶ設計が多く、コスト差はダイレクトに響きます。NVIDIAの発表では、複雑なエージェントタスクで最大30%のコスト削減を見込めるとしています。

HuggingFace、OpenRouter、build.nvidia.comで6月4日から利用できます。試すなら、まずOpenRouterか公式のbuild.nvidia.comが手軽です。