NVIDIAが550Bパラメータのオープンモデル「Nemotron 3 Ultra」を公開し、高性能なAIエージェントを自社環境で動かせる選択肢が現実になりました。
Computex 2026(6月1日)で発表されたこのモデルは、MoE(混合エキスパート)アーキテクチャを採用しています。550Bという数字を見ると重そうですが、実際に推論で動くパラメータは55Bだけです。「必要な専門家だけを起動する」仕組みで、300トークン/秒以上のスピードを出しており、体感的な遅さはありません。
Artificial Analysis Intelligence Indexで米国オープンモデル最高スコア
ベンチマーク「Artificial Analysis Intelligence Index」では48点を記録し、米国産オープンモデルで過去最高スコアです。比較すると、Gemma 4 31Bが39点、前バージョンのNemotron 3 Superが36点、OpenAIのgpt-oss-120bが33点。差はかなりはっきりしています。
スコアだけでモデルの優劣は決まりませんが、コーディングや長期調査、企業の複雑なワークフローでこれだけの差があれば、実際の作業クオリティに反映されます。
エージェントフレームワークへの対応が最初から整っている
今回の大きなポイントは、主要なエージェントプラットフォームとの連携が最初から整備されていることです。Hermes Agent、LangChain Deep Agents、OpenHands、OpenCodeなど、企業がエージェントを動かすときに使うオーケストレーションフレームワークとの相性を調整した上でリリースされています。
エージェント開発の現場では複数のAIモデルを使い分ける動きが広がっていますが、オープンウェイトでここまで性能が高いモデルが出てくると、クローズドAPIと組み合わせるという選択肢が一段と現実的になります。
自社サーバーで動かせることの意味
オープンウェイトモデルの強みは、重みをダウンロードして自分のサーバーで動かせる点です。顧客データや社内の機密情報を外部APIに送らずに済むため、情報管理の観点でクローズドモデルより選びやすいケースがあります。
コスト面でも変わります。APIを呼ぶたびに課金されるクローズドモデルと違い、サーバーを確保すれば使い放題に近い運用が可能です。エージェントは1タスクで何度もLLMを呼ぶ設計が多く、コスト差はダイレクトに響きます。NVIDIAの発表では、複雑なエージェントタスクで最大30%のコスト削減を見込めるとしています。
HuggingFace、OpenRouter、build.nvidia.comで6月4日から利用できます。試すなら、まずOpenRouterか公式のbuild.nvidia.comが手軽です。
FREE DOWNLOAD
実務で使えるお役立ちコンテンツを無料で見る
無料会員登録で、実務で使えるAIテンプレート・プロンプト・PDFを受け取れます。
全PDFにアクセスする(無料)
無料会員登録して受け取る
オープンモデルって名前はよく聞くけど、何が違うのかピンとこない…という感覚、わかります。
今回のポイントは「自社サーバーで動かせる」という部分で、データを外に出せない業種や規模の企業には、実はかなり大きな話です。
まず触れるだけなら無料でできるので、OpenRouterから試してみてください。