Claude Opus 4.7の「/ultrareview」機能とは具体的にどのような機能ですか？

Claude Opus 4.7の「/ultrareview」は、コードレビューに特化した新機能です。従来の汎用的なコード解析から、より深い静的解析、セキュリティチェック、パフォーマンス最適化の提案まで行い、人間のレビュアーと同等以上の精度でコードの問題点を特定できます。

SWE-bench 87.6%というスコアはどれくらいすごいのでしょうか？

SWE-bench 87.6%は非常に高いスコアです。SWE-benchはソフトウェアエンジニアリングのベンチマークテストで、実際のGitHubのissueを解決する能力を測定します。従来のAIモデルが60-70%台だったのに対し、87.6%は人間の熟練エンジニアに匹敵する水準です。

AIモデルが3カ月おきに更新される中で、いつアップグレードするのがベストですか？

プロジェクトの重要な節目（リリース後やスプリント終了時）でのアップグレードがおすすめです。また、現在使用中のモデルで明確な限界を感じた時、もしくは新モデルが前バージョンから20%以上の性能向上を示している場合に検討するのが効率的です。

Claude Opus 4.7が登場——「/ultrareview」とSWE-bench 87.6%で、コードレビューの外注先がまたAIに移る

AnthropicがClaude Opus 4.7を2026年4月16日に公開しました。コーディング支援と推論精度を両立させた最新モデルで、複数ツールに分散していた開発業務を1モデルに集約できる環境が整いつつあります。

ベンチマークが示す実用水準

今回のリリースで公開されたスコアは、単なる数値の更新ではなく実務との接続を意識した指標として読むべきものです。ソフトウェアエンジニアリングの実力を測るSWE-benchで87.6%、科学的推論の難問集GPQAで94.2%を記録しました。これらは「どのタスクまでAIに任せられるか」という判断軸として機能します。

マルチエージェントレビューの実際

新機能 /ultrareview は、コードレビューの構造を根本から変えます。これまで単一エージェントが順番に読んでいたコードを、複数のエージェントが並列で担当する仕組みです。セキュリティ上の問題、パフォーマンスのボトルネック、ロジックの整合性——それぞれを別のエージェントが独立して確認し、結果を統合して返します。人間のレビュアーが分担して行っていた役割を1つのコマンドで再現できるようになるため、初稿レビューにかかっていた工数は大きく変わります。

長大タスクを中断なく処理できる変化

拡張タスク予算の追加も地味に効いてきます。これまで「途中で止まる」「続きを別プロンプトで送り直す」という手間が発生していた大規模なリファクタリングや複数ファイルにまたがる仕様変更が、中断なく処理できるケースが増えます。作業の区切りを人間が管理する負担が減るという点で、現場の体感は変わるはずです。

アップグレードの判断基準が変わってきている

3カ月ごとに上位モデルが入れ替わり、いつ乗り換えるべきかわからないという問題は今回も解消されていません。ただ、判断の軸は少し明確になりました。スコアが更新されたかどうかよりも、/ultrareview のようなワークフロー統合機能が自社の開発フローに接続できるかどうかが実質的な基準になってきています。APIの接続先、既存ツールとの連携、チームの習熟度——これらが揃ったタイミングが、アップグレードの現実的な適切時期です。Claude Opus 4.7はAnthropic APIおよびClaudeビジネスプランから利用できます。ChatGPTをメインで使っているチームにとっても、コードレビュー用途に限定した併用という選択肢は今回の機能追加によって現実的になりました。