Claude Opus 4.7 徹底レポート：13%向上したコーディング性能と新しいxhigh努力レベルを解説

2026-04-17 （更新: 2026-05-27） by ZeroZawa

はじめに

2026年4月16日、AnthropicがClaude Opus 4.7をリリースしました¹。前バージョンのOpus 4.6から約2ヶ月での更新となります。

発表と同時に複数のメディアが「現時点で最も強力な一般公開済みLLM」と報じましたが²、AI Businessは「good but not great（良いが特別ではない）」と評するなど³、評価は割れています。

この温度差はどこからくるのでしょうか。Anthropicが未公開モデル「Mythos」の存在を認めており、Opus 4.7は同社の内部では「2番目に強力なモデル」に過ぎないという背景があります⁴。それでも、開発者にとって重要な改善が詰まっていることは確かです。

本記事では、ベンチマークデータと新機能を整理し、自分のワークフローに移行すべきかどうかの判断材料を提供します。

Claude Opus 4.7 — 5つの主要アップデート概要

何が変わったか：5つの主要アップデート

1. コーディング性能の底上げ

最も数字として分かりやすいのが、コーディングベンチマークの改善です。

ベンチマーク	Opus 4.6	Opus 4.7	改善幅
SWE-bench Pro	53.4%	64.3%	+10.9pt
SWE-bench Verified	80.8%	87.6%	+6.8pt
CursorBench（IDE環境）	58%	70%	+12pt

注目はCursorBenchの数字です⁵。このベンチマークはIDE環境での実際のコーディングタスクを評価するもので、SWE-benchより実務に近い指標とされています。12ポイントの向上は、日常的なコーディングアシスト体験に直接影響します。

また、Anthropicは「本番タスクの解決数が3倍」と発表していますが⁶、これはエージェントループでの自律的なタスク完了を指しており、単純な補完精度とは異なります。

2. 新しいxhigh努力レベル

Opus 4.7で最も実用的な新機能の一つが、xhigh（extra high）努力レベルです⁷。

Claude Effort Level Scale — xhigh は high と max の間に位置する新レベル

Claudeのeffortパラメータは、推論に費やす計算量を制御します。従来のスケールは low → medium → high → max でした。ここに xhigh が追加され、high と max の間に位置します。

なぜこれが重要かというと、high では質が不十分だが max では遅すぎる・高すぎる、というユースケースが多かったからです。

xhigh が向くタスク:

複数ファイルにまたがるリファクタリング
アーキテクチャレベルの設計判断
微細な競合状態（race condition）のデバッグ

Anthropicは Claude Code でのデフォルトを xhigh に設定しました⁸。開発者フィードバックで「highでは品質が足りない」という声が多かった結果です。

3. ビジョン性能の大幅向上

Opus 4.7では解像度サポートが大幅に拡張されました。

指標	Opus 4.6	Opus 4.7
最大解像度	1568px	3.75MP（約2576px）
視覚ナビゲーション（ツールなし）	57.7%	79.5%
視覚精度（visual acuity）	54.5%	98.5%

解像度の総ピクセル数は約3.26倍に増加しています⁹。視覚精度が54.5%→98.5%という大幅な向上は、文字の読み取りや細部の認識精度が根本的に改善されたことを意味します。UIスクリーンショットの分析や、図表を含むドキュメントの処理に実際的な影響があります。

4. エージェント向けの機能強化

Opus 4.7はエージェント用途向けの機能が充実しています。

タスクバジェット（Task Budgets）: エージェントループ全体でのトークン目標値を指定できる新機能です¹⁰。thinking・ツール呼び出し・ツール結果・最終出力を合わせたトークン数の目安を渡すことで、モデルがコスト効率よく推論を配分します。

ファイルシステムベースのメモリ改善: スクラッチパッドやメモリファイルへの書き込みと参照が改善されています¹⁰。エージェントが複数ターンにわたって情報を蓄積・活用するタスクで恩恵を受けます。

GPQA Diamond 94.2%： 多分野推論ベンチマークで94.2%を記録し¹¹、エージェントが扱う専門的な判断タスクの精度向上も確認されています。

5. 知識カットオフの延長

知識カットオフが2025年5月→2026年1月に更新されました¹²。約8ヶ月分の最新情報が組み込まれており、2025年後半から2026年初頭にかけての出来事やリリースについても回答できます。

価格と利用可能なプラットフォーム

Opus 4.7の価格はOpus 4.6と同一です。

区分	価格
Input	$5 / 100万トークン
Output	$25 / 100万トークン

注意点: Opus 4.7では新トークナイザーが導入されており、同一プロンプトでも実際のトークン消費量が0〜35%増加する可能性があります¹³。価格単価は変わらなくても、実費は上がるケースがあります。移行前にトークン数の変化を確認することを推奨します。

利用可能なプラットフォーム:

Anthropic API
Amazon Bedrock
Google Cloud Vertex AI
Microsoft Foundry
GitHub Copilot
Snowflake Cortex AI

価格が据え置かれた一方で、新トークナイザーによる実費増加の可能性がある点を考えると、「移行するかどうか」は単純ではありません。

Opus 4.6 から移行すべきか

同じ価格で性能が上がっているなら、即移行すれば良い——と思いがちですが、実際はそう単純ではありません。

移行を推奨するケース:

ビジョン機能を活用している（解像度の恩恵が大きい）
エージェント型のコーディングタスクが主な用途
新しいプロジェクトを開始する
知識カットオフが重要（2025年後半の情報が必要）

移行を急がなくてよいケース:

現行プロンプトがOpus 4.6向けに調整済みで安定している
ビジョン非依存のバックエンド・アルゴリズム系タスクが主
コスト予測を重視している（新トークナイザーの影響を測定したい）

Apiyi.comの比較分析によると、コーディング以外・ビジョン非依存のタスクでは4.6と4.7の差は数字ほど大きくないとされています¹⁴。「とりあえず最新版」ではなく、自分のユースケースで評価することが重要です。

セキュリティ面での変更

機能向上とは別に、リリースノートで注目すべき安全性への配慮があります。

Anthropicは、Opus 4.7の訓練過程でサイバー脅威能力を意図的に低減する手法（「differential reduction」）を適用したと発表しています¹⁵。これは、特定のサイバー攻撃に使えるような知識・能力を、他の性能を損なわずに選択的に抑制するアプローチです。悪用リスクを抑えながら一般公開するための措置であり、Anthropicが安全性を優先するスタンスを改めて示したものとも言えます。

セキュリティ専門家がペネトレーションテストや脆弱性調査などの正当な目的で使用する場合は、Anthropicの公式認証プログラムへの申請を通じて利用が可能です。

筆者の実体験：xhighは「ちょうどいい」が、トークンは確実に重くなった

ここまでベンチマークとリリースノートを整理してきましたが、筆者（ZeroZawa）はこのOpus 4.7をClaude Codeのエンジンとして毎日使っています。数字には出てこない、実際に常用して感じた2点を共有します。

xhighの思考の深さは、確かに「ちょうどいい」。 移行前に一番期待していたのがこのxhighでした。実際に使い続けてみると、highでは一歩足りず、maxでは過剰——という従来の悩みにちょうど挟まる深さで、体感としてやり直し（同じ依頼を条件を変えて投げ直す回数）が明確に減りました。複数ファイルにまたがる変更を一度の指示で破綻なくまとめてくれる頻度が上がった、という実感です。

ただし、トークン消費は確実に重くなりました。 これは移行を検討する人に正直に伝えておきたい点です。xhighは推論に多くの計算を割くぶん、消費トークンも増えます。筆者の場合、込み入った設計タスクに向き合っていたら、一度の重いやり取りで5時間ぶんの利用枠（Claudeのレート制限ウィンドウ）を一気に使い果たしてしまったことがありました。本文で触れた新トークナイザーによる増加も合わさると、「単価据え置き＝実費据え置き」では決してありません。質の向上はトークンという形で確実に支払う、というのが使ってみての結論です。

まとめ

Claude Opus 4.7の主な改善点を整理します。

明確に向上した点：

IDE環境でのコーディング精度（CursorBench +12pt）
ビジョン解像度と精度（最大3.75MP、視覚精度98.5%）
知識カットオフ（2026年1月まで）

開発者にとって実用的な新機能：

xhigh努力レベル（Claude Codeではデフォルト）
タスクバジェットによるエージェントループの制御
ファイルシステムメモリの改善

注意すべき点：

新トークナイザーによる実費増加の可能性
ビジョン・コーディング重視でない用途では差が小さい
Mythos未公開の状況下での「最強モデル」評価

Anthropicが「good but not great」と評されつつも前進を続けているこの時期、Opus 4.7は開発者ツールとしての完成度を着実に高めています。特にClaudeを自律エージェントとして動かしている開発者にとっては、試す価値のあるアップデートです。