2026年5月28日、Anthropic から Claude Opus 4.8がリリースされました、前バージョンの 4.7 から地味に色々変わっていて、Claude Code Desktop を日常的に使っている人ほど影響が出てくる内容です
改善された点も、正直イマイチな点も、リリース翌日でまだ分からない点も、できるだけフラットに並べていこうと思います
この記事で扱う範囲はざっとこんな感じです
- Opus 4.8 がどういうモデルでどこで使えるのか
- 4.7 から増えた新機能(Dynamic Workflows ほか)
- ベンチマークで見る性能、他社モデルとの比較
- 価格と、見落としがちな実質コストの話
- 正直に押さえておきたい注意点
- 結局いま乗り換えるべきなのか
LLM やトークン、コンテキストウィンドウあたりの用語がふわっとしている方は、Claudeを始める前に知っておきたい用語集を先に眺めておくと、この記事がぐっと読みやすくなると思います
Claude Opus 4.8 とは どんなモデルなのか
まずは「そもそも Opus 4.8 って何者なのか」から整理します
Anthropic の最上位モデル
Claude には用途別に Opus・Sonnet・Haikuという3つの系統があります、ざっくり言うと、Opus が頭脳派でいちばん賢い代わりに重め、Haiku が軽快で速い代わりに賢さは控えめ、Sonnet がその中間といったイメージです
Opus 4.8 はその中でもトップに位置するモデルで、Anthropic 自身が 「最も能力の高い汎用利用可能モデル」と紹介しています
難しい推論や、長い手順を踏むコーディング作業を任せたいときの本命、という位置づけですね
モデルIDと基本スペック
API などで指定するときのモデルIDは、日付サフィックスのないシンプルな形です
claude-opus-4-8基本的なスペックは 4.7 とほぼ共通で、目立つ数字を並べるとこんな感じです
| 項目 | Opus 4.7 | Opus 4.8 |
|---|---|---|
| コンテキストウィンドウ | 1Mトークン | 1Mトークン |
| 最大出力トークン | 128k | 128k |
| 知識カットオフ | (4.7時点) | 2026年1月 |
| 推論(thinking) | 対応 | adaptive thinking 対応 |
| マルチモーダル | 画像・PDF対応 | 同等(4.7と互換) |
コンテキストウィンドウというのは AIが一度に読み込める情報量の上限のことで、1Mトークンは文庫本でいうと数冊ぶんくらいの規模です、ここは 4.7 から据え置きになっています
知識カットオフは「AIが学習した知識がどこまで新しいか」を示す日付で、4.8 は 2026年1月まで、つまり比較的最近の情報まで頭に入っている状態です
機能セット全体(1Mコンテキスト・prompt caching・バッチ処理・Files API・PDF・画像認識といったツール群)は 4.7とほぼ完全に互換なので、「4.7で使えていた機能が4.8で消えた」という心配は基本的にいりません
どこで使えるのか
Opus 4.8 は主要なプラットフォームでひと通り提供されています
- Claude API(直接利用)
- Amazon Bedrock(ID は
anthropic.claude-opus-4-8) - Google Vertex AI
- Microsoft Foundry(ここだけコンテキストは200kに制限)
- GitHub Copilot(Pro+ / Business / Enterprise 向け)
Claude Code Desktop や Claude アプリで使う分には、こうしたプラットフォームの違いを意識する場面はあまりありません、裏側で Opus 4.8 が呼ばれていると思っておけば十分です
ちなみに引退予定は 2027年5月28日以降とアナウンスされていて、約1年は安心して使える計算になります
4.7から増えた主な新機能
ここからが本題、4.7 から何が増えたのかを見ていきます、大きめのトピックは3つです
Dynamic Workflows 大量の作業を並列でさばく
個人的にいちばん面白いと思っているのが Dynamic Workflowsです、Claude Code 向けに追加された機能で、現時点では research preview(お試し公開)という扱いになっています
何ができるかというと、数百のタスクをサブのClaude(subagent)に振り分けて並列で処理させるイメージです、subagent は「本体とは別に裏で動く補助のClaude」くらいに捉えてもらえれば
たとえば「このフォルダの100個のファイルを全部チェックして」みたいな、数で攻めてくる作業を分担して片付けてくれる、という方向の機能ですね
同時に動かせるのは16個まで、総数では1000個までという上限があって、利用には Claude Code のバージョン v2.1.154 以降が要ります
subagent の考え方そのものは Claude Code の拡張機構の一部です、このあたりをもう少し体系的に知りたい方はClaude Codeの拡張機構入門で4本柱として整理しているので、合わせて読むと立体的に見えてくると思います
Effort Control 考える深さを自分で調整できる
次が Effort Control、これは「Claudeにどれくらい深く考えさせるか」をスライダー的に選べる機能です
そもそも effort って何という話ですが、ざっくり言うと 推論にかける手間の量のことです、深く考えさせれば賢い答えが返ってくる代わりに時間とコストがかかり、浅くすれば速くて安い代わりに雑になりやすい、というトレードオフがあります
4.8 では モデル選択メニューの隣にこの調整UIが追加されて、用途に応じて切り替えやすくなりました
ひとつ注意したいのが、このデフォルト値が high(高め)に変わったという点です、これは地味に効いてくる変更なので、後半の注意点のところでもう一度ふれます
会話の途中で指示を差し込めるようになった
3つめは少し技術寄りの話で、API を使う人向けの改善です、会話の途中でシステムメッセージ(全体の前提となる指示)を差し込めるようになりました
4.7 までは会話の途中でこれをやろうとするとエラーになっていたので、これは素直な改善ですね、しかも プロンプトキャッシュを壊さずに差し込めるのがポイントです
プロンプトキャッシュは「一度読ませた内容を再利用してコストと時間を節約する仕組み」で、これが壊れると毎回読み直しになって割高になります、それを維持したまま途中で方針転換できる、というのは長い対話を組む人にはありがたい変更だと思います
あとは細かいところで、Claudeが回答を拒否したときの詳細情報(stop_details)が公式ドキュメントに正式に載るようになりました、内部的には4.7からあった情報ですが、表に出てきたのは4.8からです
表に出にくい「振る舞い」の改善
新機能とは別に、Anthropic は4.8で 振る舞いの改善もいくつか挙げています、こちらは機能というより「使い心地の調整」に近い話です
- 長丁場のコーディングでの文脈の扱いが安定(途中で記憶を圧縮しすぎる挙動が減った)
- 推論にかける手間の見積もりが、より適切になった
- ツールを呼び出す判断の信頼性が上がった
最後のツール呼び出しのところは、4.7で「必要なツールの呼び出しをスキップしてしまう」という声が一部のユーザーから上がっていた問題への対応とされています
外部からも、Devin を手がける Cognition AI の CEO が「4.7で見られたコメントの冗長さやツール呼び出しの問題が直っている」とコメントしたと報じられています
ただ、ここはあくまで 「改善を狙った」というメーカー側の自己申告であって、実際どこまで体感が変わるかは使い込んでみないと分かりません、ここは正直なところ保留にしておきます
ベンチマークで見る Opus 4.8 の性能
ここからは数字の話です、Anthropic が公開した公式ベンチマークの数値を表にまとめました
ベンチマークというのは AIの性能を測るための共通テストみたいなもので、コーディングや推論といった分野ごとに「正解率」や「スコア」で実力を比べます
公式数値を表で見る
Opus 4.8・Opus 4.7・他社の GPT-5.5・Gemini 3.1 Pro の4つを並べた数字がこちらです
| テスト(測定対象) | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| コーディング(SWE-Bench Pro) | 69.2% | 64.3% | 58.6% | 54.2% |
| ターミナル操作(Terminal-Bench 2.1) | 74.6% | 66.1% | 78.2% | 70.3% |
| 総合的な推論(HLE・ツールなし) | 49.8% | 46.9% | 41.4% | 44.4% |
| 総合的な推論(HLE・ツールあり) | 57.9% | 54.7% | 52.2% | 51.4% |
| PC操作(OSWorld-Verified) | 83.4% | 82.8% | 78.7% | 76.2% |
| 知的業務(GDPval-AA・スコア) | 1890 | 1753 | 1769 | 1314 |
| 金融分析(Finance Agent v2) | 53.9% | 51.5% | 51.8% | 43.0% |
数値の出典は Anthropic 公式のX(旧Twitter)の発表投稿に載っているベンチマーク表です、ここでは画像をそのまま貼らずに、数字だけ表に起こし直しています
読み取れること 着実な底上げ
まず目につくのは、ほとんどの項目で Opus 4.8 が最高スコアになっていることです、4.7 から軒並みスコアが上がっていて、後退している項目はありません
特にコーディング(SWE-Bench Pro)は 64.3% から 69.2% へ約5ポイント伸びていて、ここはハッキリした改善と言えます、Claude Code でコードを書かせる人にはうれしい数字ですね
知的業務(GDPval-AA)のスコア1890も目立ちます、他社と比べてもかなり差があって、文章作成や資料づくりみたいな「ホワイトカラー寄りの仕事」での強さがうかがえます
ただ全体の印象としては、「劇的な飛躍」というより「着実な底上げ」という性格の更新だと思います、世代がガラッと変わったというより、4.7をきっちり磨いてきた感じですね
正直枠 ターミナル操作では他社に負けている
表をよく見ると、ターミナル操作(Terminal-Bench 2.1)だけは GPT-5.5 の 78.2% が Opus 4.8 の 74.6% を上回っています
ターミナル操作というのは、黒い画面でコマンドを連続して打って作業を進めるような、エージェント寄りのタスクのことです、この領域に限っては Opus 4.8 は2位で、GPT-5.5 のほうが得意ということになります
4.7 の 66.1% からは大きく伸びているので Opus 自体は進歩しているんですが、「全部のジャンルで最強」かというと、そうではない、というのが正直なところです
とはいえ Claude Code Desktop を使う一般的な場面では、ターミナルを直接ガリガリ叩くより、ファイル操作やコード生成のほうが出番は多いはずです、その意味では実用上の影響はそこまで大きくないかな、というのが個人的な見立てです
価格と、見落としがちなコストの話
お金の話も大事なので押さえておきます、ここは 「据え置きで安心」と「実は割高になりうる」が同居している、ちょっとややこしいところです
標準料金は据え置き
まず標準の料金、これは 4.7 から据え置きです、MTok は「100万トークンあたり」を意味します
| 項目 | Opus 4.7 | Opus 4.8 |
|---|---|---|
| 入力(標準) | $5 / MTok | $5 / MTok |
| 出力(標準) | $25 / MTok | $25 / MTok |
| キャッシュ読み込み | $0.50 / MTok | $0.50 / MTok |
| バッチ処理 | 50%割引 | 50%割引(同一) |
| Fast mode | $30 / $150 | $10 / $50 |
注目は表のいちばん下、Fast mode が約3分の1に値下げされています、Fast mode は応答を高速化するモードで、4.7 のころは割高でしたが、4.8 でかなり手が届きやすくなりました
こちらは現時点では research preview で、待機リスト制(waitlist)での提供になっています、すぐ全員が使えるわけではない点だけ補足しておきます
トークナイザの「隠れ値上げ」に注意
ここが正直枠その2、価格表だけ見て安心していると足をすくわれかねない話です
4.7 以降で採用されている新しいトークナイザは、同じ文章でも 4.6以前より最大35%ほど多くトークンを消費する可能性が指摘されています
トークナイザというのは 文章を「トークン」という小さな単位に刻む仕組みのことで、料金はこのトークン数で計算されます、つまり同じ内容でもトークン数が増えれば、その分だけ請求額も増えるわけです
厄介なのが、コードや構造化データ、それに日本語のような英語以外の言語ほどこの差が出やすいとされている点です、日本語でガッツリ使う私たちには地味に効いてくる話かもしれません
単価は据え置きでも、消費トークンが増えれば実質的な支払いは上がります、「価格は変わってないのに請求が増えた気がする」みたいなことが起きうる、という頭の片隅メモとして持っておくと良いと思います
とはいえ、定額のサブスクプラン(Pro / Max など)で使っている場合は、トークン単価を直接気にする場面は少ないはずなので、このあたりは API を従量課金で使う人向けの注意、と捉えてもらって大丈夫です
正直に押さえておきたい注意点
新機能やベンチマークだけ見ると良いことずくめに見えますが、注意したい点もあるので並べておきます
effort のデフォルトが high に変わった
新機能のところで予告した話の続きです、4.8 では 推論の深さ(effort)のデフォルトが high に変更されました、Claude Code でも API でも、ほぼすべての場面でこの変更が効きます
深く考えるようになったぶん回答の質は上がりやすいんですが、その代わり 1回あたりの応答が重く、消費トークンも増えやすい傾向になります、先ほどのトークナイザの話と合わせると、コスト面では二重に効いてくる可能性があるわけです
すでに自分で effort を明示的に設定している場合は、この変更の影響は受けません、変わるのは「特に指定していなかった人」の挙動ですね
ちなみにコーディングや、長い手順を自分で考えて進める自律タスクでは、もう一段上の xhigh を明示指定するのが Anthropic 公式の推奨になっています、ガッツリ作業を任せたいときは検討する価値があります
リリース翌日でまだ分からないこと
もうひとつ正直に書いておきたいのが、この記事を書いている時点ではまだ評価が定まっていない領域があるということです
新しいモデルが出ると、しばらくして「前のバージョンのほうが良かった」「出力が冗長になった/逆に短くなった」みたいな声が出てくることがよくあります、ただ Opus 4.8 はリリースされたばかりで、こうしたコミュニティの評価はまだ十分には集まっていません
なので、ここで 憶測で「ここが改悪された」と書くことはしません、実際の使用感に関する評判は、もう少し時間が経ってからのほうが正確に見えてくると思います
同じ理由で、消費者向けプラン(Pro / Max / Team)の利用枠やレート制限に変更があったかどうかも、現時点では確認できていません、このあたりは続報を待ちたいところです
移行はそこまで身構えなくていい
注意点を並べたあとで言うのもなんですが、移行そのものはかなりラクです
API を使っている場合、モデル名を claude-opus-4-7 から claude-opus-4-8 に書き換えるだけでコードはそのまま動き続けます、いわゆる挙動が大きく変わる更新ではありません
- model: claude-opus-4-7
+ model: claude-opus-4-8実質的に意識すべき挙動の変化は、さっき書いた effort のデフォルトが high になったことくらいです、それ以外はほぼ気にせず差し替えて大丈夫だと思います
ひとつだけ補足すると、4.6 以前のさらに古いバージョンから一気に 4.8 へ上げる場合は、4.7 の時点で入った変更を先に踏まえる必要があります、4.7 を飛ばしている人は移行ガイドに一度目を通しておくと安心です
結局いま乗り換えるべきか
ここまでを踏まえて、「で、いま乗り換えるべきなの?」という疑問に、Claude Code Desktop ユーザー目線でざっくり答えます
基本は乗り換えで問題ない
結論から言うと、多くの人はそのまま 4.8 を使って問題ないと思います
ベンチマーク上はほぼ全項目で 4.7 を上回っていて、後退している指標がありません、コーディング力も上がっていますし、ツール呼び出しまわりの安定性改善も方向性としては歓迎できます
そもそも Claude アプリや Claude Code Desktop を普通に使っていると、モデルは自然と新しいものに切り替わっていくので、能動的に「乗り換え作業」をする場面はそんなに多くありません
立ち止まって考えたほうがいいケース
一方で、いくつか立ち止まったほうがいい場面もあります
- API を従量課金で大量に使っていて、コストにシビアな場合(トークナイザ + effort 高めの二重効果に注意)
- ターミナル操作が中心のエージェント用途で、わずかな性能差も気になる場合
- 本番運用していて、出力スタイルの微妙な変化が業務に響く場合(評価が出そろうまで様子見もあり)
こうしたケースでは、いきなり全面移行せず、小さく試してから本番に反映するくらいの慎重さがあってもいいと思います
とくにコスト面が気になる人は、effort を medium に明示して様子を見る、といった調整もできるので、デフォルトの high に縛られすぎないのがコツです
Claude を触り始めたばかりで「そもそも Claude Code Desktop の基本がまだ」という方は、Claudeの使い方を初心者向けに解説した記事から入ると、この記事の内容も腹落ちしやすくなると思います
まとめ Opus 4.8 は堅実な底上げアップデート
最後に Claude Opus 4.8 のポイントを振り返ります
- 2026年5月28日リリース、モデルIDは
claude-opus-4-8、Anthropic の最上位モデル - 新機能は Dynamic Workflows・Effort Control・会話途中のシステムメッセージ投入
- ベンチマークはほぼ全項目で4.7超え、ただしターミナル操作だけは GPT-5.5 が上
- 標準料金は据え置き、Fast mode は値下げ、ただしトークナイザの実質コスト増には注意
- effort のデフォルトが high に変更、移行自体はモデル名の差し替えだけでOK
全体としては、世代がガラッと変わる派手な更新ではなく、4.7 をていねいに磨き上げた堅実なアップデートという印象です
性能は素直に上がっていますし、移行のハードルも低いので、基本は前向きに使っていい更新だと思います、そのうえで、コストやデフォルト設定の変化、ターミナル用途での立ち位置あたりは頭に入れておくと、より納得して付き合えるんじゃないでしょうか
評価が定まってくる頃にまた追記できたらいいなと思っています、リリース直後の現時点では、まずはこのあたりが全体像です
Claude や AI まわりの用語でつまずいたら、Claudeを始める前に知っておきたい用語集が辞書代わりになるので、ブックマークしておくと何かと便利だと思います



コメント