Talk Lowy(jp)

投稿

ラベル（토큰 최적화）が付いた投稿を表示しています

上位モデルが正解？AI実務で気づいた「Harness Engineering」の本当の価値

Claude Fable 論争、そして相次ぐ質問 Anthropicの新モデル Claude Fable 5 がリリースからわずか3日で米国政府の指示によりアクセス停止という前代未聞の事態が起きました。サイバーセキュリティの脆弱性悪用の可能性と安全対策の迂回方法が主な懸念点でした。この出来事がコミュニティ全体で話題になり、顧客や同僚から自然と質問が集まりました。「Fableのような高機能モデルを導入すべきでしょうか？今使っているモデルでは不十分ですか？」私の答えは一貫しています。そしてこの記事では、その根拠を数値と実務経験で解説します。私が使うモデルの基準線以下の条件を満たすモデルの中から、最もコスト効率の良い（トークン単価が低い）モデルを選択しています。プロバイダー基準モデル私の選択基準 Anthropic Claude Sonnet 4.5以上 Sonnet 4.x系列 OpenAI GPT-5.4 Codex以上同等Mid-tier Google Gemini 3 Flash以上 Flash系列この基準線以上であれば、アーキテクチャ設計、大規模コードレビュー、複雑なインフラ分析も実務レベルで処理できます。実際に私は以下の作業をこの級のモデルで毎日行っています。単一プロジェクト内のソースファイル3万件以上の管理（コードレビュー、リファクタリング、アーキテクチャ分析）数百台規模のAWS + On-premise + Azure混合インフラのパフォーマンス分析と異常検知リアルタイムの顧客AI環境の運用と障害対応「高価なモデル = より良い結果」は誤った前提です Claude Opus 4.8、GPT-5.5などの上位モデルも実際に使用しました。正直に言うと、アウトプットの質が劇的に向上するわけではありませんでした。理由は明確です。モデルの限界より、Harnessの限界が先に来ます。 2026年現在、AI開発方法論は3段階に進化しています。第1段階（2022-2024）: Prompt Engineering 「何を言えば良い答えが得られるか？」第2段階（2025）: Context Engineering 「...

【AIの豆知識】Gemini 3.5 Flash vs 3.1 Pro、トークンがあっという間に溶ける理由と賢いモデル選択ガイド

【AIの豆知識】Gemini 3.5 Flash vs 3.1 Pro、トークンがあっという間に溶ける理由と賢いモデル選択ガイドこんにちは！最近、Googleの次世代AIラインナップである Gemini 3.5 Flash と Gemini 3.1 Pro を使ってみて、「あれ？なんでこんなにトークン（コスト）がすぐに消えちゃうの？」と慌てた方も多いのではないでしょうか。少し質問しただけなのにトークン制限に引っかかったり、高額な請求が来たりする泣きたくなる状況…。一体なぜこんなことが起こるのか、そしてお財布を守りながらAIの効率を最大化するモデルやオプションの選択基準を総まとめします！ 1. 私のトークンはどこへ？犯人は「Thinkingモード」 Google Gemini 3.xラインナップの最強の武器は、ズバリ「内蔵型の高度な推論（Thinking）機能」です。これは、AIが最終的な答えを出す前に、内部で深く考える段階を経るというものです。ここに落とし穴があります。 AIが内部で頭をフル回転させながら使った独り言（推論トークン）が、すべて「出力（Output）トークン使用量」に含まれて計算されるという点です！ Thinking (High) モードの恐ろしさ: ユーザーが1行の質問を投げただけでも、AIは完璧な答えを出すためにバックグラウンドで独自にエージェントループを回し、何万ものトークンを消費してしまいます。見た目は短い回答でも、実際には莫大なトークンが消費されている元凶なのです。拡大された出力ウィンドウ: Gemini 3.5 Flashは、一度に出力できる上限が 65,536トークンへと大幅に増加しました。モデルが長文を書いたり、深く考え始めたりすると、たった1回の会話でトークンが空っぽになってしまいます。 2. Geminiモデル別「Thinkingレベル」によるトークン消費量の比較すべてのモデルの最大入力は100万トークン、最大出力は65,536トークンで同じですが、 Thinkingの設定によって内部トークンの配分が完全に変わります。比率と体格が異なる3つの設定（ 3.5 Flash - Medium 、 3.1 Pro - Low 、従来の3 Flash - High ）のトークン使用量を明...

【AIの豆知識】Gemini 3.5 Flash vs 3.1 Pro、トークンがあっという間に溶ける理由と賢いモデル選択ガイド

【AIの豆知識】Gemini 3.5 Flash vs 3.1 Pro、トークンがあっという間に溶ける理由と賢いモデル選択ガイドこんにちは！最近、Googleの次世代AIラインナップである Gemini 3.5 Flash と Gemini 3.1 Pro を使ってみて、「あれ？なんでこんなにトークン（コスト）がすぐに消えちゃうの？」と慌てた方も多いのではないでしょうか。少し質問しただけなのにトークン制限に引っかかったり、高額な請求が来たりする泣きたくなる状況…。一体なぜこんなことが起こるのか、そしてお財布を守りながらAIの効率を最大化するモデルやオプションの選択基準を総まとめします！ 1. 私のトークンはどこへ？犯人は「Thinkingモード」 Google Gemini 3.xラインナップの最強の武器は、ズバリ「内蔵型の高度な推論（Thinking）機能」です。これは、AIが最終的な答えを出す前に、内部で深く考える段階を経るというものです。ここに落とし穴があります。 AIが内部で頭をフル回転させながら使った独り言（推論トークン）が、すべて「出力（Output）トークン使用量」に含まれて計算されるという点です！ Thinking (High) モードの恐ろしさ: ユーザーが1行の質問を投げただけでも、AIは完璧な答えを出すためにバックグラウンドで独自にエージェントループを回し、何万ものトークンを消費してしまいます。見た目は短い回答でも、実際には莫大なトークンが消費されている元凶なのです。拡大された出力ウィンドウ: Gemini 3.5 Flashは、一度に出力できる上限が 65,536トークンへと大幅に増加しました。モデルが長文を書いたり、深く考え始めたりすると、たった1回の会話でトークンが空っぽになってしまいます。 2. Geminiモデル別「Thinkingレベル」によるトークン消費量の比較すべてのモデルの最大入力は100万トークン、最大出力は65,536トークンで同じですが、 Thinkingの設定によって内部トークンの配分が完全に変わります。モデルと設定 (Thinking Level) 脳の稼働率 (推論の深さ) 平均的な内部推論トークン消費特徴と体感 Gemini 3.5 Fl...