スキップしてメイン コンテンツに移動

投稿

ラベル(Harness Engineering)が付いた投稿を表示しています

上位モデルが正解?AI実務で気づいた「Harness Engineering」の本当の価値

Claude Fable 論争、そして相次ぐ質問 Anthropicの新モデル Claude Fable 5 がリリースからわずか3日で米国政府の指示によりアクセス停止という前代未聞の事態が起きました。サイバーセキュリティの脆弱性悪用の可能性と安全対策の迂回方法が主な懸念点でした。この出来事がコミュニティ全体で話題になり、顧客や同僚から自然と質問が集まりました。 「Fableのような高機能モデルを導入すべきでしょうか?今使っているモデルでは不十分ですか?」 私の答えは一貫しています。そしてこの記事では、その根拠を数値と実務経験で解説します。 私が使うモデルの基準線 以下の条件を満たすモデルの中から、 最もコスト効率の良い(トークン単価が低い)モデルを選択 しています。 プロバイダー 基準モデル 私の選択基準 Anthropic Claude Sonnet 4.5以上 Sonnet 4.x系列 OpenAI GPT-5.4 Codex以上 同等Mid-tier Google Gemini 3 Flash以上 Flash系列 この基準線以上であれば、 アーキテクチャ設計、大規模コードレビュー、複雑なインフラ分析 も実務レベルで処理できます。実際に私は以下の作業をこの級のモデルで毎日行っています。 単一プロジェクト内のソースファイル3万件以上 の管理(コードレビュー、リファクタリング、アーキテクチャ分析) 数百台規模のAWS + On-premise + Azure混合インフラ のパフォーマンス分析と異常検知 リアルタイムの顧客AI環境の運用と障害対応 「高価なモデル = より良い結果」は誤った前提です Claude Opus 4.8、GPT-5.5などの上位モデルも実際に使用しました。正直に言うと、 アウトプットの質が劇的に向上するわけではありませんでした。 理由は明確です。 モデルの限界より、Harnessの限界が先に来ます。 2026年現在、AI開発方法論は3段階に進化しています。 第1段階(2022-2024): Prompt Engineering 「何を言えば良い答えが得られるか?」 第2段階(2025): Context Engineering 「...