AIエージェントの実力はベンチマークが過小評価|EC導入判断3つの視点

英国AI安全機構の検証で、AIエージェントの実力はベンチマークが過小評価していると判明。計算量で成績が変わる仕組みと、EC事業者がAI導入判断で押さえるべき3つの視点を解説します。

投稿日: カテゴリー AIニュース

AIエージェントの本当の実力は、これまでのベンチマークが示してきた数字よりも高いかもしれません。英国の政府機関が実施した最新の検証で、計算リソースの上限を固定したままモデルを評価すると、AIエージェントの能力を組織的に低く見積もってしまうことが分かりました。時間をかけて考えさせるほど成績が伸びるため、評価時の予算設定しだいで結論が変わるという指摘です。EC事業者がAI導入を判断するときにも、この「測り方」の話は無視できません。

何が起きたか: 予算を絞ると能力を低く測ってしまう

The Decoderによると、英国AI安全機構(AISI)は、フロンティアモデルを7つのベンチマークで、与える計算予算(トークン量)を変えながら検証しました。その結果、予算の上限を低く固定した従来の評価は、AIエージェントの実力を組織的に過小評価していたことが明らかになりました。

AIエージェントの性能は、作業に使える計算量を増やすほど右肩上がりに伸びる曲線を描きます。曲線がまだ上昇している途中で予算を打ち切ると、測定値はそのモデルの「最大値」ではなく「最低ライン」を示してしまう、というのがAISIの主張です。

伸び幅は領域によって差があります。ソフトウェア開発の課題では、トークン予算を100万から1000万へ増やすと成功率が約25パーセント上昇しました。数学や学術的な難問でも、500万トークンまでで約22パーセント伸びています。一方でセキュリティ分野では、約8パーセントの課題が1000万トークンを超えて初めて解け、なかには5000万トークンを要したものもありました。逆に医療系の課題では、標準的な予算内で頭打ちになったといいます。AISIは、コードを実行したり結果を検証したりして自分の作業を確認できる領域ほど、追加の計算が効くと分析しています。

なぜ重要か: 人間の作業時間とトークン量が比例する

もう一つ注目したいのが、人間の専門家がその作業にかける時間と、AIエージェントが消費するトークン量が比例関係にあるという発見です。AISIとMETRの計約290課題を調べたところ、1分の作業なら数千トークン、1時間なら数百万トークン、1週間規模なら数十億トークンという、べき乗則に近い関係が見られました。

つまり評価予算を固定すると、最も長く難しい課題が自動的に切り捨てられます。AISIが例に挙げた、人間なら約20時間かかるセキュリティ課題は、どのモデルも3000万トークン未満では解けませんでした。ここで失敗と記録されても、それは能力不足ではなく「予算が足りなかった」だけかもしれない、というわけです。

さらに、新しい世代のモデルほど追加の計算量から得られる伸びが大きいことも示されました。あるフロンティアモデルの「時間地平(自律的にこなせる作業時間の目安)」は、予算を250万トークンから5000万トークンへ増やすと約40分から約4時間へ拡大しました。能力が倍増するペースも、低予算での測定では約4.7カ月に一度だったのが、高予算では40〜50日に一度と、およそ60パーセント速く見えたとしています。ただし課題全体の1〜3割では、新しいモデルが旧世代より成績を落とした場面もあり、進歩は一様ではありません。検証対象にはGPT-5、GPT-5.5、Opus 4.5、Opus 4.8、Sonnet 4.5などが含まれます。

EC事業者への示唆: 導入判断3つの視点

この研究は直接ECを扱ったものではありませんが、AIエージェントの導入を検討する事業者にとって示唆に富みます。AISIは、能力を固定した点数ではなく計算量に対する曲線としてとらえ直さなければ、投じた資源しだいでシステムが何をできるかに驚かされ続けるだろう、という趣旨の警鐘を鳴らしています。ここから読み取れる初動の視点は次の3つです。

第一に、ベンチマークの点数だけでツールを選ばないことです。公開スコアは評価時の予算設定に左右されるため、自社の受注処理・商品説明生成・問い合わせ対応といった実際の業務で試し、時間や試行回数を与えたときの伸びを見て判断するほうが実態に近づきます。

第二に、AIに検証させる余地を残すことです。追加の計算が効いたのは、コード実行やテストのように自分で答え合わせできる領域でした。EC業務でも、生成した文章を社内ルールや在庫データと突き合わせて自己チェックさせる設計にすると、精度が上がりやすいと考えられます。

第三に、コスト低下を前提に見直すことです。トークン単価の下落が続けば、これまで割に合わなかった「じっくり考えさせる使い方」が現実的になります。半年前に見送った用途でも、いま再検証する価値があります。なお、生成物を販促に使う場合は薬機法・景表法の表現規制、楽天など各モールの規約チェックを人手で通す前提は変わりません。

まとめ

AIエージェントの実力は、評価時にどれだけ計算量を与えるかで見え方が大きく変わります。ベンチマークの一点の数字を鵜呑みにせず、自社業務での試用と、AIが自己検証できる設計、そしてコスト低下を織り込んだ再評価。この3点を押さえることが、過大でも過小でもないAI導入判断につながります。

※うるチカラでは、生成AIの導入支援から運用最適化まで、貴社のEC事業に合わせたカスタマイズ提案を行っています。無料相談(30分)も実施中ですので、お気軽にお問い合わせください。
https://uruchikara.jp/contact/

引用元: The Decoder

関連記事: AIエージェントの業務自動化率が16%に急伸|EC外注はどう変わる


【監修】齋藤竹紘(株式会社オルセル代表 / 19年・5,000社のEC支援実績)


投稿者: 齋藤竹紘

株式会社オルセル代表取締役 / うるチカラ編集長。19年・5,000社以上のEC支援実績を持ち、楽天市場・Amazon・Yahoo!ショッピング・Shopify・Shopee越境ECの実装ノウハウを保有。AI×ECに関する書籍を3冊執筆。「現場で使えるAI実装」を一次情報として発信しています。

お問い合わせ