生成AIの検索エージェントがつまずく原因は、検索そのものではなく「わからないときに聞き返せないこと」でした。テンセント系のTencent Hunyuanと清華大学の研究チームが公開した新ベンチマーク「DiscoBench」は、あいまいな質問に対してAIが勝手に推測せず、ユーザーへ確認質問を返せるかを測ったものです。The Decoderによると、先頭モデルでも正答率は5割を割る一方、いったん的確に聞き返すと成功率は93%を超えました。曖昧な問い合わせを毎日受けるEC事業者にとって、AI接客の設計に直結する示唆があります。

何が起きたか:推測するAIは正答5割、聞き返すAIは93%
DiscoBenchは211個のタスクに合計463個の「あいまいな点」を仕込み、ゲーム・スポーツ・音楽・映画・科学・政治など11分野を対象にしています。各タスクは複数のチェックポイントに分かれ、AIはそのつど「検索を続ける」「ユーザーに確認する」「回答する」の3択を迫られます。あいまいさは4種類に整理されており、説明が複数の対象に当てはまるもの、時期やバージョン違いが混ざるもの、評価基準が複数あり得るもの、そして質問自体に事実誤りが含まれるものです。データセットは中国語圏の検索傾向を反映して主に中国語で作られ、検索にはTavilyを、ユーザー役の応答にはGemini 3 Flashを使っています。
直近半年に公開された11モデルを検証したところ、明示的なヒントがない状態での首位はDoubao Seed 2.0 Proの43.1%で、Gemini 3.1 Proが40.8%、Claude Opus 4.7が39.8%と続きました。注目すべきはClaude Opus 4.7で、個々のチェックポイントは57%解けているのに、最終的な正答率は39.8%まで落ちます。途中の一つのあいまいさを放置しただけで、推論チェーン全体が崩れてしまうのです。行動分析では、まず検索してから聞き返す型が93.4%の成功率だったのに対し、聞かずに推測する型は56.5%、何度も検索するのに結局推測する型は51.9%まで下がりました。検索を重ねること自体は正答につながらず、要は「聞くべきときに聞けるか」で成否が分かれています。
なぜ重要か:EC接客AIの「わからない」の扱いが売上を左右する
この結果は、AIチャット接客や商品検索アシスタントを導入するEC事業者にそのまま当てはまります。実店舗の接客では、お客様の「安いやつある?」「この前の色違い」といったあいまいな要望に、店員がまず一言確認してから商品を出します。ところが現状のAIは、確認せずに高確率な候補へ飛びつく傾向が強く、DiscoBenchが示すとおり誤答と無駄な処理を生みます。研究では、システムプロンプトで「あいまいなら聞き返せ」と指示する誘導モードも試されましたが、10モデル平均の最終正答率は28.6%から33.7%への微増にとどまりました。あいまいさを検知する力(Detection F1は45.3から64.9へ大きく改善)は上がっても、そこから研究をやり切る力は別物だということです。
さらに、検知の上手さと質問の上手さも一致しません。Qwen3.6 Maxは検知力が低く、ほとんど聞き返さないのに、いざ質問すると94.7%が的確でした。逆に頻繁に質問しても、答えを前に進められる割合が6割台にとどまるモデルもあります。EC接客に置き換えれば、「聞き返す頻度」ではなく「一発で必要な情報を引き出す質問設計」が肝心だという教訓になります。楽天市場やAmazon、Shopifyのチャット接客・レコメンドを設計する際は、AIに全部を推測させるより、購入前の重要な分岐(サイズ・用途・予算・数量など)で短い確認を1回はさむ設計のほうが、転換率と満足度の両面で有利になりやすいと考えられます。
EC事業者がとるべき初動アクション
第一に、自社のAIチャットやFAQボットが「あいまいな質問にどう反応するか」を実際のあいまいワードで試すことです。「おすすめ」「安いの」「あれ」といった曖昧な問い合わせを投げ、勝手に断定して商品を出すか、必要な情報を聞き返すかを確認します。第二に、確認質問を許容する設計にすることです。DiscoBenchのSearchThenAsk型が示すように、検索一辺倒より「まず調べ、足りなければ1回聞く」流れのほうが精度が高く、これは接客シナリオの分岐設計に落とし込めます。第三に、AIの回答をうのみにしない運用です。関連研究では、Web検索付きのモデルでも引用元の内容確認で3割前後の誤りが出た例が報告されており、価格や在庫、薬機法・景表法に触れる表現は人の最終チェックを外さないことが安全です。AIエージェントの実力測定については、UK AISIのベンチマーク検証やフリーランス業務の自動化率調査も合わせて読むと、導入判断の解像度が上がります。
まとめ
AIの検索エージェントは、検索が下手なのではなく「わからないときに確認するのが下手」でした。あいまいさを放置せず一度聞き返すだけで成功率が大きく上がるという知見は、EC接客AIの設計そのものに使えます。全自動の推測に任せるより、購入前の重要な分岐で短く確認を入れる設計を、まずは自社のチャットで小さく試すのが現実的な第一歩です。
※うるチカラでは、生成AIの導入支援から運用最適化まで、貴社のEC事業に合わせたカスタマイズ提案を行っています。無料相談(30分)も実施中ですので、お気軽にお問い合わせください。
https://uruchikara.jp/contact/
引用元: The Decoder
【監修】齋藤竹紘(株式会社オルセル代表 / 19年・5,000社のEC支援実績)

株式会社オルセル代表取締役 / うるチカラ編集長。19年・5,000社以上のEC支援実績を持ち、楽天市場・Amazon・Yahoo!ショッピング・Shopify・Shopee越境ECの実装ノウハウを保有。AI×ECに関する書籍を3冊執筆。「現場で使えるAI実装」を一次情報として発信しています。