AIエージェントに事業の経営判断まで任せられるのか。プリンストン大学が、AIに架空のソフトウェア会社を500日間運営させる「CEO-Bench」という実験を公開しました。結果は、14モデル中ほとんどが倒産し、AIを一切使わない単純なルールベースの仕組みが大半のモデルを上回るというものでした。狭いタスクは得意でも、長期の経営の舵取りは別物だという現実が浮き彫りになっています。EC事業者がAI自動化とどう向き合うべきか、3つの教訓に整理します。
500日でAIに会社を経営させたら何が起きたか
The Decoderによると、プリンストン大学の研究チームは「NovaMind」という架空のサブスク型ソフトウェア会社を用意し、AIエージェントに500日間(シミュレーション上)の経営を任せました。スタート時点は顧客ゼロ、手元資金100万ドル。残高が一度でもマイナスになれば倒産で打ち切り、最終的な手元資金の多さで成績を測ります。
エージェントが操作できるのは34種類のツールを持つPython API と19のテーブルからなるデータベースで、AIは自分でコードを書き、SQLで状況を照会しながら、価格設定とプラン構成、広告費の配分、製品品質とR&D投資、インフラと顧客サポート、法人顧客との複数回にわたる交渉までを判断します。さらに、苦情や競合のニュース、景況感が流れる擬似的なソーシャルネットワークまで用意されており、現実の経営者が直面する状況にかなり近づけてあります。
この実験を難しくしているのが、フィードバックの遅延と隠れた変数です。広告費やインフラ費は即座に出ていく一方、売上は請求日まで入らず、R&Dの成果やミスによる解約・評判の悪化は数週間遅れて表面化します。顧客満足度や支払い意欲も直接は見えず、解約やサポート問い合わせという雑音まじりの信号から推測するしかありません。26の顧客セグメントがそれぞれ異なる予算と価格感度を持ち、競合は定期的に品質要求を引き上げ、景気循環が需要を揺らします。
ほとんどのモデルが倒産、ルールベースが大半に勝った
結果は厳しいものでした。テストした14モデルのうち、ほとんどが一貫した戦略を維持できず、シミュレーション終了前に倒産しています。スタート資金の100万ドルを上回って終えたのはわずか3モデルで、ベストランで Claude Fable 5 が4,715万ドル、Claude Opus 4.8 が2,780万ドル、GPT-5.5 が2,130万ドルでした。ただし Fable 5 は1回が「続行を拒否」して中断し、残り2回も一部の処理が Opus 4.8 に切り替わっていたほか、GPT-5.5 も3回中2回は倒産しており、安定して稼げたわけではありません。

最も示唆的なのは、言語モデルを一切呼ばない単純なルールベースの仕組みの成績です。固定の価格・枠・プランを設定し、少数の顧客セグメントに広告と開発を集中させ、直近の利用状況に応じて容量を調整するだけのこの方式が1,576万ドルに到達し、上位3モデル以外のすべてを上回りました。研究チームは達成可能な手元資金の上限を約22億ドルと概算しており、最良のAIでもまだ遠く及ばないと述べています。
挙動の分析からは、守りより探索が効くという傾向も見えています。GPT-5.5 と Opus 4.8 は状況変化に合わせて顧客獲得や料金体系、サポート・R&D予算を試行錯誤し続けた一方、別バージョンのモデルは不調になると経費削減と現金温存に走り、生き残りはしても利益は出せませんでした。成功と相関したのは、隠れた情報を解き明かす力、将来を予測する力、変化に素早く適応する力、先を見て計画する力の4つでした。研究チームはこの一連の能力を、個別タスクの巧拙とは別物の「ステアリング(舵取り)の知性」と呼んでいます。
日本のEC事業者がここから学べる3つの教訓
このテストは、EC事業者がAIエージェントに何を任せ、何を握り続けるべきかを考える格好の材料になります。
ひとつ目は、AIは「狭くて速い」タスクにこそ割り当てるべきだという点です。商品説明文の生成、問い合わせの一次対応、広告文のABテスト、レビュー返信の下書きなど、明確なゴールがあり結果がすぐ返ってくる作業はまさにAIが得意とする領域です。楽天やAmazon、Shopifyの運用現場でも、ここを自動化すれば効果が出やすく、検証も容易です。
ふたつ目は、値付け方針や品揃え戦略、在庫への投資配分、出店判断といった長期の経営判断は、人が舵を握り続けるべきだという点です。CEO-Benchが示したのは、AIは個別の指示はこなせても、遅れて効いてくる打ち手を時間軸でつなぎ、一貫した戦略にまとめ上げるのが苦手だという事実でした。ECでも広告費は即出ていく一方で効果は遅れて表れ、顧客満足は数字に直接出ません。この遅延と不確実性を読み違えたまま丸投げすれば、シミュレーションの多くのモデルと同じく資金を溶かしかねません。
みっつ目は、ルールベースの自動化を侮らないことです。単純な固定ルールが多くのAIモデルに勝ったように、ECの現場でも在庫アラートや価格調整ルール、再入荷の自動発注といった明快な仕組みは依然として強力です。AIに丸投げするのではなく、人が設計した明確なルールの内側でAIに材料出しや個別処理を任せる、という役割分担が現実的です。なお研究では、ソフト開発向けに調整されたコーディング支援ツール上でAIを動かすと成績がかえって悪化したとも報告されており、AIは万能ではなく、与える環境とタスク設計次第で結果が大きく変わることも覚えておきたいところです。
まとめ
AIに会社の経営そのものを任せるのは、現時点ではまだ無理がある、というのがCEO-Benchの率直な結論です。日本のEC事業者がとるべきスタンスは、AIを狭く速いタスクの実行役として最大限に使い、長期の経営判断と遅延フィードバックの監視は人が握るという線引きです。AI自動化の効果を最大化する鍵は、丸投げではなく、人とルールとAIの役割分担の設計にあります。
※うるチカラでは、生成AIの導入支援から運用最適化まで、貴社のEC事業に合わせたカスタマイズ提案を行っています。無料相談(30分)も実施中ですので、お気軽にお問い合わせください。
https://uruchikara.jp/contact/
引用元: The Decoder
【監修】齋藤竹紘(株式会社オルセル代表 / 19年・5,000社のEC支援実績)

株式会社オルセル代表取締役 / うるチカラ編集長。19年・5,000社以上のEC支援実績を持ち、楽天市場・Amazon・Yahoo!ショッピング・Shopify・Shopee越境ECの実装ノウハウを保有。AI×ECに関する書籍を3冊執筆。「現場で使えるAI実装」を一次情報として発信しています。