中国製GLM-5.2がOpus4.7に肉薄、出力コストは約6分の1

中国発の生成AIモデルGLM-5.2がスノーフレイクの検証でClaude Opus 4.7に正答率で肉薄。出力コストは約6分の1で、AIの価格競争が日本のEC事業者のモデル選定に与える影響を解説します。

投稿日: カテゴリー AIニュース

AIモデルの価格競争が新しい段階に入りました。データ基盤大手のスノーフレイクが自社で実施したプログラミング検証で、中国発の生成AIモデルGLM-5.2が、Anthropicの最上位モデルClaude Opus 4.7とほぼ互角の正答率を記録しました。それでいて出力トークンの料金はOpusの約6分の1にとどまります。性能差はわずかなのに価格差は大きいという結果は、生成AIの導入コストを見極めたい日本のEC事業者にとっても見過ごせない論点です。本記事ではThe Decoderが報じた検証結果を整理し、何に注目すべきかを解説します。

何が起きたか:スノーフレイクの実地検証で正答率はほぼ互角

今回の検証は、スノーフレイクが研究目的でなく実務に近い形で行ったコード生成ベンチマークです。課題は103件で、各課題を3回ずつ実行し、DuckDBとスノーフレイクの両方で動作するコードを書かせる内容でした。

結果は拮抗しています。各課題に3回の試行を許した場合、GLM-5.2は66パーセント、Opus 4.7は67パーセントの課題を解決し、ほぼ並びました。一方で一発正答率には差が出ており、Opusが53.7パーセントだったのに対し、GLMは47.6パーセントで、GLMの出力は安定性で劣る傾向が見られました。

効率面でもOpusが上回ります。GLMは1課題あたり平均99回の試行を要し、Opusの80回より多く、消費トークンは約8億6000万でOpusの約4億3900万のほぼ倍に達しました。スノーフレイクのスリダール・ラマスワミーによれば、GLMの強みはDuckDBとスノーフレイクの両環境で同時にコードを検証できる点にあり、この特性ゆえにGLMだけが解けた課題もあったとしています。

ただし弱点も明確でした。GLMは早々にあきらめたり、見当違いの確認作業に固執する傾向があり、ある課題では24分間に411回のツール呼び出しを行いながら3回とも失敗しました。同じ課題をOpusは9分間49回の呼び出しで解いています。GLMがより整ったコードを書くという評判は今回成り立たなかった、とラマスワミーは述べています。それでもチームはGLM-5.2に手応えを感じ、顧客に提供したい考えを示しました。

スノーフレイクによるGLMとOpusの比較分析

なぜ重要か:価格差が西側AIの収益前提を揺さぶる

この検証がもっとも重い意味を持つのは料金の文脈です。GLM-5.2の公式価格は入力100万トークンあたり1.40ドル、出力が4.40ドルで、キャッシュ利用時の入力は0.26ドルとされています。これに対しClaude Opus 4.7は入力5ドル、出力25ドル、GPT-5.5は入力5ドル、出力30ドルです。GLMはトークン消費量が多いため価格差は実際の運用では多少縮まりますが、それでも出力単価で5倍以上の開きがあります。

注目すべきは、この価格圧力がコーディングという領域で起きていることです。コード生成はOpenAIもAnthropicも収益の柱と位置づける主力用途であり、そこに格安の競合が肉薄してきたことになります。両社の高い企業価値は、データセンターやチップ調達への巨額投資を前提に、収益が今後も伸び続けるという想定の上に成り立っています。中国勢の価格設定がその成長前提に冷や水を浴びせ、もし収益の伸びが鈍化すれば、過熱したAI市場が試される局面に入りかねません。

日本のEC事業者にとっても、この動きは商品説明文の自動生成、問い合わせ対応、レビュー分析、業務ツールの内製化といった用途で使うAIの選択肢が広がることを意味します。最上位モデルでなくても実務に耐える水準のモデルが大幅に安く使えるなら、月々のAI運用費を抑えながら自動化の範囲を広げられる余地が出てきます。一方で安さだけで選ぶと、今回のGLMのように試行回数やトークン消費が膨らんで結局割高になる場合もあるため、単価ではなく1タスクあたりの総コストで比べる視点が欠かせません。

今後の動きと初動アクション

短期的には、西側の大手が価格改定や軽量モデルの拡充で対抗してくる可能性があります。GPT-5.4が入力2.50ドル、出力15ドルと中位帯に位置することからも、各社が用途別に価格の階層を増やす流れは続きそうです。中国勢のさらなる値下げや性能向上も予想され、モデル選定の前提は今後も短いサイクルで変わると見ておくのが安全です。

日本のEC事業者がいま取れる初動としては、まず自社で生成AIを使っている業務を、品質が最優先の領域とコスト重視で割り切れる領域に仕分けることが挙げられます。商品ページの最終文面のように品質が売上に直結する部分は上位モデルを残し、社内向けの下書き生成や大量データの一次分類のような領域は安価なモデルに置き換えてコストを下げる、という使い分けが現実的です。あわせて、モデルを乗り換えても運用が崩れないよう、特定のモデルに依存しすぎないツール構成を意識しておくと、今後の価格変動に柔軟に対応できます。

まとめ

GLM-5.2はOpus 4.7に正答率で並びつつ、出力単価では大幅に安いという結果を示しました。性能の頂点を競う時代から、性能と価格の釣り合いを見極める時代への移行が進んでいます。日本のEC事業者は、用途ごとにモデルを使い分け、1タスクあたりの総コストで判断する姿勢を持つことが、これからのAI活用で差を生むはずです。

※うるチカラでは、生成AIの導入支援から運用最適化まで、貴社のEC事業に合わせたカスタマイズ提案を行っています。無料相談(30分)も実施中ですので、お気軽にお問い合わせください。
https://uruchikara.jp/contact/

引用元: The Decoder


【監修】齋藤竹紘(株式会社オルセル代表 / 19年・5,000社のEC支援実績)


投稿者: 齋藤竹紘

株式会社オルセル代表取締役 / うるチカラ編集長。19年・5,000社以上のEC支援実績を持ち、楽天市場・Amazon・Yahoo!ショッピング・Shopify・Shopee越境ECの実装ノウハウを保有。AI×ECに関する書籍を3冊執筆。「現場で使えるAI実装」を一次情報として発信しています。

お問い合わせ