【日本語で学ぶOpenAI Academy】ビジネス活用編⑤:見る・聞く・話すAI「視覚と音声」で仕事がさらに直感的に

投稿日: カテゴリー ChatGPT

「外出先で急いで情報収集したいけど、スマホで文字を打つのは面倒…」 「複雑なグラフや図を、誰かに口頭で分かりやすく説明してほしい…」

キーボードでのテキスト入力。それが、これまでのAIとの主なコミュニケーション方法でした。しかし、その常識はもはや過去のものです。

このシリーズ「日本語で学ぶOpenAI Academy」では、OpenAI公式の学習プラットフォーム「OpenAI for Business」コレクション(全13本)の内容を、日本語で徹底解説しています。

第5回のテーマは、「Vision and voice in ChatGPT(ChatGPTにおける視覚と音声)」。

まるでSF映画のように、AIが私たちの目となり、耳となり、口となって、リアルタイムに世界を認識し、対話する方法をご紹介します。

今回のキーポイント:マルチモーダルAIとの対話

今回の核心は、ChatGPTがテキストだけでなく、画像(Vision)や音声(Voice)も理解し、生成できる「マルチモーダルAI」であるという点です。

スマートフォンのカメラやマイクを通じて、あなたが今見ているもの、聞いていることをAIがリアルタイムに共有し、人間と話すのと同じくらい自然な対話を実現します。

本編:ビジネスシーンを革新する2つの活用例

動画では、プライベートとビジネス、2つのシーンでこの機能の驚くべき実力が紹介されています。

活用例1:リアル世界のものを「見る」 – 書籍の内容を瞬時に把握

最初の例では、ユーザーが書店で手に取った本をスマートフォンのカメラで写しながら、ChatGPTに話しかけます。

  1. カメラで本を写す: ユーザーは音声モードでChatGPTを起動し、カメラアイコンをタップしてビジョン機能を有効にします。
  2. 音声で質問する: 「この本、面白そう?クロワッサンのレシピは載ってる?」と話しかけます。
  3. AIが回答: ChatGPTは本の表紙や目次(を写していると仮定)を「見て」、内容を理解し、「はい、素晴らしいクロワッサンのレシピが載っていますよ。オンラインではここで購入できます」と音声で回答します。

これは、出先で見つけた商品や資料について、タイピングすることなく、瞬時に詳細な情報を得られることを意味します。

活用例2:PCの画面を「見る」 – 複雑なグラフを数秒で要約

次の例は、よりビジネスシーンに特化しています。クライアントとの会議前、メールで送られてきた複雑な「コホート分析」のグラフを前に、ユーザーは洞察を得ようとします。

  1. PC画面を共有: ユーザーはPCの画面にグラフを表示した状態で、スマートフォンアプリのビジョン機能を使ってその画面を写します。
  2. 音声で依頼する: 「このチャートから重要なポイントを教えて。クライアントに説明しなきゃいけないんだ」と話しかけます。
  3. AIが分析・要約: ChatGPTはグラフのデータを「見て」瞬時に分析。「このグラフは顧客定着率を示しています。特に3月に獲得した顧客グループのパフォーマンスが最も高いですね。一方で1月のグループは収益が低下傾向にあります」といった形で、重要なインサイトを音声で分かりやすく要約します。

これまで人間が時間をかけて読み解いていた複雑なデータも、AIに「見せて、説明して」と頼むだけで、要点を瞬時に掴むことができるのです。

まとめ:AIとの対話が、人間同士のそれに近づく

今回の「Vision and voice」機能が示すのは、AIとのコミュニケーションが、キーボードという制約から解放され、より人間の五感に近い形へと進化している事実です。

目で見て、声で話す。この直感的なインターフェースは、移動中やデスクワーク中など、あらゆるビジネスシーンで私たちの能力を拡張し、より迅速で的確な判断をサポートしてくれる強力なツールとなるでしょう。


投稿者: 齋藤竹紘

齋藤 竹紘(さいとう・たけひろ) 株式会社オルセル 代表取締役 / 「うるチカラ」編集長

   
Experience|実務経験
2007年の株式会社オルセル創業から 17 年間で、EC・Web 領域の課題解決を 4,500 社以上 に提供。立ち上げから日本トップクラスのEC事業の売上向上に携わり、 “売る力” を磨いてきた現場型コンサルタント。
Expertise|専門性
技術評論社刊『今すぐ使えるかんたん Shopify ネットショップ作成入門』(共著、2022 年)ほか、 AI × EC の実践知を解説する書籍・講演多数。gihyo.jp
Authoritativeness|権威性
自社運営メディア 「うるチカラ」で AI 活用や EC 成長戦略を発信し、業界の最前線をリード。 運営会社は EC 総合ソリューション企業株式会社オルセル
Trustworthiness|信頼性
東京都千代田区飯田橋本社。公式サイト alsel.co.jp および uruchikara.jp にて 実績・事例を公開。お問い合わせは info@alsel.co.jp まで。

お問い合わせ