次世代生成AIで優位に立つのはMeta? Google? それともマスク氏のあの会社?Social Media Today

生成AI時代において、データは新たな金と言える。より人間らしい反応ができるようになるためには実際に人間が入力したデータをたくさん学習する必要がある。それを最も多く保有しているのは、ソーシャルプラットフォームだ。

» 2024年10月30日 08時00分 公開
[Andrew HutchinsonSocial Media Today]
Social Media Today

 生成AIの進化において次なる大きな課題はデータだ。特に人間の反応を再現するためには実際に人間が入力した膨大なデータへアクセスする必要がある。

 このため、ソーシャルプラットフォームが優位に立つ可能性が高い。

一方、OpenAIはデータ供給源でやや劣勢 どうなる?

 MetaやxAIのAIチャットbotは、他社よりも多くの人間データ入力に直接アクセスできるため有利だ。Googleも検索クエリやレビュー情報にアクセス可能である。しかし、そのようなアクセスを持たない小規模なプレーヤーは取り残される恐れがある。パブリッシャーが自社の利益を守るためにアクセスをコントロールしてコンテンツをロックダウンしようとするからだ。

 最新、多数の著名なアーティストが生成AIのトレーニングにクリエイティブな作品をライセンスなしで使用することを禁止するよう求める嘆願書に署名した。また、出版大手Penguin Random Houseは、同社の著作物をAI訓練に利用することに対抗している。一部の報道機関も独自のAI開発者とライセンス契約を結び始めている。

 この流れを受けて正式な規制が施行され、著作権者がライセンス作品から利益を得られるような公式規制が実施されれば、AIモデルの訓練に必要な膨大なデータ入力へのアクセスが制限されることになる。 この結果、小規模な開発者は(多くのパブリッシャーがrobots.txtのパラメータを変更して、データの非ライセンス利用を禁止している中で)、より広範にWebからデータをかき集めるか、あるいはAIが生成したコンテンツを使ってAIを訓練するかという、最悪の選択を迫られることになる。後者の手法は、AIの出力精度が低下するリスクを伴う。AI生成コンテンツを使って大規模言語モデル(LLM)を訓練し続けると、データセット内で誤りが増幅し、システム自体が劣化する恐れがあるからだ。そのため、人間からのデータ入力の需要が高まると予想され、MetaやX(旧Twitter)、Redditが有利な立場に立つ可能性がある。

 RedditのCEOであるスティーブ・ハフマン氏は、「人工知能の情報源は実際の知性であり、それはRedditにある」と述べ、RedditがAI訓練に最適であることを強調している。すでにRedditはGoogleとデータ共有契約を締結しており、Googleの生成AI「Gemini」の実験を支援している。これは、Googleの将来のツールにとって重要な協力関係となり得る。

 では、AIモデル構築において最も価値のあるデータを持つソーシャルプラットフォームはどこなのか。

 Metaは数十億のユーザーによるコンテンツを持つが、近年ではアプリ内での動画消費が主流となり、投稿頻度は減少している。このため、Threads(スレッズ)がAI訓練用データの供給源として重要視されている可能性がある。Threadsのアルゴリズムが質問形式の投稿を優遇しているのは、このためだろう。

 Xも毎日2億件以上の投稿やリプライが行われているが、人間のような会話を理解し、正確な応答を提供するためには、その投稿内容が鍵となる。ハフマン氏が指摘するように、Q&A形式が特徴のRedditはAI訓練において最適である可能性がある。「Subreddit」コミュニティーは質問と回答を基盤としたやり取りで構成され、投稿は評価されて可否が決まる。この仕組みをAIモデルと統合することで、より正確な応答を生成できる可能性がある。これがGoogleのAI開発にどのような影響を与えるか注目される。

 一方、Microsoftと提携しているOpenAIはLinkedInのデータを利用できるかもしれないが、それ以外に継続的なデータ供給源がない。より多くのパブリッシャーがコンテンツをロックダウンし、AIトレーニングの対象から外すことは、最終的にChatGPTの開発に支障をきたすことになるのだろうか。

 これは今後のAIモデルの開発において考慮すべき事項だ。新鮮なデータ源が確保できないツールはすぐに陳腐化してしまうだろう。そうなればユーザーは他のモデルに流れる可能性がある。

 では、どの企業が最終的に勝者となるのか。Meta、xAI、Googleのいずれかが優位に立ち、次世代の生成AIツールをリードする可能性が高い。

 あるいは、独占的なデータ入力契約や特定のデータセットに基づくニッチなAIモデルが登場するかもしれない。それが実現すれば、生成AI開発の方向性に大きな影響を与え、業界の構図を一変させることになるだろう。

© Industry Dive. All rights reserved.

関連メディア