Redditは大規模なAIシステムの教育を支援して報酬を得たいと考えている

による支援

インターネットサイトは長い間、さまざまなトピックに関するディスカッションのフォーラムとして機能しており、Google や OpenAI などの企業が AI プロジェクトでこれを使用してきました。

マイク・アイザック著

マイクアイザックはサンフランシスコに拠点を置き、ソーシャルメディアとテクノロジー業界について執筆しています。

Reddit は長い間、インターネット上での会話のホットスポットでした。毎日約 5,700 万人がこのサイトを訪れ、メイク、ビデオゲーム、私道の高圧洗浄に関する指示など、さまざまなトピックについてチャットしています。

近年では、Reddit の一連のチャットは、Google、OpenAI、Microsoft などの企業にとって無料の教材としても利用されています。これらの企業は、シリコンバレーの多くの人が、テクノロジー業界の次なる目玉になりつつあると考えている巨大な人工知能システムの開発に、レディットの会話を利用している。

現在、Reddit はその対価を求めている。同社は火曜日、アプリケーション・プログラミング・インターフェース（API）へのアクセスに対して企業に課金を開始する予定であると発表した。APIとは、ソーシャルネットワーク上の膨大な数の個人間の会話を外部の組織がダウンロードして処理するための方法である。

「レディットのデータコーパスは本当に貴重だ」とレディットの創設者兼最高経営責任者スティーブ・ハフマン氏はインタビューで語った。「しかし、その価値のすべてを世界最大手の企業に無料で提供する必要はありません。」

この動きは、OpenAIの人気プログラムであるChatGPTのようなAIシステムを開発する目的で、ソーシャルネットワークがホストする会話へのアクセスに課金する最初の重要な例の1つである。こうした新しいAIシステムは、いつか大企業につながる可能性があるが、レディットのような企業にはあまり役立たないだろう。実際、これらは競合他社、つまり Reddit の会話の自動複製を作成するために使用される可能性があります。

Redditは、今年ウォール街での新規株式公開の可能性に向けた準備も進めている。 2005 年に設立された同社は、プラットフォーム上の広告と電子商取引を通じて収益のほとんどを稼いでいます。 Redditは、APIアクセスに対する料金の詳細をまだ検討中で、今後数週間以内に料金を発表すると述べた。

大規模言語モデル (LLM) が新しい AI テクノロジーの作成に不可欠な部分となったため、Reddit の会話フォーラムは貴重な商品になりました。

LLM は本質的に、Google や Microsoft の緊密なパートナーである OpenAI などの企業によって開発された高度なアルゴリズムです。アルゴリズムにとって Reddit での会話はデータであり、開発のために LLM に供給される膨大な素材プールの 1 つです。

Google の会話型 AI サービスである Bard の構築に貢献した基礎となるアルゴリズムは、部分的に Reddit データでトレーニングされています。 OpenAI の Chat GPT は、トレーニングに使用した情報源の 1 つとして Reddit データを挙げています。

他の企業も、自社が主催する会話や画像に価値を見出し始めています。画像ホスティングサービスである Shutterstock も、テキストベースのプロンプトのみを必要とする鮮明なグラフィック画像を作成する AI プログラムである DALL-E の作成に役立てるため、画像データを OpenAI に販売しました。

先月、Twitter社のオーナーであるイーロン・マスク氏は、数千の企業や独立系開発者がネットワーク上の何百万もの会話を追跡するために使用しているTwitterのAPIの使用を取り締まっていると述べた。同氏は変更の理由としてLLMを挙げなかったが、新たな手数料は数万ドル、さらには数十万ドルに上る可能性がある。

人工知能メーカーがモデルを改良し続けるためには、膨大な量のコンピューティング能力と膨大な量のデータという 2 つの重要なものが必要です。最大手の AI 開発者の中には、十分なコンピューティング能力を持っていますが、アルゴリズムを改善するために必要なデータを自社のネットワークの外に求めているところもあります。これには、ウィキペディア、数百万冊のデジタル化された書籍、学術記事、Reddit などの情報源が含まれています。

Google、Open AI、Microsoftの代表者はコメント要請に応じていない。

Reddit は長い間、Google や Microsoft などの企業の検索エンジンと共生関係を築いてきました。検索エンジンは、情報のインデックスを作成し、検索結果で利用できるようにするために、Reddit の Web ページを「クロール」します。このクローリング、つまり「スクレイピング」は、インターネット上のすべてのサイトで常に歓迎されているわけではありません。しかし、レディットは検索結果で上位に表示されることで恩恵を受けている。

LLM の場合はダイナミックが異なります。LLM はチャットボットのような新しい AI システムを作成するために、できる限り多くのデータを飲み込みます。

Reddit は、そのデータが継続的に更新されるため、特に価値があると考えています。ハフマン氏は、大規模言語モデリングアルゴリズムが最良の結果を生み出すために必要なのは、その新しさと関連性であると述べた。

「レディットは、インターネット上の他のどの場所よりも、本物の会話ができる場所です」とハフマン氏は語った。「このサイトには、セラピーやAA、あるいはまったく言わないような内容がたくさんあります。」

ハフマン氏は、人々がレディットを利用できるように支援するアプリケーションを構築したい開発者は、レディットのAPIを引き続き無料で利用できると述べた。たとえば、これらのツールを使用して、ユーザーのコメントが投稿ルールに従っているかどうかを自動的に追跡するボットを構築することができます。学術目的または非営利目的で Reddit データを研究したい研究者は、引き続きそのデータに無料でアクセスできます。

Redditはまた、サイト自体の運営方法にいわゆる機械学習をさらに組み込むことを望んでいる。たとえば、Reddit 上で AI が生成したテキストの使用を識別し、コメントがボットからのものであることをユーザーに通知するラベルを追加するために使用できます。

同社はまた、モデレーター（サイトのフォーラムの円滑な運営を維持し、ユーザー間の会話を改善するために自ら時間を割くユーザー）が使用できるソフトウェアツールを改善すると約束した。また、モデレーターがフォーラムを監視するのに役立つサードパーティのボットも引き続きサポートされます。

しかし、AI メーカーにとっては、代償を払うときが来ています。

ハフマン氏は、「Redditをクロールして価値を生み出しながら、その価値をユーザーに何ら還元しないことには、私たちが問題を抱えている」と語った。「引き締めるには良い時期だ。」

「私たちはそれが公平だと考えています」と彼は付け加えた。

マイクアイザックはテクノロジー特派員であり、配車会社の劇的な栄枯盛衰を描いたベストセラー本『Super Pumped: The Battle for Uber』の著者です。彼は定期的に Facebook とシリコンバレーを取材しており、サンフランシスコに拠点を置いています。 @MikeIsaac • Facebook

ニュース

Redditは大規模なAIシステムの教育を支援して報酬を得たいと考えている