AI crawler wars threaten to make the web more closed for everyone

失われるWebの多様性——AIクローラー戦争が始まった

AI企業がモデルの訓練のためにWebサイトから大量のデータを収集する動きに対抗して、クローラーをブロックするサイトが増えている。オープンなWebの理念が危機に瀕している。 by Shayne Longpre2025.02.14

この記事の3つのポイント

インターネットはクローラーに依存しており半分のトラフィックを占める
Webサイト運営者はAIクローラーによるデータ収集を恐れ反撃を始めている
Webサイトによるクローラー制限はWebの開放性と透明性を損なう恐れがある

summarized by Claude 3

私たちはよく、インターネットを当たり前のように利用している。指先ひとつで情報の大海を回遊でき、快適に利用できる。しかし、このシステムは「クローラー（Crawler）」と呼ばれるボットの群れに依存している。これらのボットはWeb上を巡回し、毎日何百万ものWebサイトにアクセスし、目にした情報を報告している。グーグルの検索エンジンが機能するのも、アマゾンが競争力のある価格を設定できるのも、カヤック（Kayak）が旅行関連情報を一括検索できるのも、すべてクローラーのおかげである。商業の世界に留まらず、クローラーはWebのセキュリティを監視し、アクセシビリティツールを支え、歴史的アーカイブを保存するために不可欠な存在となっている。学者、ジャーナリスト、市民団体も、重要な調査研究のためにクローラーを利用している。

クローラーは今や一般的な存在となり、インターネット・トラフィック全体の半分を占めるに至っている。まもなく、人間によるトラフィックを上回るだろう。この見えざるWebの地下鉄は、昼夜を問わずサイトからサイトへと情報を運び続けている。そして近年、クローラーにはもう一つの役割が加わった。オープンAI（OpenAI）などの企業は、「チャットGPT（ChatGPT）」のような人工知能（AI）システムを訓練するために、クローラーがWebから収集したデータを利用している。

当然のことながら、Webサイトの所有者たちは現在、この侵略的外来種ともいえるAIクローラーによって自分たちの居場所を奪われることを恐れ、反撃を始めている。しかし、ここには問題がある。この反撃は、非AIアプリケーションが発展する前提となるWebの透明性と開かれた環境を脅かすものでもある。慎重に対処しなければ、Webはログイン制限やペイウォール（有料の壁）、アクセス料金によってますます閉鎖的になり、AIクローラーだけでなく、実際のユーザーや有用なクローラーが生み出す多様性までもが損なわれることになるだろう。

混乱状態にあるシステム

この問題を理解するには、クローラーとWebサイトが比較的「共生的」な関係にあった最近まで、Webがどのように機能していたかを理解することが重要だ。クローラーは、ほとんどの場合邪魔な存在ではなく、むしろ有益ですらあった。なぜなら、クローラーはデータを取得する代わりに、グーグルやビング（Bing）のような検索エンジンからユーザーをWebサイトへ誘導していたからである。その見返りとして、Webサイト側もクローラーにほとんど制限を設けず、むしろサイト内を巡回しやすいように支援していた。昔も今も、Webサイトは「robots.txt」と呼ばれる機械可読形式のファイルを利用し、クローラーにアクセスしてほしくないコンテンツを指定している。しかし、このようなルールを強制する取り組みや、ルールを無視するクローラーを特定する試みはほとんどなかった。リスクが低いと考えられていたため、Webサイトはそのようなクローラーを阻止することに投資しなかったのである。

しかし今、AIの普及によって、クローラーのエコシステムは混乱に陥っている。

侵略的外来種のように、AIクローラーは無差別にデータを収集し、ウィキペディアの記事、学術論文、レディット（Reddit）の投稿、レビューサイト、ブログなどから情報をかき集めている。その対象はテキスト、表、画像、音声、動画など、あらゆる形式のデータに及ぶ。そして、その結果として生まれたAIシステムは、必ずしもそうなるとは限らないものの、元々のデータ提供者と直接競合する形で利用される可能性がある。ニュースサイトはAIチャットボットによる読者の流出を懸念し、アーティストやデザイナーはAI画像ジェネレーターに顧客を奪われることを恐れ、プログラマーの集まるフォーラムはAIコードジェネレーターによる人間コーダーの代替を危惧している。

こうした事態を受けて、Webサイトはクローラーを門前払いし始めている。その理由はほぼ共通しており、AIシステムとそれを支えるクローラーがWebサイトのデータを利用することで、コンテンツを公開する人々の経済的利益を損なう可能性があるという認識が広まっているからだ。この認識が、水面下で展開される一連の「クローラー戦争」に火をつけた。

反撃

Webパブリッシャーは、訴訟、立法、コンピューター科学という3つの手段でAIに対応してきた。ニューヨーク・タイムズ紙が起こした訴訟をはじめとする数多くの著作権侵害訴訟が発端となり、Webサイトのデータ利用を制限する一連の措置が次々と講じられるようになった。また、欧州連合（EU）のAI規制法のように、著作権者が自身のデータをAIの訓練に使われることを拒否できる法律も制定された。

しかし、法的・立法的な判断が下されるまでには何年もかかる可能性がある。一方、AIの導入による影響は即座に現れている。そのため、当面の間、データ提供者たちは問題の根源であるWebクローラーの制限に力を注いでいる。2023年半ば以降、最高品質のデータを提供するWebサイトの25%以上がクローラー制限を設けるようになった。しかし、多くのクローラーは単純にこれらの制限を無視している。一方、オープンAIやアンソロピック（Anthropic）のような主要なAI開発企業は、Webサイトの制限を尊重していると主張しているが、それでも制限を無視したり、大量アクセスによってWebサイトに負荷をかけたりしているとの批判が出ている。技術サポートフォーラム大手のアイフィックスイット（iFixit）などがその被害を訴えている。

そして今、Webサイトは最後の手段として、アンチ・クローリング技術に目を向けている。トールビット（TollBit）、スケールポスト（ScalePost）などの新興企業や、世界のWebトラフィックの20％を支えているとされるクラウドフレア（Cloudflare）などのWebインフラ企業が、人間以外のトラフィックを検出・ブロックし、料金を課すツールを提供し始めている。これらのツールは、サイト内を探し回りにくくしたり、クローラーに登録を要求したりするような障害物を設ける。

このような対策は、即座に効果を発揮する防護壁となる。結局のところ、著作権や公正使用に関する裁判所の判断がどうであれ、AI企業は入手できないデータを利用することはできない。しかし、その結果、大規模なWebサイトやフォーラムは、脅威とならないクローラーまで含め、すべてのクローラーを拒否するようになっている。さらに、データの独占権を保持したいAI企業と高額な契約を結んだWebサイトも、他のクローラーを排除する傾向にある。最終的に、Webはより少数のクローラーしか歓迎されないテリトリーへと細分化されつつある。

私たちはどのように損失を被るのか

このいたちごっこが激化するにつれ、大企業が小規模事業者よりも有利になる傾向が強まっている。大規模なWebサイトやパブリッシャーは、法廷でコンテンツを守ることができ、契約交渉を有利に進められる。一方、巨大テック企業は、大規模なデータセットのライセンスを取得したり、制限を回避できる強力なクローラーを開発するだけの資金力を持っている。しかし、ビジュアルアーティスト、教育系ユーチューバー、ブロガーなどの小規模クリエイターは、ログインやペイウォールの背後にコンテンツを隠すか、完全にオフライン化するかの二択を迫られるかもしれない。結果として、ニュース記事を読んだり、お気に入りのクリエイターの作品を見たり、Webを自由に回遊したりすることが難しくなり、利用者はログイン要求、サブスクリプション登録、キャプチャ認証（CAPTCHA）などに煩わされることが増えていくだろう。

恐らくさらに懸念すべきなのは、AI企業との大規模な独占契約がWebの細分化を加速させている点だ。こうした契約が結ばれるたびに、Webサイトは契約先の企業に対しデータの独占提供を維持しようとし、競合企業であるかどうかにかかわらず、他者のデータアクセスを制限するインセンティブを強めていく。その結果、より少数のAI開発企業とデータ所有者に権力が集中することになるだろう。もし、大手企業のみが重要なWebデータのライセンスを取得し、クローリングできる未来が訪れるとすれば、それは競争を抑制し、実際のユーザーや多くの著作権者にとって決して望ましい状況ではない。

端的に言えば、この流れが続けば、Webの多様性は失われる。学術研究者、ジャーナリスト、非AIアプリケーションのクローラーは、オープンなアクセスをますます拒否される可能性がある。データの用途に応じて異なるルールを適用するエコシステムを構築できなければ、Web全体に厳格な境界線が引かれ、開放性と透明性が損なわれることになるだろう。

この道を回避するのは容易ではない。しかし、オープンインターネットを擁護する人々は、データ作成者や所有者を保護しつつ、Webデータの非競争的利用を独占契約の対象外とする法律、政策、技術インフラの整備を求めることができる。これらの権利は対立するものではなく、適切なデータアクセスの在り方をめぐる戦いにおいて、私たちは多くを失うかもしれないし、逆に多くを得るかもしれない。Webサイトが今後の適応策を模索する中で、商業AIのためにオープンなWebを犠牲にすることがあってはならない。

シェイン・ロングプレはマサチューセッツ工科大学（MIT）の博士課程生。AIと政策の交差領域を研究している。データ来歴イニシアチブ（Data Provenance Initiative）のリーダー。

人気の記事ランキング

shayne.longpre [Shayne Longpre]米国版: 現在編集中です。

▼Promotion