Генеральное сражение с ИИ за контент уже началось. Люди в защите!
Большинство людей полагают, что генеративный ИИ будет становиться все лучше и лучше; в конце концов, это яркая тенденция. Но некоторые люди не понимают, что генеративные модели ИИ настолько хороши, насколько хороши гигантские наборы данных, на которых они обучаются. Они не создаются из закрытых данных, принадлежащих ведущим компаниям ИИ, таким как OpenAI и Anthropic. Вместо этого они состоят из общедоступных данных, которые были созданы всеми нами — любым, кто когда-либо писал пост в блоге, публиковал видео, комментировал ветку на отзовиках или делал что-то еще в Интернете.
Новый отчет от Data Provenance Initiative, добровольного коллектива исследователей ИИ, проливает свет на то, что происходит со всеми этими данными. В отчете «Consent in Crisis: The Rapid Decline of the AI Data Commons» отмечается, что значительное число организаций, которые чувствуют угрозу со стороны генеративного ИИ, принимают меры, чтобы отгородить свои данные. IEEE Spectrum поговорил с Шейном Лонгпре, ведущим исследователем из Data Provenance Initiative, об отчете и его последствиях для компаний ИИ.
Предлагаю вам перевод интервью с моими комментариями.
Технология, которую веб-сайты используют для защиты от веб-сканеров, не нова — протокол исключения роботов был представлен в 1995 году. Можете ли вы объяснить, что это такое и почему он внезапно стал настолько актуальным в эпоху генеративного ИИ?
Шейн: Robots.txt — это машиночитаемый файл, который краулеры — боты, которые перемещаются по сети и записывают то, что видят, — используют для определения того, следует ли сканировать определенные страницы. Он стал фактическим стандартом в эпоху, когда веб-сайты использовали его в основном для управления веб-поиском. Так что подумайте о Яндексе или Google Search; они хотели записывать эту информацию, чтобы улучшить опыт навигации пользователей по сети. Это были очень симбиотические отношения, потому что веб-поиск работает, отправляя трафик на веб-сайты, а веб-сайты хотят этого. В общем, большинство веб-сайтов хорошо взаимодействовали с большинством краулеров. Позвольте мне теперь рассказать о цепочке утверждений, которые важно понять. Модели ИИ общедоступны, и их весьма впечатляющие возможности зависят от масштаба данных и вычислений, которые использовались для их обучения. Много базовых моделей были обучены на сканировании Интернета. Под этими популярными и важными наборами данных по сути находятся только веб-сайты и инфраструктура сканирования, используемая для сбора, упаковки и обработки этих данных. Наше исследование рассматривает не только наборы данных, но и сигналы предпочтений от базовых веб-сайтов. Это цепочка поставок самих данных.
Но в прошлом году многие веб-сайты начали использовать robots.txt для ограничения ботов, особенно веб-сайты, которые монетизируются с помощью рекламы и платного доступа. Они особенно боятся, и, возможно, не без оснований, что генеративный ИИ может посягнуть на их средства к существованию. Поэтому они и принимают активные меры для защиты своих данных.
Когда сайт устанавливает ограничения robots.txt, это как установить знак «вход воспрещен», верно? Но ведь это не имеет никакой юридической силы.
Шейн: Трагедия в том, что robots.txt является машиночитаемым, но, по-видимому, не имеет обязательной силы. В то время как условия обслуживания могут быть юридически обязательными, но не являются машиночитаемыми. В условиях обслуживания они могут сформулировать на естественном языке, каковы предпочтения в использовании данных. Поэтому они могут сказать что-то вроде: «Вы можете использовать эти данные, но только не в коммерческих целях и не для обучения ИИ». Но в robots.txt вы должны индивидуально указать поисковые роботы, а затем указать, какие страницы сайта вы разрешаете или запрещаете для них. Это накладывает неоправданное бремя на веб-сайты, чтобы выяснить, среди тысяч различных поисковых роботов, какие из них соответствуют желаемым видам использования, а какие — нет.
Знаем ли мы наверняка, соблюдают ли поисковые роботы ограничения, указанные в файле robots.txt?
Шейн: У многих крупных ИИ компаний есть регламенты, в которых четко прописаны их правила или процедуры. Например, в случае Anthropic они говорят, что уважают robots.txt для ClaudeBot. Однако многие из этих компаний в последнее время также попали в новости, потому что их обвиняли в игнорировании robots.txt и сканировании веб-сайтов в любом случае. Со стороны неясно, почему существует расхождение между тем, что компании ИИ говорят о том, что они делают, и тем, в чем их обвиняют. Но многие просоциальные группы, которые используют сканирование — небольшие стартапы, ученые, некоммерческие организации, журналисты — склонны соблюдать правила Robots.txt.
Поисковые системы заявляют, что правила в роботс.тхт носят рекомендательный характер и могут быть проигнорированы. Если даже сами поисковые системы это открыто заявляют, так чего ждать от ИИ компаний, которые максимально заинтересованы в огромных выборках данных для обучения своих моделей.
В отчете вы рассмотрели три набора обучающих данных, которые часто используются для обучения генеративных систем ИИ, которые были созданы на основе веб-сканирования в прошлые годы. Вы обнаружили, что с 2023 по 2024 год наблюдался очень значительный рост числа сканируемых доменов, которые с тех пор были ограничены. Можете ли вы рассказать об этих результатах?
Шейн: Мы обнаружили, что если посмотреть на конкретный набор данных, возьмем C4, который очень популярен, созданный в 2019 году, — менее чем за год около 5 процентов его данных были отозваны. Сейчас эти 5 процентов не кажутся тоннами, но это когда вы понимаете, что эта часть данных в основном соответствует самым качественным, наиболее хорошо поддерживаемым и самым свежим данным. Когда мы посмотрели на 2000 лучших веб-сайтов в этом наборе данных C4 — это 2000 лучших по размеру, и это в основном новости, крупные академические сайты, социальные сети и тщательно отобранные высококачественные веб-сайты — 25 процентов данных в этих 2000 лучших были с тех пор отозваны. Это означает, что распределение данных для обучения моделей, которые учитывают robots.txt, быстро смещается от высококачественных новостей, академических сайтов, форумов и социальных сетей к более организационным и личным сайтам, а также к электронной коммерции и блогам. В том числе в выборку попадают "желтые" сайты, при большом числе которых от генеративных моделей ИИ можно ожидать совершенно неожиданных ответов.
Если модели генеративного ИИ будут опираться на "частные мнения", то ничего хорошего ожидать будет нельзя. Уже сейчас мы это наблюдаем, формируя промты на историческую тематику. Очевидно, в чью сторону качается маятник в ответах на эти промты.
Похоже, это может стать проблемой, если мы попросим какую-нибудь будущую версию ChatGPT или Perplexity ответить на сложные вопросы, а она будет брать информацию из личных блогов и сайтов покупок. Не так ли?
Шейн: Совершенно верно. Трудно оценить, как это повлияет на модели, но мы подозреваем, что будет разрыв между производительностью моделей, которые уважают robots.txt, и производительностью моделей, которые уже получили эти данные и готовы обучаться на них в любом случае.
Да что тут трудно оценить-то? Дело ведь не в производительности моделей, а в достоверности результатов! С учетом того, что молодежь активно осваивает генеративные нейросети, мы рискуем получить поколение идиотов, воспитанное на недостоверных знаниях. Причем, не только в русскоговорящем сегменте.
Но старые наборы данных все еще нетронутые. Могут ли компании ИИ просто использовать старые наборы данных? В чем недостаток этого варианта?
Шейн: Ну, постоянная актуальность данных действительно имеет колоссальное значение. Также сейчас неясно, может ли robots.txt применяться задним числом. Издатели, вероятно, будут утверждать, что они могут. Так что это зависит от вашей склонности к судебным искам или от того, куда, по вашему мнению, могут пойти тенденции, особенно в США, с текущими судебными исками, связанными с добросовестным использованием данных. Ярким примером, очевидно, является The New York Times против OpenAI и Microsoft, но сейчас есть много вариантов. Существует большая неопределенность относительно того, в каком направлении пойдет сбор данных в дальнейшем.
Лично я считаю, что работать с новостной повесткой с помощью генеративных сетей категорически нельзя. Вероятно, скоро правительства стран будут вводить определенные требования и регламенты к контенту, распространяемому на их территории.
Что могут сделать компании ИИ, если это продолжится и все больше данных будут ограничены? Каковы будут их действия, чтобы продолжать обучать огромные модели?
Шейн: Крупные компании будут лицензировать его напрямую. Это может быть неплохим результатом для некоторых крупных компаний, если большая часть этих данных будет изъята или их будет трудно собрать, это просто создает более высокие требования к капиталу для входа. Я думаю, что крупные компании будут больше инвестировать в конвейер сбора данных и в получение постоянного доступа к ценным источникам данных, которые генерируются пользователями, таким как YouTube , GitHub и Reddit . Получение эксклюзивного доступа к этим сайтам, вероятно, является разумной рыночной игрой, но проблематичной с точки зрения антимонопольного законодательства. Я особенно обеспокоен эксклюзивными отношениями по приобретению данных, которые могут возникнуть из этого.
Обратите внимание! Это значит, что любые ваши слова на ютубе или во многих других источниках могут стать основой для обучения ИИ. А сколько на ютубе шарлатанов и мошенников? То-то же!
Считаете ли вы, что синтетические данные могут заполнить этот пробел?
Шейн: Крупные компании уже используют синтетические данные в больших количествах. С синтетическими данными связаны как страхи, так и возможности. С одной стороны, был ряд работ, которые продемонстрировали потенциал коллапса модели, то есть деградации модели из-за обучения на плохих синтетических данных, которые могут чаще появляться в сети по мере того, как все больше и больше генеративных ботов выпускаются на свободу. Однако я думаю, что маловероятно, что большие модели будут сильно затруднены, поскольку у них есть качественные фильтры, поэтому некачественный или повторяющийся материал может быть отклонен. И возможности синтетических данных в том, что когда они создаются в лабораторной среде, они будут очень высокого качества, и они нацелены, в частности, на домены, которые недостаточно развиты.
Ожидаете ли вы, что в ближайшие годы больше веб-сайтов будут устанавливать ограничения robots.txt?
Шейн: Мы ожидаем, что ограничения будут расти, как в robots.txt, так и в плане обслуживания. Эти тенденции очень четко прослеживаются в нашей работе, но на них могут повлиять внешние факторы, такие как законодательство, изменение компаниями своей политики, результаты судебных исков, а также давление сообщества со стороны гильдий писателей и тому подобное. И я ожидаю, что возросшая коммерциализация данных вызовет большее поле битвы в этой области.
Вот это очень сложный вопрос. С одной стороны нужно отдавать данные в поисковые системы, но с другой стороны желательно ограничить их от ИИ ботов. Ждем нового стандарта индексации? Думаю, что и для поисковых систем это станет важно, ведь модели ИИ сильно отъедают у них трафик.
Что бы вы хотели увидеть в плане стандартизации в отрасли, чтобы упростить для веб-сайтов выражение предпочтений относительно сканирования?
Шейн: В Data Province Initiative мы определенно надеемся, что появятся и будут приняты новые стандарты, которые позволят создателям контента выражать свои предпочтения более детально относительно использования их данных. Это значительно облегчит им задачу. Я думаю, что это очевидно и выигрышно для всех. Но неясно, чья работа — создавать или обеспечивать соблюдение этих стандартов. Было бы удивительно, если бы сами ИИ компании могли прийти к такому выводу и сделать это. Но разработчик стандарта почти неизбежно будет иметь некоторую предвзятость в отношении собственного использования, особенно если это корпоративная организация. Также верно, что предпочтения не должны соблюдаться во всех случаях. Например, я не думаю, что ученые или журналисты, проводящие просоциальные исследования, должны быть обязательно лишены доступа к данным с помощью машин, которые уже являются общедоступными, на веб-сайтах, которые любой может посетить сам. Не все данные созданы равными, и не все виды использования созданы равными.
Выдавать данные по пропускам и разрешениям или отдавать всё и всем. Так что ли? Или будем искать какой-то компромисс? На это могут уйти годы, за которые планета может измениться до неузнаваемости.