«Википедия» пытается решить проблему перегрузки своих серверов из-за агентов ИИ, которые занимаются веб-скрейпингом. Интернет-энциклопедия выпустила набор данных, специально оптимизированный для обучения моделей искусственного интеллекта.
Фонд Wikimedia заключил партнёрское соглашение с Kaggle — платформой сообщества науки о данных, принадлежащей Google, где размещаются данные машинного обучения, — для публикации бета‑набора данных «структурированного контента „Википедии“ на английском и французском языках».
Этот набор «создали с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа и выравнивания. Содержимое набора данных имеет открытую лицензию и включает обзоры исследований, краткие описания, ссылки на изображения, данные информационных полей и разделы статей — за исключением ссылок или мультимедийных элементов, таких как аудиофайлы.
«Хорошо структурированные JSON-представления контента Wikipedia, доступные пользователям Kaggle, должны стать более привлекательной альтернативой скрейпингу или парсингу сырого текста статьи», — уверены в Wikimedia.
У фонда уже есть соглашения об обмене контентом с Google и Internet Archive, но партнерство с Kaggle должно сделать эти данные более доступными для небольших компаний и независимых учёных.
Между тем анонимный разработчик выпустил специальный лабиринт с открытым исходным кодом, чтобы заманивать в ловушку обучающих ИИ веб-сканеров в бесконечно и случайно генерируемую серию страниц. Программу под названием Nepenthes могут развернуть владельцы ресурсов.