Как стать автором
Обновить

«Википедия» представила набор данных для обучения ИИ ради борьбы со скрейпингом

Время на прочтение1 мин
Количество просмотров3.3K

«Википедия» пытается решить проблему перегрузки своих серверов из-за агентов ИИ, которые занимаются веб-скрейпингом. Интернет-энциклопедия выпустила набор данных, специально оптимизированный для обучения моделей искусственного интеллекта. 

Фонд Wikimedia заключил партнёрское соглашение с Kaggle — платформой сообщества науки о данных, принадлежащей Google, где размещаются данные машинного обучения, — для публикации бета‑набора данных «структурированного контента „Википедии“ на английском и французском языках».

Этот набор «создали с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа и выравнивания. Содержимое набора данных имеет открытую лицензию и включает обзоры исследований, краткие описания, ссылки на изображения, данные информационных полей и разделы статей — за исключением ссылок или мультимедийных элементов, таких как аудиофайлы.

«Хорошо структурированные JSON-представления контента Wikipedia, доступные пользователям Kaggle, должны стать более привлекательной альтернативой скрейпингу или парсингу сырого текста статьи», — уверены в Wikimedia. 

У фонда уже есть соглашения об обмене контентом с Google и Internet Archive, но партнерство с Kaggle должно сделать эти данные более доступными для небольших компаний и независимых учёных.

Между тем анонимный разработчик выпустил специальный лабиринт с открытым исходным кодом, чтобы заманивать в ловушку обучающих ИИ веб-сканеров в бесконечно и случайно генерируемую серию страниц. Программу под названием Nepenthes могут развернуть владельцы ресурсов.

Теги:
Хабы:
+11
Комментарии6

Другие новости

Работа

Data Scientist
46 вакансий

Ближайшие события