Развитие искусственного интеллекта, особенно чат-ботов, подобных ChatGPT, может столкнуться с серьезным препятствием уже в ближайшем будущем: в период с 2026 г. по 2032 г. технологическим компаниям может не хватить человеческого текста для обучения языковых моделей.
Тамай Бесироглу, один из авторов исследования, описывает эту ситуацию как своеобразную "золотую лихорадку" в сфере искусственного интеллекта. Подобно истощению природных ресурсов во время золотой лихорадки, запасы доступных текстовых данных, созданных человеком, могут иссякнуть, что способно существенно затормозить прогресс в развитии ИИ.
Технологические гиганты, такие как OpenAI и Google, ведут активную борьбу за высококачественные данные, необходимые для обучения своих языковых моделей. Они заключают крупные сделки с платформами, подобным Reddit, и различными новостными агентствами, стремясь получить доступ к обширным массивам текстовой информации.
Однако эксперты предупреждают: в будущем потока новых блогов, новостных статей и комментариев в социальных сетях может оказаться недостаточно, чтобы удовлетворить растущие потребности ИИ.
Это ставит перед разработчиками сложный выбор: использовать конфиденциальные данные, например, личные переписки, что порождает серьезные этические и юридические проблемы, или обратиться к синтетическим данным, созданными самими чат-ботами. Но этот путь чреват снижением качества и точности работы систем искусственного интеллекта.
Первоначально эксперты предсказывали, что острый дефицит высококачественных текстовых данных для обучения ИИ наступит уже к 2026 году. Хотя разработчики и научились эффективнее использовать имеющуюся информацию, проблема не решена, а лишь отложена на ближайшие 2-8 лет.
Обучение искусственного интеллекта на синтетических данных, то есть на текстах, созданных другим ИИ, – путь, чреватый серьёзными проблемами. Как образно заметил исследователь из Vector Institute for Artificial Intelligence, Николас Паперно, это напоминает бесконечное ксерокопирование: с каждым новым циклом информация искажается, теряется чёткость, возникают помехи. В контексте ИИ это грозит снижением качества работы систем, ростом количества ошибок и усилением уже существующих предвзятостей.
В свете этих проблем, владельцы популярных платформ, таких как Reddit и Wikipedia, задумываются о будущем обучения ИИ. По словам Селены Декельманн из Фонда Викимедиа, важно сохранить мотивацию для создания качественного контента самими людьми, иначе интернет может быть заполнен дешевым и некачественным контентом, созданным искусственным интеллектом.
Сэм Альтман, глава OpenAI, признаёт наличие проблемы и не исключает, что в будущем компаниям придётся платить людям за создание специальных наборов данных для обучения ИИ. Ведь без постоянного притока "живой" и осмысленной информации развитие искусственного интеллекта рискует зайти в тупик.
В итоге, проблема нехватки человеческого текста для обучения ИИ становится все более актуальной. Пока нет однозначного решения, но ИИ-компаниям придется принять меры, чтобы обеспечить доступность качественных данных для дальнейшего развития ИИ.
Больше можно найти здесь.