Pull to refresh
209.52
BotHub
Доступ к ChatGPT в РФ

ИИ может столкнуться с дефицитом данных с 2026 г. по 2032 г

Reading time2 min
Views8.6K

Развитие искусственного интеллекта, особенно чат-ботов, подобных ChatGPT, может столкнуться с серьезным препятствием уже в ближайшем будущем: в период с 2026 г. по 2032 г. технологическим компаниям может не хватить человеческого текста для обучения языковых моделей.

Тамай Бесироглу, один из авторов исследования, описывает эту ситуацию как своеобразную "золотую лихорадку" в сфере искусственного интеллекта. Подобно истощению природных ресурсов во время золотой лихорадки, запасы доступных текстовых данных, созданных человеком, могут иссякнуть, что способно существенно затормозить прогресс в развитии ИИ.

Технологические гиганты, такие как OpenAI и Google, ведут активную борьбу за высококачественные данные, необходимые для обучения своих языковых моделей. Они заключают крупные сделки с платформами, подобным Reddit, и различными новостными агентствами, стремясь получить доступ к обширным массивам текстовой информации.

Однако эксперты предупреждают: в будущем потока новых блогов, новостных статей и комментариев в социальных сетях может оказаться недостаточно, чтобы удовлетворить растущие потребности ИИ.

Это ставит перед разработчиками сложный выбор: использовать конфиденциальные данные, например, личные переписки, что порождает серьезные этические и юридические проблемы, или обратиться к синтетическим данным, созданными самими чат-ботами. Но этот путь чреват снижением качества и точности работы систем искусственного интеллекта.

Первоначально эксперты предсказывали, что острый дефицит высококачественных текстовых данных для обучения ИИ наступит уже к 2026 году. Хотя разработчики и научились эффективнее использовать имеющуюся информацию, проблема не решена, а лишь отложена на ближайшие 2-8 лет.

Обучение искусственного интеллекта на синтетических данных, то есть на текстах, созданных другим ИИ, – путь, чреватый серьёзными проблемами. Как образно заметил исследователь из Vector Institute for Artificial Intelligence, Николас Паперно, это напоминает бесконечное ксерокопирование: с каждым новым циклом информация искажается, теряется чёткость, возникают помехи. В контексте ИИ это грозит снижением качества работы систем, ростом количества ошибок и усилением уже существующих предвзятостей.

В свете этих проблем, владельцы популярных платформ, таких как Reddit и Wikipedia, задумываются о будущем обучения ИИ. По словам Селены Декельманн из Фонда Викимедиа, важно сохранить мотивацию для создания качественного контента самими людьми, иначе интернет может быть заполнен дешевым и некачественным контентом, созданным искусственным интеллектом.

Сэм Альтман, глава OpenAI, признаёт наличие проблемы и не исключает, что в будущем компаниям придётся платить людям за создание специальных наборов данных для обучения ИИ. Ведь без постоянного притока "живой" и осмысленной информации развитие искусственного интеллекта рискует зайти в тупик.

В итоге, проблема нехватки человеческого текста для обучения ИИ становится все более актуальной. Пока нет однозначного решения, но ИИ-компаниям придется принять меры, чтобы обеспечить доступность качественных данных для дальнейшего развития ИИ.

Больше можно найти здесь.

Tags:
Hubs:
Total votes 10: ↑9 and ↓1+9
Comments65

Other news

Information

Website
bothub.chat
Registered
Founded
Employees
2–10 employees
Location
Россия