Обновить

Всем привет! На связи Иван, руководитель НИИ Крокодил

Недавно прочитал на Хабре статью о том, на чём будут учиться нейросети в 2026 году. Там был тезис, что «интернет как универсальный бесплатный датасет» больше не работает в прежнем виде. Согласен с автором и вот почему:

AI-контента становится всё больше, юридические ограничения усиливаются, знания постепенно уходят из открытых источников в корпоративные базы и закрытые каналы. Обучать можно, дообучать можно — вопрос в качестве и происхождении данных.

Но в прикладном ИИ проблема ещё приземлённее.

Мы редко упираемся в отсутствие данных вообще. Чаще — в отсутствие данных под конкретную среду.

Например, вы собрали датасет по знаку «Пешеходный переход», днём всё работает стабильно. Наступает вечер, меняется освещённость, появляются блики, и точность снижается. Чуть сместили камеру, сцена уже другая, для модели это новые входные данные.

Модель не человек: она не понимает контекст, а работает с признаками изображения. Даже для простой сцены нужны тысячи кадров в разных условиях. А это время и бюджет.

Поэтому вопрос сейчас не только в моделях, а в том, насколько компании готовы системно работать с данными. А вы что думаете по этому поводу?

Теги:
0
Комментарии0

Публикации