Comments 1
Нужно просто подходить к синтетическим данным здраво. Первое, что можно сделать, это спросить у текущего ИИ, какие синтетические данные будут только улучшать процесс. Второе - с подкреплением. Например, приделать софт для проверки. Обычный научный калькулятор для проверки синтетических данных с формулами и решениями. Автоматизировать легко. Временные синтетические данные (будут пересоздаваться каждый раз с новой моделью) - это обычные переводы текстов с разных языков на все другие языки. Очевидно, пока нейронка не научится делать перевод на 5+ придётся раз за разом пересоздавать вводные данные. Как итог, новая сеть будет переучиваться с нуля по улучшенным синтетическим данным, созданным предыдущей моделью.... В общем, что я распинаюсь, спросите у ИИ). Вариант 2. Каждая новая модель будет подробно комментировать всю информацию, как код построчно, добавлять, уточнять. Следующее поколение будет оставлять свой комментарий с уточнениями и т.д. Тогда данные увеличатся в сотни раз.
Генерация синтетических данных для LLM, или Как не «выстрелить» в ногу продакшену. Часть 1