Комментарии 2
Не обижайтесь, но прямо страшно становится от такого использования llm.
Это вероятностная модель, а в проверке гипотез должна быть воспроизводимость. Хотите добиться воспроизводимости - генерируйте код, проверяйте, запускайте, результаты снова проверяйте, просите llm сгенерировать код для преобразования результатов в удобный формат, проверяйте, запускайте, просите llm + rag + websearch + CoT +... объяснить результаты, проверяйте, трижды просите улучшить свой ответ. 1-2 раза из 10 может что-то действительно полезное выдать, а 8-9 раз из 10 просто обычный, но правильный ответ.
Не парься.) После прочтения обзора ясно, что "ребята" не хотели полностью заменить анализ, а просто использовали БЯМ для ускорения категоризации запросов. При этом они сами правят ответы БЯМ, а значит, проводят ручную проверку и анализ. То есть, БЯМ использовали для быстрой первичной категоризации, а потом уже вручную проверяли и анализировали результаты. Всё нормально, видно, что работают бывалые.
Тестирование платформы DeepSeek для проверки гипотез по анализу данных