kekslop 18 мар в 12:40

Deep Research Showdown: битва AI-систем за качество исследований

3 мин

1.9K

Блог компании red_mad_robotИскусственный интеллект

Комментарии 4

kucev 18 мар в 19:08

Огонь! Какие именно «сложные аналитические задачи» AI-модели решают хуже всего, и почему?

kekslop 18 мар в 19:15

Сейчас что я заметил хуже всего работает с поиском имен/точных исторических данных (точных цифр прям до копеечки в инвестициях) но что и стоило ожидать часто интернет полон garbage

А как мы знаем garbage in garbage out

rodion-m 18 мар в 19:19

Ну, результаты, конечно, прям похвальные для 7B модельки. Правда, кажется, что Sonnet 3.5 еще и без доступа к актуальным данным - не лучший судья в такого рода челлендже.
Кстати, в следующий раз еще решение от Google учитывайте плиз, их Deep Research как раз недавно заработал в бесплатной версии.

kekslop 18 мар в 19:20

Будет новый забег скоро. я улучшил пайп свой добавил ему памяти и немного присыпал магией RL и кучей экпериментов!

Буду расширять список гугл тоже возьмем!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий