Ну и sidecomment. Проблема сегодня, что люди как только видят признаки "ИИ сгенерированный текст", в местах где его нет, добавляют ярлык "ИИ/AI slop" и перестают смотреть на суть.
Есть исследования, которые говорят, что ИИ тексты снижают доверие к информации / автору примерно на 40%. Но основная причина снижения такого доверия – "отсутствие вклада или труда". То есть доверие возникает, когда люди видят, что автор потратил свое время. Если не видят этого – следом присваивают соответствующий ярлык.
Но при этом, статья, как правило, это лишь меньшая часть вложения трудов.
Спасибо Непонятно, как связана статья про 9 агентов и исследование. О какой статья именно?
Относительно постоянной памяти, вы в целом, правы. Важно замечать паттерны и бОльшая польза приходится в долгосрочной перспективе.
Фундаментальная проблема моделей внизу рейтинга, от моделей в верхней части рейтинга – нарушенная или отсутствие логики. Глубина ответов и анализа. На мой взгляд, добавление персистентной памяти и расширяя контекстное окно – проблема только ухудшится. Потому что контекстное окно у Яндекса на порядок меньше, чем у моделей в верхней части рейтинга.
Из того, что у нас в бэклоге лежит – попытаться найти вариант общения с условным Яндексом, который подымает качество ответов. Будущая статья
Хорошая затея. Предлагаю сначала посмотреть на то, что уже есть. Например, вот такой benchmark есть, как раз для русского языка https://mera.a-ai.ru/ru/text/leaderboard
Хорошо, что в каждом периоде жизни на хабре есть в чем обвинять. Последние 2 года тренд – нейрослоп, да. Об этом важно будет поговорить, в отдельной статье.
Относительно доступа grok из России – это данные из нашего реестра, закралась ошибка. Спасибо, что указали на это!
Что именно вы бы хотели увидеть? Какие-то конкретные моменты? Мы сравнивали все эти результаты с Claude, ChatGPT, Google. Они есть в рейтинге. Но именно эта статья про то, что доступно без VPN из России
В определенных ситуациях это явно заметно (как в статье - нет личных деталей, много общего). Но если попросить ИИ быть специфичным (последние вопросы в Квизе), то порог угадывания сильно падает. При этом, не нужно заморачиваться, чтобы дать ответ. Достаточно задач качественный промпт поведения LLM, чтобы получать подходящие ответы
Ну и sidecomment. Проблема сегодня, что люди как только видят признаки "ИИ сгенерированный текст", в местах где его нет, добавляют ярлык "ИИ/AI slop" и перестают смотреть на суть.
Есть исследования, которые говорят, что ИИ тексты снижают доверие к информации / автору примерно на 40%. Но основная причина снижения такого доверия – "отсутствие вклада или труда". То есть доверие возникает, когда люди видят, что автор потратил свое время. Если не видят этого – следом присваивают соответствующий ярлык.
Но при этом, статья, как правило, это лишь меньшая часть вложения трудов.
Судья заключил, да. Хотите перепишу? Сути это не меняет
Но ИИ использовался в статье – генерация картинки. Ревью тоже было сделано с ИИ
Спасибо
Непонятно, как связана статья про 9 агентов и исследование. О какой статья именно?
Относительно постоянной памяти, вы в целом, правы. Важно замечать паттерны и бОльшая польза приходится в долгосрочной перспективе.
Фундаментальная проблема моделей внизу рейтинга, от моделей в верхней части рейтинга – нарушенная или отсутствие логики. Глубина ответов и анализа. На мой взгляд, добавление персистентной памяти и расширяя контекстное окно – проблема только ухудшится. Потому что контекстное окно у Яндекса на порядок меньше, чем у моделей в верхней части рейтинга.
Из того, что у нас в бэклоге лежит – попытаться найти вариант общения с условным Яндексом, который подымает качество ответов. Будущая статья
Да, Gigachat, Yandex везде в конце списка. Как и по нашему бенмарку
Да, не уточнил. Мы тестировали GigaChat 2 Pro/Max. 3ю версию мы не разворачивали у себя. В одном из следующих разов :)
GigaChat по нашему рейтингу в самом конце. Показал себя хуже моделей Яндекса. На следующей неделе опубликуем статью
Хорошая затея. Предлагаю сначала посмотреть на то, что уже есть. Например, вот такой benchmark есть, как раз для русского языка
https://mera.a-ai.ru/ru/text/leaderboard
Исправили про Grok. Спасибо
Хорошо, что в каждом периоде жизни на хабре есть в чем обвинять. Последние 2 года тренд – нейрослоп, да. Об этом важно будет поговорить, в отдельной статье.
Относительно доступа grok из России – это данные из нашего реестра, закралась ошибка. Спасибо, что указали на это!
Удачи!
Сделать - самое простое. Сложнее промоут, маркетинг и найти коиентов
Потом развитие и поддержка, чтобы не сломалось :)
Гигачат в следующем будет снепшоте. Но если что, то в основе gigachat’a тоже лежит qwen уже
Что именно вы бы хотели увидеть? Какие-то конкретные моменты?
Мы сравнивали все эти результаты с Claude, ChatGPT, Google. Они есть в рейтинге. Но именно эта статья про то, что доступно без VPN из России
С Qwen небольшая оплошность произошла. Мы взяли Qwen3 235B и он показал результаты хуже, нежели deepseek. Qwen 3.5 вышел, когда мы делали анализ.
А Qwen 3 Max ускользнул из нашего внимания. Сделаем анализ во втором снепшоте скоро
GLM для коддинга изначально позиционировался же, по этой причине мы его не взяли в изначальную выборку. В следующем блоке мы возьмем GLM 5 уже
MiniMax M1 мы взяли в анализ, она показала результаты лучше, чем Qwen. Но теперь уде MiniMax M2.5 нужно брать
слишком много смыслов в FTFY, вы что имели ввиду?
Ну на мой взгляд, тут уже сложно узнать, где человек, а где робот
Ахахаха. Та же фигня, на самом деле. Если посмотреть на наш квиз
https://mysummit.school/ai-quiz
В определенных ситуациях это явно заметно (как в статье - нет личных деталей, много общего). Но если попросить ИИ быть специфичным (последние вопросы в Квизе), то порог угадывания сильно падает. При этом, не нужно заморачиваться, чтобы дать ответ. Достаточно задач качественный промпт поведения LLM, чтобы получать подходящие ответы
Курсы появляются как грибы после дождя :)
Вот еще один, забытый (ну и сколько еще не появилось!)
https://lp.e-mba.ru/ai_for_manager
не, в reasoning он не умеет еще. Но сгенерировать текст, похожий на русский - вполне справляется