Комментарии / Профиль bstan / Хабр

Stanislav Belyaev@bstan

Менеджер с разными приставками и суффиксами

17,1

Рейтинг

Подписчики

ПрофильСтатьи5ПостыНовостиКомментарии138

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan 30 мар в 07:11

Ну и sidecomment. Проблема сегодня, что люди как только видят признаки "ИИ сгенерированный текст", в местах где его нет, добавляют ярлык "ИИ/AI slop" и перестают смотреть на суть.

Есть исследования, которые говорят, что ИИ тексты снижают доверие к информации / автору примерно на 40%. Но основная причина снижения такого доверия – "отсутствие вклада или труда". То есть доверие возникает, когда люди видят, что автор потратил свое время. Если не видят этого – следом присваивают соответствующий ярлык.

Но при этом, статья, как правило, это лишь меньшая часть вложения трудов.

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan 30 мар в 07:07

Судья заключил, да. Хотите перепишу? Сути это не меняет

Но ИИ использовался в статье – генерация картинки. Ревью тоже было сделано с ИИ

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 29 мар в 05:44

Спасибо
Непонятно, как связана статья про 9 агентов и исследование. О какой статья именно?

Относительно постоянной памяти, вы в целом, правы. Важно замечать паттерны и бОльшая польза приходится в долгосрочной перспективе.

Фундаментальная проблема моделей внизу рейтинга, от моделей в верхней части рейтинга – нарушенная или отсутствие логики. Глубина ответов и анализа. На мой взгляд, добавление персистентной памяти и расширяя контекстное окно – проблема только ухудшится. Потому что контекстное окно у Яндекса на порядок меньше, чем у моделей в верхней части рейтинга.

Из того, что у нас в бэклоге лежит – попытаться найти вариант общения с условным Яндексом, который подымает качество ответов. Будущая статья

GigaChat-3.1: Большое обновление больших моделей

bstan 28 мар в 14:59

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

bstan 28 мар в 14:55

Да, Gigachat, Yandex везде в конце списка. Как и по нашему бенмарку

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 20 мар в 10:58

Да, не уточнил. Мы тестировали GigaChat 2 Pro/Max. 3ю версию мы не разворачивали у себя. В одном из следующих разов :)

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 20 мар в 10:48

GigaChat по нашему рейтингу в самом конце. Показал себя хуже моделей Яндекса. На следующей неделе опубликуем статью

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 17 мар в 19:29

Хорошая затея. Предлагаю сначала посмотреть на то, что уже есть. Например, вот такой benchmark есть, как раз для русского языка
https://mera.a-ai.ru/ru/text/leaderboard

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 17 мар в 06:18

Исправили про Grok. Спасибо

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 17 мар в 05:40

Хорошо, что в каждом периоде жизни на хабре есть в чем обвинять. Последние 2 года тренд – нейрослоп, да. Об этом важно будет поговорить, в отдельной статье.

Относительно доступа grok из России – это данные из нашего реестра, закралась ошибка. Спасибо, что указали на это!

Собрал EdTech-платформу за неделю. Разбираю свой workflow по шагам

bstan 16 мар в 17:49

Удачи!

Сделать - самое простое. Сложнее промоут, маркетинг и найти коиентов

Потом развитие и поддержка, чтобы не сломалось :)

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 16 мар в 13:04

Гигачат в следующем будет снепшоте. Но если что, то в основе gigachat’a тоже лежит qwen уже

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 16 мар в 11:51

Что именно вы бы хотели увидеть? Какие-то конкретные моменты?
Мы сравнивали все эти результаты с Claude, ChatGPT, Google. Они есть в рейтинге. Но именно эта статья про то, что доступно без VPN из России

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 16 мар в 08:51

С Qwen небольшая оплошность произошла. Мы взяли Qwen3 235B и он показал результаты хуже, нежели deepseek. Qwen 3.5 вышел, когда мы делали анализ.

А Qwen 3 Max ускользнул из нашего внимания. Сделаем анализ во втором снепшоте скоро

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan 16 мар в 08:43

GLM для коддинга изначально позиционировался же, по этой причине мы его не взяли в изначальную выборку. В следующем блоке мы возьмем GLM 5 уже

MiniMax M1 мы взяли в анализ, она показала результаты лучше, чем Qwen. Но теперь уде MiniMax M2.5 нужно брать

Мы всё чаще не отличаем реального автора от AI

bstan 30 июн 2025 в 03:53

слишком много смыслов в FTFY, вы что имели ввиду?

Мы всё чаще не отличаем реального автора от AI

bstan 29 июн 2025 в 16:10

Ну на мой взгляд, тут уже сложно узнать, где человек, а где робот

Мы всё чаще не отличаем реального автора от AI

bstan 29 июн 2025 в 16:00

Ахахаха. Та же фигня, на самом деле. Если посмотреть на наш квиз
https://mysummit.school/ai-quiz

В определенных ситуациях это явно заметно (как в статье - нет личных деталей, много общего). Но если попросить ИИ быть специфичным (последние вопросы в Квизе), то порог угадывания сильно падает. При этом, не нужно заморачиваться, чтобы дать ответ. Достаточно задач качественный промпт поведения LLM, чтобы получать подходящие ответы

Как выбрать AI-курс для менеджера: подробный разнос

bstan 27 июн 2025 в 13:37

Курсы появляются как грибы после дождя :)
Вот еще один, забытый (ну и сколько еще не появилось!)
https://lp.e-mba.ru/ai_for_manager

Всё сгенерировано GPT! Гайд как распознать AI-текст и как сделать его неотличимым от человеческого

bstan 14 июн 2025 в 09:11

не, в reasoning он не умеет еще. Но сгенерировать текст, похожий на русский - вполне справляется

3 4 5 6 7

Информация

Специализация