Articles / Profile of bstan / Habr

Stanislav Belyaev@bstan

Менеджер с разными приставками и суффиксами

3,6

Rating

Subscribers

ProfileArticles6Posts1NewsComments146

bstan 12 hours ago

Как OpenRouter Fusion обошёл Claude Fable 5

Medium

10 min

5.5K

Artificial IntelligenceProject management * Development Management *

Analytics

Мультимодельная оркестрация – модная: вместо одной модели дёргаешь несколько разом, а отдельная модель-судья сводит их ответы в один. OpenRouter продаёт это под именем Fusion, Sakana AI – под именем Fugu, и обещание у обоих одно: связка обходит любую одиночную модель. Я решил проверить на реальных рабочих задачах – и первое место действительно занял оркестратор, обойдя и Claude, и GPT, и Gemini поодиночке.

Звучит как слайд из презентации вендора – примерно это и написала про свой Fusion команда OpenRouter. Но у меня остались логи всех 541 API-вызова: токены, деньги, время. И они портят красивую картинку. Например, 68% всех денег внутри Fusion уходит на один-единственный Claude Opus – выходит, за качество я доплачиваю больше чем вдвое, по сути, за обёртку вокруг модели, которую мог вызвать напрямую.

Дальше – по логам: как Fusion устроен изнутри, какие модели он дёргает на самом деле, где оркестрация реально бьёт одиночную модель, где сливает ей, и окупается ли она своих денег и полутора минут на ответ.

Такое можно сделать самому

bstan Mar 30 at 06:55

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Easy

6 min

19K

Statistics in ITArtificial IntelligenceProject management * Product Management *

Analytics

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.

Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.

Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.

Детали по исследованию

+12

bstan Mar 16 at 08:23

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

Medium

9 min

13K

Artificial IntelligenceProject management * Product Management *

Analytics

Каждый производитель LLM заявляет о лидерстве. OpenAI – «самая мощная модель». Anthropic – «самая безопасная». Яндекс – «лучше всех понимает русский». Проверить эти заявления, не потратив месяц на ручное тестирование, – задача нетривиальная. Мы решили попробовать.

bstan Jun 4 2025 at 10:49

Улучшить ваши встречи 1:1 с Claude

Easy

11 min

2.4K

Personnel Management * Project management * Development Management *

Tutorial

За год, толком не прибавилось информации – как на практики можно применять GenAI инструменты (ChatGPT, Claude, Deepseek и им подобные). В выигрыше разработчики, кажется, потому что для них больше всего выгоды в виде написания тонны кода (проблема с его ревью только). Но другие сферы – все еще идет попытка практически понять границы применимости или хотя бы возможности инструмента. Это косвенно подтверждается тем, что ChaGPT, несмотря на ошеломительный успех и сотни миллионов пользователей, имеет только 30% WAU (Weekly Active Users). То есть, только 30% пользователей заходят раз в неделю, постоянно.

Я же для себя поставил цель понять, как может GenAI инструмент использоваться на практике для менеджера. Человек, который постоянно коммуницирует, работает с командой, людьми. И в целом, нахожу ряд полезных сценариев. Один из сценариев – подготовка ко встречам 1:1.

Зачем это в принципе нужно?

bstan Jan 13 2025 at 09:11

Социальный конформизм в менеджменте

Medium

12 min

3.8K

FAQ

Когда я читал книги по менеджменту или по психологии поведения, я задавался вопросом – как эти знания можно применить в работе, к команде? И в частности в проектном управлении? Вопрос этот возник давно, и этой статьей я решил открыть серию заметок на тему исследований в менеджменте.

bstan May 17 2024 at 11:19

Личное планирование. Именно «личное»

Medium

12 min

26K

Яндекс Практикум corporate blogProject management * Agile * Product Management * IT career

Tutorial

Я нашел свою систему «Личного планирования», о чем я поделился в этой статье и передаю этот опыт студентам курсов по менеджменту в Практикуме.

В этой статье расскажу:

— Зачем начинать планирование в начале дня,
— Почему нужно ограничивать количество задач и блокировать время для их выполнения,
— Какие приложения помогают отслеживать продуктивность,
— Зачем подводить итоги дня и анализировать свою эффективность.

Какие практики можно использовать?

+21

Как OpenRouter Fusion обошёл Claude Fable 5

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

Улучшить ваши встречи 1:1 с Claude

Социальный конформизм в менеджменте

Личное планирование. Именно «личное»

Information

Specialization