Pull to refresh
16K+
11
Stanislav Belyaev@bstan

Менеджер с разными приставками и суффиксами

15,1
Rating
15
Subscribers
Send message

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Level of difficultyEasy
Reading time6 min
Reach and readers17K

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.

Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.

Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.

Детали по исследованию

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

Level of difficultyMedium
Reading time9 min
Reach and readers11K

Каждый производитель LLM заявляет о лидерстве. OpenAI – «самая мощная модель». Anthropic – «самая безопасная». Яндекс – «лучше всех понимает русский». Проверить эти заявления, не потратив месяц на ручное тестирование, – задача нетривиальная. Мы решили попробовать.

Читать далее

Улучшить ваши встречи 1:1 с Claude

Level of difficultyEasy
Reading time11 min
Reach and readers2.4K

За год, толком не прибавилось информации – как на практики можно применять GenAI инструменты (ChatGPT, Claude, Deepseek и им подобные). В выигрыше разработчики, кажется, потому что для них больше всего выгоды в виде написания тонны кода (проблема с его ревью только). Но другие сферы – все еще идет попытка практически понять границы применимости или хотя бы возможности инструмента. Это косвенно подтверждается тем, что ChaGPT, несмотря на ошеломительный успех и сотни миллионов пользователей, имеет только 30% WAU (Weekly Active Users). То есть, только 30% пользователей заходят раз в неделю, постоянно.

Я же для себя поставил цель понять, как может GenAI инструмент использоваться на практике для менеджера. Человек, который постоянно коммуницирует, работает с командой, людьми. И в целом, нахожу ряд полезных сценариев. Один из сценариев – подготовка ко встречам 1:1.

Зачем это в принципе нужно?

Социальный конформизм в менеджменте

Level of difficultyMedium
Reading time12 min
Reach and readers3.7K

Когда я читал книги по менеджменту или по психологии поведения, я задавался вопросом – как эти знания можно применить в работе, к команде? И в частности в проектном управлении? Вопрос этот возник давно, и этой статьей я решил открыть серию заметок на тему исследований в менеджменте.

Читать далее

Личное планирование. Именно «личное»

Level of difficultyMedium
Reading time12 min
Reach and readers25K

Я нашел свою систему «Личного планирования», о чем я поделился в этой статье и передаю этот опыт студентам курсов по менеджменту в Практикуме.

В этой статье расскажу:

— Зачем начинать планирование в начале дня,
— Почему нужно ограничивать количество задач и блокировать время для их выполнения,
— Какие приложения помогают отслеживать продуктивность,
— Зачем подводить итоги дня и анализировать свою эффективность.

Какие практики можно использовать?

Information

Rating
566-th
Date of birth
Registered
Activity

Specialization

Менеджер проекта, Директор проекта
Ведущий
Управление проектами
Управление людьми
Стратегическое управление
Управление разработкой