Pull to refresh
12
Stanislav Belyaev@bstan

Менеджер с разными приставками и суффиксами

16
Subscribers
Send message

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Level of difficultyEasy
Reading time6 min
Reach and readers19K

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.

Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.

Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.

Детали по исследованию

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

Level of difficultyMedium
Reading time9 min
Reach and readers12K

Каждый производитель LLM заявляет о лидерстве. OpenAI – «самая мощная модель». Anthropic – «самая безопасная». Яндекс – «лучше всех понимает русский». Проверить эти заявления, не потратив месяц на ручное тестирование, – задача нетривиальная. Мы решили попробовать.

Читать далее

Улучшить ваши встречи 1:1 с Claude

Level of difficultyEasy
Reading time11 min
Reach and readers2.4K

За год, толком не прибавилось информации – как на практики можно применять GenAI инструменты (ChatGPT, Claude, Deepseek и им подобные). В выигрыше разработчики, кажется, потому что для них больше всего выгоды в виде написания тонны кода (проблема с его ревью только). Но другие сферы – все еще идет попытка практически понять границы применимости или хотя бы возможности инструмента. Это косвенно подтверждается тем, что ChaGPT, несмотря на ошеломительный успех и сотни миллионов пользователей, имеет только 30% WAU (Weekly Active Users). То есть, только 30% пользователей заходят раз в неделю, постоянно.

Я же для себя поставил цель понять, как может GenAI инструмент использоваться на практике для менеджера. Человек, который постоянно коммуницирует, работает с командой, людьми. И в целом, нахожу ряд полезных сценариев. Один из сценариев – подготовка ко встречам 1:1.

Зачем это в принципе нужно?

Социальный конформизм в менеджменте

Level of difficultyMedium
Reading time12 min
Reach and readers3.8K

Когда я читал книги по менеджменту или по психологии поведения, я задавался вопросом – как эти знания можно применить в работе, к команде? И в частности в проектном управлении? Вопрос этот возник давно, и этой статьей я решил открыть серию заметок на тему исследований в менеджменте.

Читать далее

Личное планирование. Именно «личное»

Level of difficultyMedium
Reading time12 min
Reach and readers25K

Я нашел свою систему «Личного планирования», о чем я поделился в этой статье и передаю этот опыт студентам курсов по менеджменту в Практикуме.

В этой статье расскажу:

— Зачем начинать планирование в начале дня,
— Почему нужно ограничивать количество задач и блокировать время для их выполнения,
— Какие приложения помогают отслеживать продуктивность,
— Зачем подводить итоги дня и анализировать свою эффективность.

Какие практики можно использовать?

Information

Rating
Does not participate
Date of birth
Registered
Activity

Specialization

Менеджер проекта, Директор проекта
Ведущий
Управление проектами
Управление людьми
Стратегическое управление
Управление разработкой