Комментарии / Профиль german

German Kosach, Ph.D@german_kosach

Backend Developer

Подписчики

Хабр Карьера

ПрофильСтатьи1ПостыНовостиКомментарии16

Повышаем стабильность Telegram: поднимаем партизанский MTProxy с Fake TLS

german_kosach 17 мар в 08:20

А соседний постик уже прикрыли

Современные LLM – это больше, чем просто предсказание слов

german_kosach 13 мар в 10:34

У меня пока больше опыт точечных экспериментов, чем реальных продакшн-кейсов. Например, с DeepSeek я работал в основном на тестах с кодом и техзадачами но в мелких проектах совсем. Впечатление у меня сложилось такое: за те деньги, что стоит модель, качество вполне достойное, но без серьезной нагрузки на продакшене делать какие-то глобальные выводы сложно.

С GLM-5 ситуация похожая, хотя сама модель уже не совсем типичный представитель линейки наподобие LLaMA. Это более сложная архитектура с MoE - с разреженными экспертами, над которой работает команда Zhipu. Они позиционируют её как топ для сложных системных задач и агентов, которые работают долго и с большим контекстом. По официальным данным, у GLM-5 около 744 миллиардов параметров, из которых активны примерно 40 миллиардов, а контекстное окно достигает 200 тысяч токенов. В тестах, таких как SWE-bench Verified, она набирает почти 78%, а в Terminal-Bench 2.0 - чуть больше 56%. Эти показатели подтверждаются и на Hugging Face, и в официальной документации. Artificial Analysis тоже отмечает модель как одну из мощнейших с открытыми весами для решения задач с агентами и логическим рассуждением, однако стоит иметь в виду, что для работы с ней нужны серьёзные аппаратные ресурсы.

Но у меня пока нет достаточно опыта с реальными проектами на китайских моделях, чтобы с уверенностью рекомендовать GLM-5 или DeepSeek как стабильный выбор для корпоративного использования. Лично я рассматриваю их как интересных претендентов и площадку для экспериментов, а в продакшене пока предпочитаю опираться на более проверенные технологии.

Есть момент по безопасности, нет октрытых данных в отличие от OpenAI, Anthropic, Google таких же сравнений у китайцев, напрягает чуть чуть, те я бы не сказал что по безопасности они лучше или хуже, хотя заявляют про guartrails (но это так, минимально допустимые а не сложные какие-то системы с открытым аудитом системы), просто имеем ввиду

Китай подсаживает население на OpenClaw: субсидии, бесплатное проживание и очереди по 1000 человек

german_kosach 10 мар в 16:27

продвинутых прощелыг

В Китае люди стоят в очереди у штаб-квартиры Tencent для установки OpenClaw на свои ПК

german_kosach 10 мар в 13:58

Стоял в очереди а потом токены закончились 👾

$100 млн на одиночестве: корейский ИИ-стартап Wrtn заменяет людям книги и Netflix

german_kosach 10 мар в 08:16

Тот же опыт: как только сюжет разрастается, модель начинает забывать старые ветки и “терять” персонажей.

Пока это ближе к очень навороченному текстовому квесту или имерссивному театру на минималках, чем к настоящему интерактивному роману - но уже понятно, где именно надо докручивать память и лор

Представлен прототип открытого сервера для мессенджеров Max и «ТамТам»

german_kosach 10 мар в 08:03

Идея Max Lite без госуслуг и слежки - это как “добрый Роскомнадзор”: концептуально противоречит ТЗ

Учёные запустили компьютерную эмуляцию мозга плодовой мушки

german_kosach 10 мар в 08:02

Мечтают ли эмулированные мухи об электрических овцах Филипа Дика или им пока хватает побитового варенья в MuJoCo? Можно приглашать Нетфликс

Современные LLM – это больше, чем просто предсказание слов

german_kosach 10 мар в 07:19

Ну, если честно, в основе всего всё ещё лежит старый добрый autoregressive next-token. Эти модели рассуждений не добавляют ничего прям нового. Они просто меняют способ, которым мы предсказываем токены с течением времени. Модель в момент инференса разворачивает и отбирает несколько веток рассуждений, тратя больше compute ради лучшего ответа.

Грубо говоря, есть две части:

Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.

В обычной LLM мы просто берём контекст и прогоняем его через трансформер один раз. На каждом шаге выбираем один токен - и готово. А вот в режиме рассуждений моделька:

Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).

По сути, она всё ещё подбирает токены, но:

Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.

Так что, рассуждения - это не какой-то там отдельный способ работы модели. Это просто другой режим, где она делает больше шагов, и у неё есть специальная штука, которая решает, что считать правильной мыслью, а что – нет. Ну и теория вероятности

Эксперимент «5 обезьян» никогда не проводился, а референс показал противоположные результаты

german_kosach 9 мар в 16:58

ссылками на эксперименты

Даже если опираться на “научные статьи”, там тоже всё не так просто. В медицине я видел тонны работ в Q3-Q4 журналах Scopus/PubMed, которые по факту больше напоминают маркетинговые материалы, чем нормальное исследование.

Квартиль и индекс журнала сам по себе ещё ничего не гарантирует.
Чтобы воспринимать ссылку всерьёз, минимум приходится смотреть на дизайн исследования (рандомизация/контроль) стат обработка хотя бы минимальная, размер выборки парам не парам стат и риск публикационного смещения.

В IT сейчас та же история, только вместо клинических журналов у нас конференции и статьи по ML: красивая картинка на тестовом датасете, крупные роли титулы корпоратов, а при попытке повторить результат в бою всё разваливается. Вспомним почему сломалась "золотая пирамида тестирования" которую всем втюхивали

Современные LLM – это больше, чем просто предсказание слов

german_kosach 9 мар в 16:12

Спасибо за ссылки. Статью писал изначально в обсидиане для себя в виде таблицы сравнений, потом понял что переросло в злободневную тему: архитектуры LLM в проде, reasoning, cost.Вопросы “вторых ядер” и этики - согласен, тянут на отдельный материал

Современные LLM – это больше, чем просто предсказание слов

german_kosach 9 мар в 16:10

Идея и структура статьи - из моего продового опыта внедрения LLM в продукты.Модели использую как инструмент: проверить формулировки и подсветить дырки, а не вместо головы.Если видите конкретные дополнения, улучшения по архитектурам/моделям - напишите, это как раз полезнее, чем обсуждать, кто за клавиатурой.

-1

Роботы, которые отказываются умирать: как ИИ запустил эволюцию самовосстанавливающихся машин

german_kosach 9 мар в 10:16

Все прикольно круто смотрится до момента, пока первый ~~шарящий~~ реальный заказчик не спросит: а кто будет сертификаты, остветсвенность SLA, ибез подписывать ИИ или эти катающиеся палки?

Эксперимент «5 обезьян» никогда не проводился, а референс показал противоположные результаты

german_kosach 9 мар в 08:02

Современные LLM – это больше, чем просто предсказание слов

german_kosach 9 мар в 07:26

Сейчас очень много кадндиаток пишутся по этике, так что очень злободневно. По практике если много правильных инструкций, контекста, mcp расширения и наоборот ограничений, то для анализа кода клод, для субагентов sonnet, ну если +- серьезные проекты, а если какие то отдельные куски без сильно архитектурного контекста то соглашусь, я бы опенсорс/local тоже использовал

Эксперимент «5 обезьян» никогда не проводился, а референс показал противоположные результаты

german_kosach 9 мар в 06:42

Я и не утверждал научный факт, я говорю про практику в тренингах: там рассказывают байку про эксперимент как "доказанный факт" без источников.

Эксперимент «5 обезьян» никогда не проводился, а референс показал противоположные результаты

german_kosach 9 мар в 05:18

Всегда бесило что на тренингах это показывают как "доказанный факт"

Информация

Специализация