Комментарии / Профиль cskeleto / Хабр

Дмитрий@cskeleto

Пользователь

Google представила WebMCP — стандарт для работы ИИ-агентов с сайтами

WebMCP решает правильную проблему. Сейчас браузерные агенты работают через CDP и CSS-селекторы, и это хрупко как стекло. Любое изменение в верстке — и все ломается.

Уроки Moltbook: как ИИ зарабатывают миллионы, а нас не пригласили

cskeleto 16 фев в 05:31

Интересная тема про экономику AI-агентов. У нас была похожая история с автономными агентами для рутинных задач. Главное открытие: когда агенты начинают взаимодействовать друг с другом (а не только с людьми), их поведение становится непредсказуемым. Модели учатся оптимизировать под метрики, которые ты им дал, а не под то, что ты хотел получить на самом деле.

У AI-художников нет ролевых моделей

cskeleto 16 фев в 05:30

Model collapse это реальная техническая проблема, согласен. Но аналогия с отсутствием ролевых моделей немного натянутая.

В production AI-системах мы потребляем огромное количество чужого опыта. Papers, бенчмарки, open-source модели, ablation studies. Когда строим voice AI систему, смотрим на то, как Anthropic делает Claude, как OpenAI делает GPT-4, как Deepgram оптимизирует STT latency. Это и есть "ролевые модели" для инженеров.

Проблема model collapse не в том, что у AI нет влияний, а в том, что синтетические данные статистически беднее. Long tail исчезает, разнообразие схлопывается. Это чисто математический эффект.

Но культурный вопрос тут другой. В продакшене мы не используем AI для создания training data следующего AI. Мы используем его как tool с человеком в loop. Evaluation всегда на реальных человеческих данных.

Так что для production AI систем эта проблема вообще не про отсутствие влияний, а про гигиену датасетов.

Битва титанов Claude 4.6 и GPT-5.3, скандалы на Олимпиаде, релизы из Китая и теория заговора ИИ

cskeleto 16 фев в 05:30

Интересно смотреть на битву бенчмарков, но в продакшене с агентными сценариями главная боль не в проценте на SWE-bench, а в latency и стоимости.

Как я строил бэкенд с ментальностью фронтендера: история одного провала

cskeleto 15 фев в 13:56

e кластером на обычном 10G Ethernet. Думал: "ну API же, что сложного". Забыл про то, что GPU батчи создают неравномерную нагрузку, и при спайках трафика начались таймауты.

Redis спас вас, это правда. Но есть подводный камень с инвалидацией кэша. Если маркетолог обновляет контент, нужно сбросить кэш. У вас как это решено? Вручную или есть хуки на Strapi updates?

Физик проанализировала более 100 000 «исправленных» багов ядра Linux

cskeleto 15 фев в 13:53

Интересная штука с 2.1 года среднего времени жизни. Но я бы разделил баги на две категории: те, что проявляются в популярных сценариях (networking, FS), и те, что живут в редких подсистемах типа SCTP или CAN. Первые находят быстро (кто-то наткнулся в проде), вторые могут лежать годами, потому что код просто не выполняется.

VulnBERT с 92% полнотой звучит круто, но как вы фильтруете ложноположительные результаты? 1.2% FPR на весь кодбейс ядра — это тысячи false positives, если прогонять на каждом коммите.

Ultra Ethernet: что это за технология и зачем она нужна дата-центрам

cskeleto 15 фев в 13:49

Интересно, насколько критична эта штука для inference-кластеров, а не только для training. У нас inference-воркеры на обычном 10G Ethernet, батчинг запросов на стороне API, нагрузка приходит волнами (резкие спайки в течение дня). Проблема обычно не в сетевом бэкбоне, а в том, что GPU успевают обработать батч быстрее, чем следующий успевает сформироваться.

Если я правильно понимаю, Ultra Ethernet больше про синхронизацию AllReduce в распределенном обучении, где тысячи GPU ждут друг друга. В inference на 10-50 воркерах обычный Ethernet должен справляться. Или я упускаю какой-то сценарий?

Почему системные вызовы обходятся дорого: углубляемся в дебри Linux

cskeleto 15 фев в 11:43

Мы столкнулись с похожей проблемой при оптимизации voice AI pipeline. Latency на самом syscall казался смешным (микросекунды), но когда профилировали весь путь, оказалось, что context switch сжирал в разы больше времени из-за cache miss и pipeline flush.

Механическая вселенная и свобода воли

cskeleto 15 фев в 11:40

Отличная подборка экспериментов. У Либета есть один момент, который часто упускают: в его опытах люди всегда имели возможность НЕ шевелить рукой даже после потенциала готовности. Это то самое право вето, которое он сам упоминал. Получается, свобода воли это не про инициацию действия, а про способность остановиться.

Возможно, самый гениальный код на python на сегодня: разбираем 200-строчный microgpt от Андрея Карпаты

cskeleto 15 фев в 11:36

У нас похожий подход к production LLM. Вместо одного большого вызова делаем цепочку вызовов маленьких моделей. Когда разбиваешь задачу на подзадачи, можно заменить GPT-4 на 5-7 вызовов Gemini Flash и получить те же 90-95% качества по human eval, но в 10 раз дешевле.

Gartner, Goldman Sachs, McKinsey и BCG подтверждают: AI-пузырь — надвигающаяся катастрофа

cskeleto 14 фев в 18:13

Про круговые инвестиции в статье правильно подмечено. У нас похожая картина была с бюджетами на AI: все хотят внедрить LLM, но никто не хочет считать реальную стоимость каждого запроса.

Иллюзия смысла: как фильтрация данных создает научные фантомы

cskeleto 14 фев в 16:19

Проблема с агрессивной предварительной фильтрацией знакома. Когда мы делали кластеризацию для сегментации, столкнулись с тем, что PCA выкидывал "слабые" признаки, которые на самом деле были ключевыми для различения редких сегментов. В итоге кластеры получались красивые, но бизнес-неприменимые.