WebMCP решает правильную проблему. Сейчас браузерные агенты работают через CDP и CSS-селекторы, и это хрупко как стекло. Любое изменение в верстке — и все ломается.
Интересная тема про экономику AI-агентов. У нас была похожая история с автономными агентами для рутинных задач. Главное открытие: когда агенты начинают взаимодействовать друг с другом (а не только с людьми), их поведение становится непредсказуемым. Модели учатся оптимизировать под метрики, которые ты им дал, а не под то, что ты хотел получить на самом деле.
Model collapse это реальная техническая проблема, согласен. Но аналогия с отсутствием ролевых моделей немного натянутая.
В production AI-системах мы потребляем огромное количество чужого опыта. Papers, бенчмарки, open-source модели, ablation studies. Когда строим voice AI систему, смотрим на то, как Anthropic делает Claude, как OpenAI делает GPT-4, как Deepgram оптимизирует STT latency. Это и есть "ролевые модели" для инженеров.
Проблема model collapse не в том, что у AI нет влияний, а в том, что синтетические данные статистически беднее. Long tail исчезает, разнообразие схлопывается. Это чисто математический эффект.
Но культурный вопрос тут другой. В продакшене мы не используем AI для создания training data следующего AI. Мы используем его как tool с человеком в loop. Evaluation всегда на реальных человеческих данных.
Так что для production AI систем эта проблема вообще не про отсутствие влияний, а про гигиену датасетов.
e кластером на обычном 10G Ethernet. Думал: "ну API же, что сложного". Забыл про то, что GPU батчи создают неравномерную нагрузку, и при спайках трафика начались таймауты.
Redis спас вас, это правда. Но есть подводный камень с инвалидацией кэша. Если маркетолог обновляет контент, нужно сбросить кэш. У вас как это решено? Вручную или есть хуки на Strapi updates?
Интересная штука с 2.1 года среднего времени жизни. Но я бы разделил баги на две категории: те, что проявляются в популярных сценариях (networking, FS), и те, что живут в редких подсистемах типа SCTP или CAN. Первые находят быстро (кто-то наткнулся в проде), вторые могут лежать годами, потому что код просто не выполняется.
VulnBERT с 92% полнотой звучит круто, но как вы фильтруете ложноположительные результаты? 1.2% FPR на весь кодбейс ядра — это тысячи false positives, если прогонять на каждом коммите.
Интересно, насколько критична эта штука для inference-кластеров, а не только для training. У нас inference-воркеры на обычном 10G Ethernet, батчинг запросов на стороне API, нагрузка приходит волнами (резкие спайки в течение дня). Проблема обычно не в сетевом бэкбоне, а в том, что GPU успевают обработать батч быстрее, чем следующий успевает сформироваться.
Если я правильно понимаю, Ultra Ethernet больше про синхронизацию AllReduce в распределенном обучении, где тысячи GPU ждут друг друга. В inference на 10-50 воркерах обычный Ethernet должен справляться. Или я упускаю какой-то сценарий?
Мы столкнулись с похожей проблемой при оптимизации voice AI pipeline. Latency на самом syscall казался смешным (микросекунды), но когда профилировали весь путь, оказалось, что context switch сжирал в разы больше времени из-за cache miss и pipeline flush.
Отличная подборка экспериментов. У Либета есть один момент, который часто упускают: в его опытах люди всегда имели возможность НЕ шевелить рукой даже после потенциала готовности. Это то самое право вето, которое он сам упоминал. Получается, свобода воли это не про инициацию действия, а про способность остановиться.
У нас похожий подход к production LLM. Вместо одного большого вызова делаем цепочку вызовов маленьких моделей. Когда разбиваешь задачу на подзадачи, можно заменить GPT-4 на 5-7 вызовов Gemini Flash и получить те же 90-95% качества по human eval, но в 10 раз дешевле.
Про круговые инвестиции в статье правильно подмечено. У нас похожая картина была с бюджетами на AI: все хотят внедрить LLM, но никто не хочет считать реальную стоимость каждого запроса.
Проблема с агрессивной предварительной фильтрацией знакома. Когда мы делали кластеризацию для сегментации, столкнулись с тем, что PCA выкидывал "слабые" признаки, которые на самом деле были ключевыми для различения редких сегментов. В итоге кластеры получались красивые, но бизнес-неприменимые.
Да это же буквально alignment tax из production. Когда мы добавляли к Gemini Flash слой модерации плюс промпты для фильтрации, модель начинала тупо отказываться от нормальных запросов. Не вирус, конечно, но принцип тот же.
WebMCP решает правильную проблему. Сейчас браузерные агенты работают через CDP и CSS-селекторы, и это хрупко как стекло. Любое изменение в верстке — и все ломается.
Интересная тема про экономику AI-агентов. У нас была похожая история с автономными агентами для рутинных задач. Главное открытие: когда агенты начинают взаимодействовать друг с другом (а не только с людьми), их поведение становится непредсказуемым. Модели учатся оптимизировать под метрики, которые ты им дал, а не под то, что ты хотел получить на самом деле.
Model collapse это реальная техническая проблема, согласен. Но аналогия с отсутствием ролевых моделей немного натянутая.
В production AI-системах мы потребляем огромное количество чужого опыта. Papers, бенчмарки, open-source модели, ablation studies. Когда строим voice AI систему, смотрим на то, как Anthropic делает Claude, как OpenAI делает GPT-4, как Deepgram оптимизирует STT latency. Это и есть "ролевые модели" для инженеров.
Проблема model collapse не в том, что у AI нет влияний, а в том, что синтетические данные статистически беднее. Long tail исчезает, разнообразие схлопывается. Это чисто математический эффект.
Но культурный вопрос тут другой. В продакшене мы не используем AI для создания training data следующего AI. Мы используем его как tool с человеком в loop. Evaluation всегда на реальных человеческих данных.
Так что для production AI систем эта проблема вообще не про отсутствие влияний, а про гигиену датасетов.
Интересно смотреть на битву бенчмарков, но в продакшене с агентными сценариями главная боль не в проценте на SWE-bench, а в latency и стоимости.
e кластером на обычном 10G Ethernet. Думал: "ну API же, что сложного". Забыл про то, что GPU батчи создают неравномерную нагрузку, и при спайках трафика начались таймауты.
Redis спас вас, это правда. Но есть подводный камень с инвалидацией кэша. Если маркетолог обновляет контент, нужно сбросить кэш. У вас как это решено? Вручную или есть хуки на Strapi updates?
Интересная штука с 2.1 года среднего времени жизни. Но я бы разделил баги на две категории: те, что проявляются в популярных сценариях (networking, FS), и те, что живут в редких подсистемах типа SCTP или CAN. Первые находят быстро (кто-то наткнулся в проде), вторые могут лежать годами, потому что код просто не выполняется.
VulnBERT с 92% полнотой звучит круто, но как вы фильтруете ложноположительные результаты? 1.2% FPR на весь кодбейс ядра — это тысячи false positives, если прогонять на каждом коммите.
Интересно, насколько критична эта штука для inference-кластеров, а не только для training. У нас inference-воркеры на обычном 10G Ethernet, батчинг запросов на стороне API, нагрузка приходит волнами (резкие спайки в течение дня). Проблема обычно не в сетевом бэкбоне, а в том, что GPU успевают обработать батч быстрее, чем следующий успевает сформироваться.
Если я правильно понимаю, Ultra Ethernet больше про синхронизацию AllReduce в распределенном обучении, где тысячи GPU ждут друг друга. В inference на 10-50 воркерах обычный Ethernet должен справляться. Или я упускаю какой-то сценарий?
Мы столкнулись с похожей проблемой при оптимизации voice AI pipeline. Latency на самом syscall казался смешным (микросекунды), но когда профилировали весь путь, оказалось, что context switch сжирал в разы больше времени из-за cache miss и pipeline flush.
Отличная подборка экспериментов. У Либета есть один момент, который часто упускают: в его опытах люди всегда имели возможность НЕ шевелить рукой даже после потенциала готовности. Это то самое право вето, которое он сам упоминал. Получается, свобода воли это не про инициацию действия, а про способность остановиться.
У нас похожий подход к production LLM. Вместо одного большого вызова делаем цепочку вызовов маленьких моделей. Когда разбиваешь задачу на подзадачи, можно заменить GPT-4 на 5-7 вызовов Gemini Flash и получить те же 90-95% качества по human eval, но в 10 раз дешевле.
Про круговые инвестиции в статье правильно подмечено. У нас похожая картина была с бюджетами на AI: все хотят внедрить LLM, но никто не хочет считать реальную стоимость каждого запроса.
Проблема с агрессивной предварительной фильтрацией знакома. Когда мы делали кластеризацию для сегментации, столкнулись с тем, что PCA выкидывал "слабые" признаки, которые на самом деле были ключевыми для различения редких сегментов. В итоге кластеры получались красивые, но бизнес-неприменимые.
Да это же буквально alignment tax из production. Когда мы добавляли к Gemini Flash слой модерации плюс промпты для фильтрации, модель начинала тупо отказываться от нормальных запросов. Не вирус, конечно, но принцип тот же.