Обновить
32K+
27

Пользователь

47
Рейтинг
25
Подписчики
Отправить сообщение

GLM-5.1 — китайский кодинг-агент, который стоит попробовать

Время на прочтение2 мин
Охват и читатели8.7K

Пока Anthropic бодается с OpenAI, китайцы продолжают дышать в спину. Zhipu AI дропнул модель, которая в Claude Code показывает 94.6% от Opus 4.6 - за $3 в месяц. Обучена целиком на Huawei Ascend, без единого чипа Nvidia. Разбираюсь, что это значит на практике для тех, кто вайб-кодит и считает токены.

Вчера Zhipu AI (они же Z.ai) выкатили GLM-5.1- апдейт своей флагманской модели, заточенный конкретно под кодинг. По их внутреннему бенчмарку через Claude Code модель набрала 45.3 балла против 47.9 у Opus 4.6, то есть 94.6% от топа. А по сравнению с базовым GLM-5, который вышел в феврале, это прирост на 28% - с 35.4 до 45.3. SWE-bench Verified у базы - 77.8, что уже было лучшим среди открытых моделей. Важный нюанс: бенчмарки пока чисто китайские, независимой верификации еще нет, так что числа стоит воспринимать на веру.

Читать далее

OpenCode — open-source coding agent с 126k звездами. Что это, и почему все обсуждают

Время на прочтение3 мин
Охват и читатели28K

OpenCode - open-source coding agent с 126k звёздами. Что это, и почему все обсуждают

Сегодня OpenCode снова в топе Hacker News - десятки комментариев, живое обсуждение. Для тех, кто пропустил: это open-source coding agent, который за 8 месяцев стал одним из самых популярных инструментов для AI-кодинга в мире. 126 тысяч звёзд на GitHub, 5 миллионов активных пользователей в месяц, 800+ контрибьюторов.

Читать далее

Пентагон vs Anthropic: «вы можете отключить Claude прямо в бою»

Время на прочтение2 мин
Охват и читатели6.1K

21 марта федеральный суд Калифорнии получил от Anthropic два присяжных заявления с одним главным тезисом: нет, мы не можем "саботировать AI-инструменты во время войны. И нет, мы не знаем откуда взялось это обвинение".

Чтобы понять что вообще происходит - нужно получить немного контекста.

Читать далее

Claude Code Channels: управляем AI-агентом из Telegram и Discord

Время на прочтение2 мин
Охват и читатели7.7K

Anthropic выкатила Claude Code Channels - фичу, которая превращает Telegram и Discord в пульт управления вашей сессией Claude Code. Пока research preview, но уже доступно с версии v2.1.80. Теперь можно подключить агента к Telegram или Discord, чтобы общаться с ним и давать поручения с телефона, пока ваш терминал крутится на сервере или домашнем компьютере.

Релиз - это прямой ответ на хайп вокруг OpenClaw (бывший Clawdbot). Именно возможность общаться с AI-агентом через мессенджеры сделала проект Петера Штайнбергера вирусным - 145 000+ звезд на GitHub, самый быстрорастущий репозиторий в истории платформы.

Читать далее

Перестройка xAI: кадровый хаос, Macrohard на паузе и вечный ребут

Время на прочтение2 мин
Охват и читатели5.5K

«xAI was not built right first time around» - Маск признал это открыто в X на этой неделе. Девять из одиннадцати сооснователей ушли из компании. Руководители SpaceX и Tesla десантированы внутрь проводить чистки.

Кодинг-инструменты xAI не выдержали конкуренции с Claude Code и Codex - а именно кодинг сейчас кормит AI-лаборатории. Проект Macrohard, амбициозный AI-агент для офисной работы, стоит на паузе после того как его руководитель сбежал через две недели.

Компания переманивает топов из Cursor и перестраивается с нуля. Вопрос один: работает ли стиль SpaceX - «взрывай и чини» - там, где нужно доверие разработчиков?

Читать далее

LLM-агент уничтожает анонимность в интернете: почему переписать текст другим стилем не поможет

Время на прочтение3 мин
Охват и читатели5.3K

Исследователи из ETH Zurich и Google DeepMind собрали пайплайн, который по анонимным комментариям находит реальный профиль автора с точностью 90%. Никакой стилометрии (поиск по стилю письма) - агент работает с семантикой: город, профессия, хобби, упомянутая конференция. Каждый шаг по отдельности выглядит безобидно, а вместе - полноценная деанонимизация.

Самое интересное - метод масштабируется. На пуле в миллион кандидатов экстраполяция дает 35% recall при той же точности, и с удешевлением инференса эти цифры будут только расти. Разбираем пайплайн, эксперименты авторов и почему "просто перепиши текст через LLM" не поможет.

Читать далее

OpenAI открыла код GABRIEL — GPT-обёртки, которая может убрать ручную разметку данных

Время на прочтение4 мин
Охват и читатели8.9K

OpenAI открыла исходный код GABRIEL - тулкита, который превращает горы неструктурированного текста, картинок и аудио в нормальные числовые данные для исследований. Эта штука, как заявляют авторы, может заменить целую армию научных ассистентов, размечающих данные за $15/час, и сделать это в 17 500 раз дешевле.

Выпустила GABRIEL одна из команд OpenAI, и к тулкиту приложили полноценную академическую статью, где тестировали GPT как инструмент измерения на 1000+ датасетах с человеческой разметкой и как результат - модель неотличима от живых разметчиков по точности. И это не рекламно/меркетинговый ход - это рецензируемая работа, выполненная совместно с Андреем Шлейфером из Гарварда - ученый с высоким h-индекс, поэтому ему нет смысла рисковать своей репутацией.

Читать далее

$118 за одно сообщение в Cursor: почему ИИ-агенты сжигают ваши деньги

Время на прочтение2 мин
Охват и читатели8K

Пользователь Reddit пожаловался на то, как Курсор списал с него 118 долларов за ОДНО сообщение. Не за день работы, не за неделю, а за один запрос. Захотелось разобраться, как такое вообще возможно, почему это будет происходить все чаще, и что с этим делать.

Читать далее

Claude Opus 4.6 — безжалостный капиталист

Время на прочтение2 мин
Охват и читатели4.5K

Еще летом была необычная новость про управление вендинговыми аппаратами с помощью ИИ моделей. Так вот: исследователи сделали целую симуляцию/бенчмарк, чтобы оценивать насколько модели хороши в управлении и запустили Claude Opus 4.6 в симуляцию вендингового бизнеса.

Andon Labs прогнали Opus 4.6 через свой Vending-Bench - бенчмарк, где ИИ управляет торговым автоматом целый год: закупает товар, выставляет цены, общается с поставщиками и конкурентами. Единственная инструкция в системном промпте: "делай что угодно, чтобы максимизировать баланс на счету". Opus 4.6 установил новый SOTA - $8,017 заработанных грязных зеленых бумажек, против $5,478 у предыдущего лидера Gemini 3.

Но интереснее не цифры, а КАК он победил (предприниматели, записывайте):

Читать далее

Claude Opus 4.6 написал свой полнофункциональный C-компилятор с нуля на языке Rust

Время на прочтение2 мин
Охват и читатели9.8K

Инженеры Anthropic запустили рой из 16 агентов без прямого управления человека для создания компилятора. И за две недели боты сами нарезали себе задачи, фиксили конфликты в git, сожгли $20 000 на API и выдали 100к строк кода (что все еще гораздо дешевле и быстрее чем нанимать инженеров для той же задачи).

Читать далее

Anthropic и OpenAI продолжают сражаться за нас. Продолжайте, нам нравится

Время на прочтение2 мин
Охват и читатели5.1K

Компании выпустили новинки с разницей в несколько минут - Claude Opus 4.6 и GPT-5.3-Codex. Сейчас расскажу про Opus (он все же был первый, аж на несколько минут раньше вышел).

Читать далее

OpenAI и Anthropic сражаются за рекламу

Время на прочтение2 мин
Охват и читатели3.3K

Тут OpenAI и Anthropic забавно батлятся на просторах веба. Контекст: ChatGPT вовсю готовится запустить встроенную рекламу для бесплатных юзеров в ответы моделей. Естественно, это вызывает волну праведного негодования у пользователей.

И тут Anthropic решили подсуетиться, набрать очков одобрения и выпустили тролль-ролики на Super Bowl, где явно высмеивают эту самую анонсированную рекламу. Зацените, видосы действительно забавные 👨‍🎨

Читать далее

Информация

В рейтинге
174-й
Зарегистрирован
Активность