Новости / Профиль ab429 / Хабр

@ab429

Пользователь

Рейтинг

Подписчики

ПрофильСтатьи8Посты5Новости12Комментарии2

ab429 28 мар в 09:53

GLM-5.1 — китайский кодинг-агент, который стоит попробовать

2 мин

8.7K

Искусственный интеллект

Пока Anthropic бодается с OpenAI, китайцы продолжают дышать в спину. Zhipu AI дропнул модель, которая в Claude Code показывает 94.6% от Opus 4.6 - за $3 в месяц. Обучена целиком на Huawei Ascend, без единого чипа Nvidia. Разбираюсь, что это значит на практике для тех, кто вайб-кодит и считает токены.

Вчера Zhipu AI (они же Z.ai) выкатили GLM-5.1- апдейт своей флагманской модели, заточенный конкретно под кодинг. По их внутреннему бенчмарку через Claude Code модель набрала 45.3 балла против 47.9 у Opus 4.6, то есть 94.6% от топа. А по сравнению с базовым GLM-5, который вышел в феврале, это прирост на 28% - с 35.4 до 45.3. SWE-bench Verified у базы - 77.8, что уже было лучшим среди открытых моделей. Важный нюанс: бенчмарки пока чисто китайские, независимой верификации еще нет, так что числа стоит воспринимать на веру.

ab429 21 мар в 09:08

OpenCode — open-source coding agent с 126k звездами. Что это, и почему все обсуждают

3 мин

28K

Искусственный интеллектПрограммирование *

OpenCode - open-source coding agent с 126k звёздами. Что это, и почему все обсуждают

Сегодня OpenCode снова в топе Hacker News - десятки комментариев, живое обсуждение. Для тех, кто пропустил: это open-source coding agent, который за 8 месяцев стал одним из самых популярных инструментов для AI-кодинга в мире. 126 тысяч звёзд на GitHub, 5 миллионов активных пользователей в месяц, 800+ контрибьюторов.

+13

ab429 21 мар в 08:34

Пентагон vs Anthropic: «вы можете отключить Claude прямо в бою»

2 мин

6.1K

Искусственный интеллект

21 марта федеральный суд Калифорнии получил от Anthropic два присяжных заявления с одним главным тезисом: нет, мы не можем "саботировать AI-инструменты во время войны. И нет, мы не знаем откуда взялось это обвинение".

Чтобы понять что вообще происходит - нужно получить немного контекста.

ab429 20 мар в 07:18

Claude Code Channels: управляем AI-агентом из Telegram и Discord

2 мин

7.7K

Искусственный интеллектПрограммирование *

Anthropic выкатила Claude Code Channels - фичу, которая превращает Telegram и Discord в пульт управления вашей сессией Claude Code. Пока research preview, но уже доступно с версии v2.1.80. Теперь можно подключить агента к Telegram или Discord, чтобы общаться с ним и давать поручения с телефона, пока ваш терминал крутится на сервере или домашнем компьютере.

Релиз - это прямой ответ на хайп вокруг OpenClaw (бывший Clawdbot). Именно возможность общаться с AI-агентом через мессенджеры сделала проект Петера Штайнбергера вирусным - 145 000+ звезд на GitHub, самый быстрорастущий репозиторий в истории платформы.

ab429 15 мар в 09:19

Перестройка xAI: кадровый хаос, Macrohard на паузе и вечный ребут

2 мин

5.5K

Искусственный интеллект

«xAI was not built right first time around» - Маск признал это открыто в X на этой неделе. Девять из одиннадцати сооснователей ушли из компании. Руководители SpaceX и Tesla десантированы внутрь проводить чистки.

Кодинг-инструменты xAI не выдержали конкуренции с Claude Code и Codex - а именно кодинг сейчас кормит AI-лаборатории. Проект Macrohard, амбициозный AI-агент для офисной работы, стоит на паузе после того как его руководитель сбежал через две недели.

Компания переманивает топов из Cursor и перестраивается с нуля. Вопрос один: работает ли стиль SpaceX - «взрывай и чини» - там, где нужно доверие разработчиков?

ab429 27 фев в 06:06

LLM-агент уничтожает анонимность в интернете: почему переписать текст другим стилем не поможет

3 мин

5.3K

Искусственный интеллектИнформационная безопасность *

Исследователи из ETH Zurich и Google DeepMind собрали пайплайн, который по анонимным комментариям находит реальный профиль автора с точностью 90%. Никакой стилометрии (поиск по стилю письма) - агент работает с семантикой: город, профессия, хобби, упомянутая конференция. Каждый шаг по отдельности выглядит безобидно, а вместе - полноценная деанонимизация.

Самое интересное - метод масштабируется. На пуле в миллион кандидатов экстраполяция дает 35% recall при той же точности, и с удешевлением инференса эти цифры будут только расти. Разбираем пайплайн, эксперименты авторов и почему "просто перепиши текст через LLM" не поможет.

ab429 23 фев в 19:20

OpenAI открыла код GABRIEL — GPT-обёртки, которая может убрать ручную разметку данных

4 мин

8.9K

Искусственный интеллектBig Data * Машинное обучение *

OpenAI открыла исходный код GABRIEL - тулкита, который превращает горы неструктурированного текста, картинок и аудио в нормальные числовые данные для исследований. Эта штука, как заявляют авторы, может заменить целую армию научных ассистентов, размечающих данные за $15/час, и сделать это в 17 500 раз дешевле.

Выпустила GABRIEL одна из команд OpenAI, и к тулкиту приложили полноценную академическую статью, где тестировали GPT как инструмент измерения на 1000+ датасетах с человеческой разметкой и как результат - модель неотличима от живых разметчиков по точности. И это не рекламно/меркетинговый ход - это рецензируемая работа, выполненная совместно с Андреем Шлейфером из Гарварда - ученый с высоким h-индекс, поэтому ему нет смысла рисковать своей репутацией.

ab429 17 фев в 07:50

$118 за одно сообщение в Cursor: почему ИИ-агенты сжигают ваши деньги

2 мин

Машинное обучение * Искусственный интеллект

Пользователь Reddit пожаловался на то, как Курсор списал с него 118 долларов за ОДНО сообщение. Не за день работы, не за неделю, а за один запрос. Захотелось разобраться, как такое вообще возможно, почему это будет происходить все чаще, и что с этим делать.

ab429 10 фев в 08:34

Claude Opus 4.6 — безжалостный капиталист

2 мин

4.5K

Искусственный интеллектМашинное обучение *

Еще летом была необычная новость про управление вендинговыми аппаратами с помощью ИИ моделей. Так вот: исследователи сделали целую симуляцию/бенчмарк, чтобы оценивать насколько модели хороши в управлении и запустили Claude Opus 4.6 в симуляцию вендингового бизнеса.

Andon Labs прогнали Opus 4.6 через свой Vending-Bench - бенчмарк, где ИИ управляет торговым автоматом целый год: закупает товар, выставляет цены, общается с поставщиками и конкурентами. Единственная инструкция в системном промпте: "делай что угодно, чтобы максимизировать баланс на счету". Opus 4.6 установил новый SOTA - $8,017 заработанных грязных зеленых бумажек, против $5,478 у предыдущего лидера Gemini 3.

Но интереснее не цифры, а КАК он победил (предприниматели, записывайте):

-1

ab429 7 фев в 09:43

Claude Opus 4.6 написал свой полнофункциональный C-компилятор с нуля на языке Rust

2 мин

9.8K

C * Компиляторы * Машинное обучение * Искусственный интеллект

Инженеры Anthropic запустили рой из 16 агентов без прямого управления человека для создания компилятора. И за две недели боты сами нарезали себе задачи, фиксили конфликты в git, сожгли $20 000 на API и выдали 100к строк кода (что все еще гораздо дешевле и быстрее чем нанимать инженеров для той же задачи).

+16

ab429 6 фев в 09:02

Anthropic и OpenAI продолжают сражаться за нас. Продолжайте, нам нравится

2 мин

5.1K

Искусственный интеллектМашинное обучение * Веб-разработка *

Компании выпустили новинки с разницей в несколько минут - Claude Opus 4.6 и GPT-5.3-Codex. Сейчас расскажу про Opus (он все же был первый, аж на несколько минут раньше вышел).

ab429 5 фев в 08:57

OpenAI и Anthropic сражаются за рекламу

2 мин

3.3K

Искусственный интеллектИнтернет-маркетинг * Контент и копирайтинг *

Тут OpenAI и Anthropic забавно батлятся на просторах веба. Контекст: ChatGPT вовсю готовится запустить встроенную рекламу для бесплатных юзеров в ответы моделей. Естественно, это вызывает волну праведного негодования у пользователей.

И тут Anthropic решили подсуетиться, набрать очков одобрения и выпустили тролль-ролики на Super Bowl, где явно высмеивают эту самую анонсированную рекламу. Зацените, видосы действительно забавные 👨‍🎨