Обновить
Сначала показывать
Порог рейтинга
Уровень сложности

Сравниваем LLM: 11 тестов для Opus 4.8, GPT 5.5 и Gemini 3.1 Pro

Уровень сложностиСредний
Время на прочтение56 мин
Охват и читатели11K

Меньше месяца назад Anthropic выпустила модель Claude Opus 4.8. Как обычно, заявили много новых плюшек, вроде улучшенного кодинга и режима Fast Mode. Нам это показалось отличным поводом, чтобы устроить ее сравнение с двумя другими тяжеловесами рынка от Google и OpenAI.

Никакие бенчмарки и маркетинговые обещания нас не интересуют — мы будем сравнивать модели по тому, как они справляются с реальными будничными задачами. В этом сравнении нам поможет агрегатор нейросетей BotHub: это возможность оценить качество ответов на живых примерах и сразу понять, во сколько решение обходится по деньгам. Кроме того, это сделает тест чище. Ведь BotHub работает по API, а этот метод избавлен от многих подпорок и костылей, которые неявно помогают моделям в их веб‑интерфейсе.

Измерять затраты мы будем в CAPS — это внутренняя валюта BotHub, чем больше вы ее покупаете, тем дешевле единица. Эта валюта напрямую привязана к числу затрачиваемых моделью токенов, потому она хорошо покажет стоимость разных задач для разных моделей. Если грубо, то за рубль можно купить от 4000 до 6500 CAPS. В этом тесте будем считать, что 1 рубль = 4000 CAPS.

Победитель чаще всего будет определяться субъективно, уж простите нам эту вольность. Скорее всего все наши участники в том или ином виде справятся с задачами, вопрос будет лишь в качестве. Хотя явные завалы, конечно, будут отмечены позорным клеймом. В любом случае, все итоги мы приложим и вы можете не согласиться с нашим мнением и выбрать своего фаворита. 

В нашем сравнении примут участие три флагманские модели:

К тестам

Новости

Сладкие оковы вайб- к̶о̶д̶и̶н̶г̶а̶ инжиниринга [часть 2]

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели9.6K

Это вторая статья об использовании LLM в проекте разработки компилятора языка программирования как транспилятора в код на C++. Я продолжаю историю и хочу рассказать о своих наблюдениях и впечатлениях от попыток применять автономных агентов в большом и сложном проекте. А также о навязчивой рекламе и встроенных «закладках» в коде некоторых инструментов, которые, похоже, целенаправленно ухудшают работу с моделями конкурентов.

Читать далее

Контекстное окно: почему нейросеть забывает части разговора

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели12K

Представьте, что вы разговариваете с невероятно умным и эрудированным собеседником. Только очень странным. Несмотря на весь свой интеллект и тысячи фактов, которые он легко и непринужденно рассказывает, он не может ничего запомнить. Ваш диалог с ним каждый раз как бы начинается заново. Вы даете ему вводные, задаете вопросы, что-то уточняете, а он, на основе всего этого, выдает ответ.

Однако, стоит вам задать следующий вопрос, как собеседник напрочь забывает все, о чем вы говорили. И чтобы отвечать более-менее связно, ему приходится сначала перечитать весь ваш диалог.

Звучит странно? Возможно. Однако именно так работает большинство современных LLM. А разработчики, пытаясь нивелировать эту особенность, добавляют нейронкам различные обвязки и ухищрения, заметно усложняя логику для рядового пользователя. 

Чтобы лучше понимать, что происходит, давайте погрузимся в тему. И подробнее познакомимся с такой штукой, как «контекстное окно».

Читать далее

Актуальный гайд на Cursor в 2026 году

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели22K

Привет, Хабр!

К 2026-му году Cursor стал полноценной средой для кодинга без…. кодинга. Вместо этого вы оперируете ИИ-агентами и отдаете им приказы. Ручное программирование с каждым годом становится ближе к статусу «истории». Cursor является лучшим ПО для работы с агентами и вайбкодинга.

В этом гайде мы без воды рассмотрим такие аспекты программы как: интерфейс, работа с контекстом, режимы агента, модели, правила проекта, MCP, skills, hooks и др.

Актуально на лето 2026 года. На момент написания самая свежая версия — Cursor 3.6.

Поехали.

Читать далее

RAG-Anything: Как собрать по-настоящему мультимодальный RAG

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели13K

Существует множество известных RAG-фреймворков, проверенных на многочисленных бенчмарках, так что точность работы системы в наших реалиях не такая большая проблема. Однако, для любого, кто сталкивался с прикладной интеграцией RAG в рабочие пайплайны, не секрет, что рано или поздно сталкиваешься с постобработкой форматов, отличных от текста. Комбинируешь OCR, парсеры, ридеры…

RAG-Anything устраняет ненужные телодвижения.

С помощью RAG Anything возможно обрабатывать подавляющее большинство ходовых форматов файлов(PDF, DOC, PPTX, XLS, JPG, BMP, GIF и др. )

В этой статье мы разберем механизм работы фреймворка и на примере посмотрим, как он работает.

Читать далее

Что такое MCP сервер. Как работает киллер-фича современности под капотом

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели24K

Помните время, когда искусственный интеллект был простой говорящей головой? 

Мы все через это проходили: открываешь чат, просишь ИИ написать кусок кода, копируешь его, вставляешь в IDE, ловишь ошибку компиляции, копируешь текст ошибки, вставляешь обратно в чат. Рутина. Сплошная, выматывающая рутина. 

Хочешь, чтобы ИИ прочитал лог-файл? Пиши кастомный плагин. Хочешь, чтобы он сделал простой запрос в базу данных? Садись и пиши очередной адаптер. Каждая новая интеграция требовала написания отдельного, уникального кода. По сути, приходилось соединять зоопарк различных ИИ-моделей с бесконечным множеством баз данных, API и сервисов, собирая костыльные решения на ходу.

И так продолжалось бы еще долго, если бы не одно событие.

Но 25 ноября 2024 года компания Anthropic представила Model Context Protocol (MCP). И, честно говоря, это событие полностью изменило правила игры.

Читать далее

Сладкие оковы вайб-кодинга

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели19K

Некоторое время назад я высказал предположение, что проблемы С++ настолько глубоки, а процесс принятия решений комитетом настолько медленный, что доработки в С++ не в состоянии успеть за скоростью развития отрасти Ахиллесова пята C++ и будущая р̶е̶ эволюция / Хабр.

Конечно, я не считаю, что С++ будет забыт, но с большой долей вероятности ему будет уготована нишевая роль, как сейчас это произошло с языком С, которому С++ и пришел на замену. Причем я предположил, что способ плавной замены С++ на какую то альтернативу должен происходить точно также, как сам С++ пришел на замены старому С, через транспрлайтер (sourse to source translation).

А недавно я в очередной раз решил попробовать использовать LLM при работе с большими проектами и старым легаси кодом и нужно было протестировать новые моделей в каком нибудь крупном проекта (но, чтобы это был не продуктовый код). Поэтому мой собственный проект языка программирования в виде трансплайтера оказался вполне достойным вариантом для оценки возможностей современных нейросетей на крупном проекте, таком как компилятор языка программирования. И эта статья - мои наблюдения и впечатления от использования LLM на большом и сложном проекте.

Читать далее

Уроки прошлого: чему нас учит история автоматизации в промышленности

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели15K

Вы боитесь потерять работу?

Вопрос звучит почти банально, но за последние несколько лет страх увольнения вырос до уровня скримера из фильма ужасов. И это не только ваше ощущение. Практически каждый человек с работой так или иначе боится её потерять. Я слышу это ежедневно — в комментариях к статьям, в консультациях, в соцсетях, даже в разговорах с друзьями. Никто не чувствует себя в безопасности.

Почему?

Причин много. Но одна из них — постоянный фон из Big Tech и медиа, которые последние годы повторяют одно и то же: ИИ идет за вашими рабочими местами. И на этот раз «новая версия» искусственного интеллекта не пощадит никого.

Это правда?

Я много работаю с ИИ. И уже 15 лет объясняю людям, почему ИИ не должен автоматически означать конец их профессии.

Давайте попробуем спокойно соединить точки. Картина получается не истеричная — но отрезвляющая.

Читать далее

Как слить 250 миллионов долларов с помощью ChatGPT: мастер-класс от главы Krafton

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели10K

Помните историю Грасиэлы Дитор? Она уволила адвоката и доверила свою защиту в суде ChatGPT. Итог — иск против OpenAI на 10 миллионов. Но, как оказалось, это были только цветочки. Недавно разыгралась куда более сюрреалистичная драма, на фоне которой дело Дитор выглядит невинной шуткой.

Главный герой — Чанхан Ким, генеральный директор многомиллиардной корпорации Krafton. Человек с огромными ресурсами и властью. Но ему было мало. Он решил, что может перешагнуть через юридические нормы и здравый смысл, используя ИИ.

Это решение обошлось ему в 250 миллионов долларов прямых выплат, не считая гигантских судебных издержек и уничтоженной репутации.

Вот как это было.

Читать далее

OpenAI выкупила Sky – теперь в Codex лучшая система управления компьютером, которую я видел

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели23K

На днях компания OpenAI представила обновленное приложение Codex для Mac. Среди множества нововведений особняком стоит встроенный инструмент управления macOS, который позволяет Codex взаимодействовать сразу с несколькими программами. Делает он это в фоновом режиме с помощью “параллельных курсоров”: агенты работают с приложениями сами по себе, не перетягивая окна на передний план и не отвлекая пользователя. По сути, эта функция – буквальное воплощение проекта Sky. Позже OpenAI выкупила этот стартап вместе со всей командой разработчиков.

Cейчас в Codex реализована лучшая система управления компьютером, которую я когда-либо видел в ИИ-агентах. Она даже превосходит то, что я пробовал в Sky год назад. Прошлый вариант был хорош, но работал ощутимо медленнее нынешнего, поскольку базировался на моделях Claude от Anthropic. Сегодня в Codex для Mac даже вальяжная GPT 5.4 действует шустрее, чем Sky в свои лучшие времена. А если включить скоростной режим Codex или поручить простые задачи модели GPT-5.3-Codex-Spark от Cerebras, производительность становится просто космической по сравнению с результатами 2025 года.

Читать далее

Ловушка «Пари Паскаля»: как страх перед будущим ИИ отвлекает нас от проблем в настоящем

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.6K

Давайте сразу честно: я не считаю нынешний ИИ разумным. И не верю, что все эти, при всём уважении, очень впечатляющие статистические трюки вдруг возьмут и приведут нас к настоящему интеллекту.

Поэтому разговоры в духе «а что мы будем делать, если ИИ станет разумным?» кажутся мне либо отвлекающим манёвром, либо просто красивым маркетингом.

Но при этом у меня с ИИ-думерами всё же есть что-то общее. Я тоже переживаю из-за технологий, которые находятся в руках корпораций, настолько разросшихся, что они уже почти не поддаются нормальному контролю. Я тоже переживаю из-за того, как эти технологии используют против людей. Меня тоже тревожит, как большие компании срастаются с государством и всё это начинает пахнуть очень неприятной смесью контроля, слежки и авторитаризма. Меня тоже волнует, как технологии используют, чтобы выжимать из работников всё больше, а жить им становилось всё хуже.

Просто, на мой взгляд, для этого никакой сверхразумный ИИ не нужен.

Всё это уже происходит.
И беспокоиться об этом нужно уже сейчас.

На прошлой неделе я как раз обсуждал это публично — на лекции в Монреале, где выступал вместе с Астрой Тейлор и Йошуа Бенджио. Бенджио, если что, — человек очень серьёзный: лауреат премии Тьюринга, один из тех, кто вообще заложил фундамент нынешнего бума deep learning.

И мы с ним, мягко говоря, не сошлись во взглядах.

Бенджио сейчас занимается инициативой под названием Lawzero. Идея у неё такая: создать международный ИИ-консорциум, который будет делать ИИ как общественное цифровое благо — открытое, прозрачное, проверяемое и безопасное.

Читать далее

Я запустил Gemma 4 как локальную модель в Codex CLI

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели14K

Я хотел понять, может ли Gemma 4 заменить облачную модель в моей обычной повседневной работе с кодом через агента. Не в теории, а по-настоящему. Я каждый день пользуюсь Codex CLI, и модель по умолчанию у меня — GPT-5.4. Работает она хорошо, но есть два нюанса: каждый токен стоит денег, и каждый промпт уводит мой код на чужие серверы. Плюс у меня есть друзья, которые всерьёз думают вложиться в локальные сетапы, а я до сих пор не был уверен, что для такой работы это вообще имеет смысл.

Я допускал, что могу ошибаться.

Gemma 4 обещала рабочий локальный tool calling. И я решил потратить день, чтобы проверить, не развалится ли всё это, как только Codex CLI начнёт читать файлы, писать патчи и гонять тесты.

Я собрал два стенда:

Читать далее

OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели17K

Что ж, теперь образ действия Сэма Альтмана очевиден, и мы уже можем предсказать, что будет дальше.

То, что он делает, — это разновидность многоуровневого маркетинга (MLM). Схема, в которой доход генерируется не от продажи продукта, а от привлечения новых участников, вкладывающих свои деньги в систему.

Формально это нельзя назвать незаконным, и Альтман, скорее всего, не понесёт юридической ответственности, когда эта схема рухнет. Но его репутация, вероятно, окажется погребена под обломками конструкции, стоимость которой составит десятки, если не сотни миллиардов долларов.

Кроме того, множество компаний — включая весьма известные, — на мой взгляд, понесут колоссальный репутационный ущерб. И мне страшно представить количество и суммы судебных исков, которые последуют за этой грандиозной мистификацией.

Читать далее

Ближайшие события

Маск появляется в Tesla один день в неделю, и управляет Tesla вслепую

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.4K

Мы все знаем, что Маск помешан на автоматизации. От Optimus до беспилотных автомобилей — он хочет, чтобы его роботы захватили мир. Но, как выясняется, нечто похожее Маск проделывает и со своей ролью генерального директора Tesla. Washington Post недавно опубликовала интервью с одним из бывших топ-менеджеров Tesla, который проговорился: Маск хотел тратить на работу в компании как можно меньше времени. На первый взгляд звучит безобидно. Но для любого, кто разбирается в управлении бизнесом и корпоративной культуре, это — кошмар. Это означает, что Маск фактически задремал за рулём и позволяет Tesla самой ехать к обрыву. Но это не случайность. Если рассмотреть происходящее в контексте того, чем стала Tesla, всё встаёт на свои места. По моему мнению, это доказывает: Маск делает это намеренно.

Читать далее

Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели27K

Знаете ли вы, что Starship должен был высадиться на Луне два года назад? Но сейчас на дворе 2026 год, а ракета так и не вышла на орбиту. Это отставание вышло за рамки любых шуток. С быстро приближающимся IPO SpaceX и пилотируемой миссией NASA «Артемида III» (для которой необходим Starship) не за горами, компании отчаянно нужен рывок вперёд. Именно это и должен обеспечить Starship V3, и Маск недавно объявил, что первый полностью укомплектованный V3 стартует в мае. Главный вопрос звучит так: что должен совершить V3 и в какие сроки, чтобы вернуть эту программу-автокатастрофу в нормальное русло?

Читать далее

Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели25K

Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды.

Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров.

А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным. Фоновый демон llmster, консольная утилита lms, непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic. Это значит, что вы можете направить Claude Code на свою локальную Gemma 4.

Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac?

Поехали!

Читать далее

Почему OpenAI, Microsoft и Anthropic просят не доверять собственным моделям?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели17K

Microsoft — или, как их ласково зовут в народе, «Микрослоп» — уже давно запихивает Copilot пользователям, агрессивно продвигая его как будущее профессиональной продуктивности. Однако такие издания, как TechCrunch, TechRadar, PCMag и другие, недавно раскопали, что в Условиях использования (Terms of Service) Microsoft чёрным по белому написано: Copilot предназначен исключительно для развлекательных целей. Интернет, мягко говоря, захлебнулся от хохота. К сожалению, всё гораздо хуже, чем думают люди, потому что это касается не только Copilot, а последствия куда глубже, чем кажется на первый взгляд.

Читать далее

Google окончательно убил OpenAI? Как Gemma 4 меняет правила игры

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели22K

Буду честен. Я перестал следить за Gemma после второй версии. Не потому что она была плохой — просто она никогда не воспринималась как серьёзный конкурент китайским гигантам открытого ИИ: DeepSeek, Qwen — моделям, которые разработчики действительно разворачивали в продакшене. Gemma была моделью, которую ты один раз пробовал на Kaggle, а потом забывал. Сегодня Google всё изменил. Полностью.

Gemma 4 вышла 2 апреля 2026 года. И технический директор Hugging Face Жюльен Шомон написал об этом с буквальными эмодзи-огоньками, назвав это «ЭКСТРЕННОЙ НОВОСТЬЮ». Когда CTO платформы, которая хостит все открытые модели на планете, говорит, что Google вернулся в игру, — стоит обратить внимание.

Читать далее

18 месяцев до банкротства OpenAI? Прогноз NYT звучит всё правдоподобнее

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели10K

31 марта OpenAI объявила о раунде финансирования с оценкой $852 миллиарда. На следующий день, 1 апреля, Bloomberg вышел с заголовком: «OpenAI теряет популярность среди вторичных покупателей». Что произошло за сутки?

Читать далее

Почему Claude Cowork — это то, чем ChatGPT должен был стать, но не стал

Время на прочтение4 мин
Охват и читатели18K

Claude Cowork превращает часы работы в минуты. ChatGPT так не умеет.

Я работаю с Claude Cowork с первого дня его появления.

Это потрясающий инструмент для автоматизации рутинных компьютерных задач.

Вот чем Claude Cowork принципиально отличается от ChatGPT:

У него есть прямой доступ к вашим локальным файлам — а значит, он может мгновенно браться за любую задачу (при правильной настройке)

Он берёт на себя многошаговые задачи и выполняет их автономно

Он создаёт профессиональные документы — Excel, PowerPoint, Word

К нему можно подключать плагины для специализированной работы: продажи, юридическая сфера, финансы, продуктивность

Работа с ChatGPT — это как сидеть в пузыре чата. Бесконечные уточнения туда-сюда, потому что он понятия не имеет, что вы на самом деле пытаетесь сделать.

Claude Cowork устроен иначе.

Его контекст — это папка и файлы, к которым вы даёте ему доступ.

Вы указываете на папку, формулируете задачу → Cowork составляет план и выполняет сам.

К концу этой статьи вы узнаете:

Как пользоваться Claude Cowork

Как экономить часы работы с Cowork (то, чего ChatGPT не умеет)

Как сделать Cowork ещё мощнее с помощью плагинов и коннекторов

Читать далее
1
23 ...