Обновить
1024K+

Машинное обучение *

Основа искусственного интеллекта

1 159,61
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Разбираем 14 самых популярных бенчмарков для LLM

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели5.1K

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?

Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.

Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

Читать далее

Новости

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.3K

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку.

Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку.

В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

Читать далее

После краха Sora Альтман переключается на ещё более разрушительную авантюру, чтобы похоронить OpenAI окончательно

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.5K

Сэм Альтман не понимает технологии, не хочет понимать и считает, что ему это не нужно.

Или это только мне кажется, что истинная миссия Сэма Альтмана — спалить как можно больше инвестиционного капитала за кратчайший срок?

В этом он и правда похож на своего кумира — Наполеона Бонапарта. Французский император привёл миллионы европейцев к смерти; император ИИ спустил миллиарды долларов. И занял ещё больше — без каких-либо внятных перспектив возврата инвестиций.

Чего только не сделаешь ради славы!

Читать далее

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели4.2K

Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!

В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

Читать далее

Как мы в CodeScoring модель для поиска секретов готовили

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели4.6K

Расскажем, как нам удалось повысить качество определения истинных секретов в результатах сканирования кода с 0.70 до 0.90 PR AUC с помощью LLM.

Читать далее

Тендеры без ошибок: как ИИ обошёл экспертов в проверке документации

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели3.1K

Кто победит в соревновании по обработке документов — опытный специалист или нейросеть? На рутинных повторяющихся задачах ИИ уверенно обходит человека: он работает быстрее и не устаёт, тогда как внимание человека дискретно — мы ошибаемся из‑за усталости или монотонности работы.

Оптимальное решение — разделить роли: нейросеть быстро и точно сортирует данные, а человек ставит задачи, контролирует процесс и оценивает результат. Как же на практике превратить ИИ-помощника и живого эксперта в эффективную команду?

Для этого мы в Doubletapp разработали ИИ-платформу, которая облегчает и ускоряет работу с тендерной документацией:

Читать далее

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Уровень сложностиСредний
Время на прочтение32 мин
Охват и читатели3.5K

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья.

Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, говорил «вроде лучше», деплоил. Это называется vibes-based development, и это тупик.

Потом я разобрался с evals — по сути, тестами для недетерминированных систем. Перелопатил Hamel Husain, Eugene Yan, гайды Anthropic, доку Mastra. Написал всё в одном месте: мегастатья от ручного разбора ошибок до self-improving loops, где агент улучшает себя сам за ночь. С кодом, граблями и метафорами про пиццу.

Читать далее

ИИ-агенты научились спать

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5K

На днях OpenClaw сделал сногшибательный апдейт, и теперь мой агент каждую ночь видит сны. В 8 утра он просматривает всё что узнал за день, оценивает каждый факт по важности и решает что запомнить навсегда, а что забыть. Занимает пару минут, но после он уже чуть другой. Запомнил важное. Отпустил лишнее.

Новая фича "dreaming" в OpenClaw самый яркий креатив сообщества разработчиков. И за этим стоит кое-что большее чем хитрый трюк с памятью. Это момент когда ИИ-агенты перестали быть stateless инструментами и начали превращаться в цифровых сотрудников.

Читать далее

MCP не умер: почему ИИ-агенты тонут в контексте

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.6K

Еще недавно казалось, что MCP решит главную проблему ИИ-агентов: даст единый способ подключать инструменты, данные и внешние системы.

Но быстро выяснилось, что если дать модели все сразу, она не становится умнее - она теряет фокус. В статье разбираю, почему ИИ-агенты тонут в контексте, и какие подходы помогают это исправить.

Читать далее

На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.4K

120 миллиардов параметров, контекст 256K токенов, агентное поведение — и все это на одной видеокарте. Мы подключили Nemotron 3 Super к Luxms BI и неделю тестировали на реальных аналитических задачах. В этой статье — что получилось, где модель справляется, а где пока нет.

Главный вопрос, на который мы хотели ответить – можно ли сегодня решать реальные аналитические задачи на одной GPU там, где обычно требуется кластер.

Читать далее

Какие GPU вам подойдут? Фото из ЦОДа и обзор H200 и L40S

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.2K

Привет, Хабр. На связи Т1 Облако. Если вы интересуетесь генеративным ИИ, то наверняка знаете, что LLM давно превратились из хайповой игрушки в рабочий инструмент для множества бизнес‑задач: от создания небольших чат‑ботов для клиентской поддержки до крупных мультимодальных моделей для генерации текстов, изображений и видео.

И хотя обучение и инференс моделей остаются основной причиной роста спроса на GPU, для участия в этой «вечеринке» не всегда нужен суперкар уровня H100 или H200. Речь о том, чтобы оптимально подобрать GPU под конкретный сценарий, будь то обучение скромного чат‑бота на внутренних руководствах, проектирование или обработка терабайтов видео в 8K или создание корпоративной базы знаний для бигтеха. Под каждый сценарий — свой тип ускорителя, чтобы не ехать за хлебом на Феррари. Именно поэтому мы не стали ставить во все серверы исключительно флагманские видеокарты, а расширили линейку GPU различными моделями как для инференса, так и для гибридных сценариев.

Поделимся техническим обзором серверов с графическими ускорителями H200 и L40S, и их фотографиями прямо из ЦОДа. Расскажем не только о тензорных ядрах, Infiniband и видеопамяти, но и о том, как эти технологии помогают нашим клиентам развиваться.

Читать далее

Как безопасно сэкономить на LLM в компании: переходим с бесплатных версий на корпоративный API

Время на прочтение5 мин
Охват и читатели3.4K

Попытка бизнеса сэкономить на бесплатных нейросетях всегда приводит к потере денег и разрушенной репутации. Люди ошибочно называют современные популярные чаты «искусственным интеллектом» и полностью доверяют им важную работу с текстами. Но на самом деле эти программы не умеют думать и не понимают смысла написанного. Это просто большие текстовые калькуляторы, которые механически подбирают следующее слово на основе прочитанных в интернете книг и статей. Бесплатные версии таких алгоритмов регулярно выдумывают факты, потому что их главная цель — выдать складный ответ, а не найти правду.

Именно поэтому скупой всегда платит дважды: желание сберечь небольшую сумму на подписке оборачивается огромными тратами на спасение доброго имени компании. В реальной работе гораздо выгоднее и безопаснее купить один продвинутый платный аккаунт на весь отдел, чем потом краснеть за ошибки бесплатного робота. Нейросеть можно использовать только как быстрого помощника для создания простых черновиков. Если живой человек не проверяет за машиной каждую цифру и букву, то такой современный инструмент становится настоящей угрозой для любого дела.

Читать далее

YOLOE: детектим что угодно без дотренировок

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.6K

Всем привет! Представьте, сколько всего нужно сделать, чтобы дотренировать модель компьютерного зрения:

Поиск и сборка датасетов. Хорошо, если есть открытые и с допустимой лицензией. Но часто приходится собирать «с миру по нитке», дополнять и балансировать данные самостоятельно.

Разметка и аугментация. Качественный датасет — залог хороших метрик. Придётся корпеть над точными detection-боксами, перепроверять, думать над нестандартными ситуациями во входных данных.

Обучение и валидация. Потратим мощности, время, деньги, протестируем. Хорошо, если с первых попыток удастся найти достойный баланс между точностью и временем тренировки. В реальности нужно хотя бы несколько итераций.

Но есть и другой путь. Сегодня расскажу о YOLOE — это модель, которая помогает решить эти проблемы.

Читать далее

Ближайшие события

Anthropic доказала, что «безопасность ИИ» — это маркетинговая афера на триллион долларов

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели6.8K

Не знаю, как вам, а мне кажется — не очень-то у него выходит.

Вообще-то, если смотреть не на слова, а на дела, различий между ними кот наплакал. Оба в конечном счёте принадлежат к одной и той же касте — касте техно-олигархов.

И давайте прямо сейчас расстанемся с иллюзиями и признаем одну простую вещь: мы нужны им ровно в двух ролях — как поставщики поведенческих данных и как потребители их блестящих безделушек.

Если их галлюцинирующие боты иногда и делают для нас что-то полезное, причина ровно одна: пока ни у кого из них нет монополии на ИИ-рынке.

Читать далее

Simple diffusion – компактная модель генерации изображений

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.8K

Всем привет! Мы создаем простую, быструю и компактную диффузионную модель, которую можно обучать и запускать на обычных видеокартах, сохранив при этом высокое качество. Simple Diffusion (sdxs-1b) — это первый результат наших опытов, мы публикуем её как альфа‑версию под лицензией Apache-2.0 вместе с открытым кодом подготовки данных и обучения. https://huggingface.co/AiArtLab/sdxs-1b

TLDR; На обучение SDXL потребовалось ~6 млн долларов. Z‑Image говорят обучили всего за 600к. У нас была RTX-4080 и два чемодана  желание сделать небольшой прототип быстрой и дешевой модели на imagenet. В процессе мы немного увлеклись. Вероятно удалось создать модель примерно в сотни раз дешевле/быстрее относительно быстро обучаемой SDXL с генерацией близко к реальному времени в высоком разрешении, и без характерных проблем в анатомии, но качество пока в целом ниже (но надеемся будет выше).

Читать далее

Топ локальных нейросетей 2026: полный суверенитет без интернета

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели14K

Я долгое время была в отношениях с облачными нейросетями. Это было удобно, даже комфортно. Открыла браузер, написала промпт и через пару секунд получила ответ. Но в последнее время отношения начали давать трещину.

Интернет стал неотъемлемой частью нашей жизни, но в 2026 году мир переживает непростые времена. Ситуация крайне нестабильна, и это вызывает у каждого чувство неуверенности. Возникает закономерный вопрос: а можно ли как-то подстраховаться? Чтобы нейросеть всегда была под рукой, даже когда провайдер решил устроить себе выходной или на телефон пришло очередное оповещение о беспилотной опасности.

Оказалось, что можно. И не просто можно, а вполне себе комфортно.

К 2026 году локальные нейросети доросли до того состояния, когда их действительно имеет смысл использовать. Не как хобби для гиков с тремя видеокартами в башне, а как рабочий инструмент. Они всё ещё требуют некоторых технических знаний (куда без них). Но порог входа заметно снизился.

В этой статье я собрала шесть инструментов, которые работают полностью без интернета. Ну, почти полностью - устанавливать их придётся онлайн, но после этого можно смело отключать Wi-Fi и наслаждаться цифровым суверенитетом.

Приятного прочтения!

Читать далее

OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели10K

В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала Anthropic риском для цепочки поставок. Ещё через несколько часов Сэм Альтман подписал сделку.

Позже он признал, что это «выглядело оппортунистично и небрежно», но он был 1) нечестен и 2) слишком поздно.

Удаления ChatGPT выросли на 295% в тот же день. Бойкот под названием QuitGPT собрал 2,5 миллиона участников за неделю (4 миллиона на момент написания). Claude стал самым скачиваемым бесплатным приложением в US App Store. Глава робототехники OpenAI публично уволился. Сотни сотрудников подписали открытое письмо в поддержку позиции Anthropic.

Тротуар у офиса OpenAI в Сан-Франциско покрылся граффити: «you suck».

Это движение против OpenAI не убьёт лидерство ChatGPT, но оно разрушит её имидж безвозвратно. Рынок может не заботиться о морали, но он заботится об оптике.

Читать далее

Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

Время на прочтение24 мин
Охват и читатели9.8K

В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и отличить одно от другого становится крайне трудно. Эти рекомендации помогут журналистам в условиях нехватки времени распознавать контент, сгенерированный с помощью ИИ. Предложенные семь категорий проверок полезно освоить каждому репортеру.

Я помогаю редакциям бороться с дезинформацией. И вот что меня особенно тревожит: обычная проверка фактов занимает несколько часов или даже дней, а ИИ способен производить фейковый контент за считаные минуты.

(Эта статья является переводом, а обложку мне прислал институтский коллега. По русскому языку Gemini вместе с Nano Banana пока ставим уверенную «двойку»)

Читать далее

На шаг ближе к Скайнету: научились ли нейросети умножать?

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.6K

Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы.

Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения?

Давайте разбираться

Я не программист. Я два месяца учил нейросеть не подлизывать

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8K

Нейросеть хвалила мой говнокод и помогала закопать проект. Я психанул и два месяца строил инструкцию, которая убивает подлизу. Это история о том, что вышло.

Читать далее
1
23 ...