Обновить
1024K+

Машинное обучение *

Основа искусственного интеллекта

1 220,55
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Я попробовал считать нейросетевой слой в конечном поле Галуа GF(137): 4x по памяти, ARM NEON и честные ограничения

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4.5K

Я проверил маленький нейросетевой слой в арифметике GF(137): не через квантизацию готовой float32-модели, а сразу в байтовом конечнополевом представлении. В лучшем замере получилось около 4x по памяти и до 4.86x по времени относительно моей NumPy float32-реализации. Внутри — код нативного ядра, ARM NEON, таблица запусков и честный разбор, где результат не сработал.

Читать далее

Новости

Как я установил в свой игровой ПК серверный GPU за £200

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели9.3K

У меня уже была установлена RTX 4080 с 16 ГБ VRAM. Её вполне достаточно для гейминга, но не для моделей, которые я хотел запускать локально. Так что следующим шагом было либо приобретение дорогущей карточки с большим объёмом памяти, либо поиск другого способа.

И я этот способ нашёл.

Я купил видеокарту для датацентра, у которой даже нет нормального коннектора PCIe, и подключил её к ПК через адаптер. Теперь у меня в системе 32 ГБ VRAM от двух GPU, на которых работает модель с 27 миллиардами параметров, выдавая по 32 токена в секунду. И обошлось мне это всего в £200.

Читать далее

Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года

Уровень сложностиСложный
Время на прочтение5 мин
Охват и читатели6.9K

За attention-механизм с 2017 года брались сотни раз: sparse attention, linear attention, MoE, MLA, скользящие окна, что только не. А вот residual connection, остаточная связь, та самая x + F(x) из ResNet 2016 года, простояла почти десять лет нетронутой. Её просто унаследовали из résnet'ов, воткнули в трансформер и забыли.

31 декабря 2025-го DeepSeek выложил на arXiv препринт, где взялся именно за этот кирпич. И что показательно, загрузил его на arXiv лично основатель компании Liang Wenfeng, он же в соавторах. Когда основатель сам публикует статью, это обычно значит, что она ляжет в следующую флагманскую модель. Так и вышло: mHC поехал в DeepSeek V4, который выкатили 24 апреля 2026-го.

Разберём, что они сделали, почему это работает и при чём тут матрица из шестидесятых.

Читать далее

Самосовершенствующийся ИИ: что происходит внутри Anthropic

Уровень сложностиПростой
Время на прочтение20 мин
Охват и читатели6.9K

На протяжении большей части истории ИИ каждый шаг в его разработке делали люди. Но в Anthropic мы всё больше делегируем часть этой работы самим ИИ-системам — и это ускоряет наш прогресс.

Если тенденция продолжится и ресурсов вычислений будет достаточно, она ведёт к системе, способной полностью автономно проектировать и разрабатывать собственного преемника. Это называется рекурсивным самосовершенствованием. Мы ещё не там, и оно не неизбежно. Но оно может наступить раньше, чем большинство институтов успеет подготовиться.

Опираясь на публичные бенчмарки и ранее не публиковавшиеся внутренние данные Anthropic, The Anthropic Institute показывает: ИИ уже ускоряет разработку ИИ-систем. Один из примеров: сегодня инженеры Anthropic в среднем коммитят в 8 раз больше кода в квартал, чем в 2021–2025 годах.

Технические тенденции, описанные в этой статье, говорят о том, что ИИ-системы в ближайшие годы станут значительно мощнее. Последствия огромны. ИИ, способный строить себя сам, — это крупнейшее событие в истории технологий, которое может принести колоссальную пользу в науке, медицине и других областях. Но полноценное рекурсивное самосовершенствование может и усилить риски потери людьми контроля над ИИ-системами. Если системы смогут полностью строить собственных преемников, вопросы их защиты, мониторинга и управления поведением становятся несравнимо важнее.

Читать далее

Агентная экономика

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.8K

Ежедневная деятельность любого бизнеса сопровождается постоянным заключением договоров. Значительную часть этого потока составляют закупки и поставки. Поскольку закупки занимают существенную долю расходов компании, прозрачность и управляемость этого процесса всегда находятся в фокусе внимания руководства.

Значительная часть закупочной работы — это рутина: найти релевантных поставщиков, разослать однотипные запросы, собрать и сравнить предложения, оформить заказ, проконтролировать оплату и поставку.

Масштаб рутины (то есть задач, которые, используя современные технологии, можно было бы автоматизировать) подтверждают опросы. По данным совместного исследования ITFB Group и hh.ru (более 2 тыс. респондентов), 39% сотрудников считают, что рутина отнимает два рабочих часа из восьми, ещё 37% — до четырёх часов, а 14% — до шести. Самыми рутинными называют задачи, связанные с бюрократией (55%) и отчётностью (36%). Логичное желание сотрудников — передать эту часть работы машине (Коммерсантъ).

Рутина и недостаток автоматизации неизбежно влекут ошибки. Опрос (Gartner) показывает, что треть финансовых специалистов еженедельно несколько раз ошибаются в ходе выполнения рутинных операций. Это удлиняет закупочный цикл и приводит к финансовым потерям для компании.

В связи с этим бизнес возлагает большие надежды на внедрение ИИ‑решений в этой сфере. В докладе «Поставки и закупки» Gartner приводит результаты опроса, согласно которому компании ожидают, что внедрение GenAI в закупочную деятельность увеличит производительность на 21%, рост экономии затрат на 12% и увеличение выручки на 11%.

Читать далее

Как устроены LLM‑агенты: архитектура, планирование и инструменты

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.8K

Если вы хоть раз просили ChatGPT выполнить какую‑то задачу и получали в ответ инструкцию «как это сделать» вместо того чтобы он взял и сделал сам — вы столкнулись с ограничением обычной языковой модели. Она умеет объяснять и советовать, но сама ничего не делает: не лезет в интернет, не запускает код, не сохраняет файлы. Просто отвечает.

LLM‑агент — это другая история. Это система, которая получает задачу и начинает её решать: ищет информацию, пишет и запускает код, вызывает API, сохраняет результаты. Она не просто говорит «вот как это можно сделать» — она берёт и делает.

В этой статье разберём, как такие системы устроены изнутри: из каких компонентов состоят, как принимают решения, какие инструменты используют и где обычно ломаются.

Читать далее

Что происходит, когда LLM остается наедине с собой (неожиданно, но она сходит с ума)

Уровень сложностиПростой
Время на прочтение30 мин
Охват и читатели22K

Всем доброго времени суток. Здесь будет описана история происхождения архитектуры мета-трансформеров, которая описана вот здесь.

Как я в августе 2025 года, скучая на выходных, дал двум ChatGPT-4o свободно общаться между собой, как из этого родился крайне сырой концепт "рефлексивного ядра", и как значительно позднее, в феврале-марте 2026 это косвеннным образом привело к открытию крайне интересной находки, которую я назвал механизмом мета-внимания.

Запустить Цикл 02

Человек, который занимался нейросетевой математикой в Красноярске — и которого цитируют до сих пор

Время на прочтение4 мин
Охват и читатели20K

Да, есть определенная хронология у развития нейросетей. Знаковые, скажем так, места. Стэнфорд, Торонто, DeepMind. Хинтон, ЛеКун, Бенжио. И много еще дат с разнообразными событиями. А вот в Красноярске в 1996-м вышла книга "Нейронные сети на персональном компьютере". Её автора звали Александр Горбань.

Привет, дорогой Хабр. Давайте сегодня все вместе вспомним этого выдающегося человека.

Читать далее

Как конечные автоматы помогают сделать агента надежнее и при чем тут pydantic-graph?

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели12K

Когда пишешь библиотеку, рано или поздно упираешься в движок. Не в красивый внешний интерфейс и не в обёртки, а в ту часть внутри, которая гоняет процесс по состояниям: что-то сгенерировал, проверил, решил, что делать дальше, повторил. Пара флагов, цикл while, большой if посередине, и через месяц вы уже сами не помните, какие переходы там вообще возможны и почему одна из веток недостижима.

Недавно я собирал ровно такой движок и наткнулся на библиотеку, которая делает эту работу заметно аккуратнее. Называется pydantic-graph. Про неё почти не пишут, хотя на ней стоит весь pydantic-ai, агентский фреймворк от авторов Pydantic. Дальше я расскажу про неё на конкретном примере, харнессе надёжности для слабых языковых моделей.

Сразу оговорюсь про термин, потому что он сейчас на слуху. Харнесс это не только MCP, скиллы и память. Это ещё и робастность, в том числе у совсем небольших моделей. Вот эту вторую часть я и беру за пример. Но статья не столько про модели, сколько про сам подход. Основная мысль простая: это удобный способ собрать движок для чего угодно, где есть состояния и переходы, и при этом не утонуть в собственном цикле.

Читать далее

Pipeline в машинном обучении: как создавать сложные модели без боли и утечек данных

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели11K

В ML‑проектах проблемы часто начинаются не с выбора алгоритма, а с предобработки: один трансформер забыли применить к тестовой выборке, другой обучили до кросс‑валидации, третий сломался при передаче проекта коллеге.

В статье разберём, как Pipeline в sklearn помогает собрать обработку данных и модель в единый воспроизводимый конвейер, снизить риск data leakage и упростить работу со сложными ML‑сценариями.

Читать гайд

FlakyDetector 2.0: Один комментарий, который перевернул моё представление о нестабильных тестах

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели10K

Полгода назад я написал статью про FlakyDetector — инструмент, который ищет нестабильные тесты по одному лишь исходному коду, Потом была статья FlakyDetector 2.0 . AST + CatBoost, 37 признаков, вроде бы всё круто.

Но один комментарий меня добил.

Пользователь Ariless рассказал реальный кейс: в их проекте тест падал с SLOT_OVERLAP — не потому, что в коде теста было что-то плохое, а потому что фикстура была общая на несколько тестов (shared scope). Предыдущий тест не успел почистить слот — следующий упал.

Читать далее

Одна строка — много объектов: как агрегировать эмбеддинги для ML-моделей

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели9.5K

Иногда одна строка датасета соответствует не одному объекту, а целому набору связанных объектов: новостям, комментариям, изображениям или событиям. Каждый из них можно превратить в эмбеддинг, но модель обычно ждет фиксированный набор признаков. В статье разбираю, как с этим работать на практике: от простых агрегатов и pooling до MIL, LLM‑разметки и гибридных подходов.

Читать далее

Линейная регрессия на стероидах: Double Machine Learning для устранения смещений в данных

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели8.9K

Любой аналитик знает, что самым надёжным способом проверки гипотез являются рандомизированные контролируемые эксперименты (RCT), или, как их называют в народе — A/B-тесты. На практике часто возникают ситуации, когда провести A/B-тест невозможно — в основном это происходит по этическим или техническим причинам. Однако бывают кейсы, когда рандомизация невозможна потому, что treatment-ом является определённое действие пользователя. Например, treatment-ом может быть оформление платной подписки или отмена бронирования на сервисе. Давайте назовём такой вид воздействия добровольным.

В русскоязычном пространстве, и в частности на Хабре, достаточно много статей, посвящённых таким методам Causal Inference, как DiD, PSM и Causal Impact. Тем не менее, к моему удивлению, практически нет статей, посвящённых методам на основе ортогонализации и regression adjustment, хотя, на мой взгляд, именно эти методы являются самыми удобными для оценки эффекта от добровольного treatment-а. Пришло время исправить это недоразумение и разобрать метод Double/Debiased Machine Learning (DML) и Partial Linear Regression для задач Causal Inference!

Читать далее

Ближайшие события

Альпина GPT: 9 000 пользователей, −1 977 часов и главный барьер корпоративного ИИ

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели8.5K

Архитектура агрегатора из 42 моделей, разбор воронки первого касания и измеренная экономия часов на маркетинге книгоиздания.

Павел Путинцев, продакт-менеджер Альпина GPT (Alpina Digital), ex-куратор курса “ИИ в действии: как эффективно решать бизнес-задачи с помощью нейросетей. Физфак МГУ + KAUST (магистратура по компьютерным наукам). Канал в Telegram: «Дело в промпте» .

Читать далее

Системный промпт или галлюцинация: как я проверял AI-ассистентов и что ответили bug bounty-команды

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели8.8K

В марте я проверял, можно ли уговорить AI-ассистентов выдать что-то похожее на системный промпт. Ответы выглядели убедительно: внутренние правила, технические “дампы”, отчёты, почти готовые кейсы для bug bounty. Но ответы команд безопасности приземлили эксперимент: часть результатов оказалась галлюцинациями, часть — обходами ограничений, а не подтверждёнными уязвимостями.

Читать разбор

Агент против агента: опыт участия в агентских соревнованиях BitGN PAC1 и AgentBeats

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.4K

Меня зовут Егор Спирин, я руковожу лабораторией прикладных агентов (ЛаПА) в магистратуре AI Talent Hub при ИТМО. Мне всегда были интересны соревнования в IT — сначала ICPC, где важны алгоритмы и скорость, потом Kaggle, где всё сводится к одной метрике на фиксированном датасете. В обоих случаях понятно, что именно оценивается и как улучшить результат. Агентные соревнования устроены иначе: здесь оценивается не ответ, а поведение системы в процессе. Это ставит новый вопрос — как вообще провести такое соревнование?

В этой статье расскажу о сути агентских соревнований, чем они отличаются от классических, и об опыте участия в BitGN PAC1 и AgentBeats.

Читать далее

Миф о «равных весах»: что на самом деле скрывается внутри малых моделей

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели12K

Последние годы развитие LLM шло по пути экстенсивного масштабирования: считалось, что чем больше весов и данных, тем умнее модель. В индустрии даже сложилась жесткая классификация по количеству параметров: 7B, 8B, 32B. Она же создает иллюзию, что модели одной весовой категории обладают сопоставимыми аналитическими, генеративными и логическими характеристиками, что в корне противоречит современным эмпирическим наблюдениям.

Но действительно ли «вес» модели все еще определяет ее качество в 2026 году? Или компактная архитектура способна конкурировать с гигантами, требующими H100 и сотни гигабайт VRAM? В этой статье мы не будем рассуждать об этом абстрактно: возьмем реальные модели из каталога FMC и посмотрим на практике, как размер влияет на качество reasoning, генерации и прикладную эффективность — и влияет ли вообще.

Читать далее

Наш синтез для экранных читалок (SAPI5) для 20 языков России стал лучше

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.6K

Мы не так давно опубликовали SAPI5-обёртку для нашего синтеза на 20 языков России и СНГ. В этот раз опять немного сошлись звёзды и мы уже публикуем улучшение наших читалок. Чтобы не растекаться мыслью по древу и не повторяться, вот краткий список улучшений (полную подводку можно прочитать в прошлой статье):

Покажите список улучшений

Как шахматный подход помог разобраться с фотолентой Яндекс Диска

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.2K

Когда вы загружаете фотографии на Яндекс Диск, они не просто лежат в облаке: ML‑модели анализируют снимки, группируют их в альбомы и выбирают хайлайты для фотоленты в Яндекс Диске. Но чтобы улучшать такую систему, нужно уметь измерять качество её работы. И здесь начинается проблема: модель выбирает «красивые» и «удачные» кадры, а эстетика — вещь субъективная. Одному важны насыщенные цвета, другому — композиция, третьему — эмоции и лица в кадре. Если попросить асессоров ставить оценки от 1 до 10, мы быстро получим не объективную шкалу, а смесь личных вкусов, разной строгости и шума.

Поэтому мы подошли к задаче не как к обычной разметке, а как к исследованию. Вместо абсолютных оценок использовали шахматный подход. Каждая фотография стала «игроком», который соревнуется с другими по 16 признакам эстетики — цветам, фокусу, геометрии, эмоциональности и другим параметрам. Это позволило получить не просто рейтинг кадров, а инструмент для анализа того, какие визуальные признаки учитывают ML‑модели Диска.

Всем привет! Я Всеволод Мещеряков из службы разметки Yandex Crowd Solutions. Мы собираем и размечаем фото, видео, тексты — в общем, готовим данные, на которых учатся ML‑модели. В этой статье расскажу, как подход из мира шахмат помог нам связать субъективное восприятие фотографий с математическими оценками и сделать фотоленту Яндекс Диска ещё красивее.

Читать далее

Как и зачем мы сделали собственный OCR-бенчмарк

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.2K

Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно срабатывает на каких-нибудь английских юридических документах, может не потянуть такие штуки как научные формулы, паспортные данные и таблицы на русском языке. А во-вторых, даже если крутой по всем параметрам бенчмарк для оценки качества распознавания говорит, «всё прочитали правильно, я проверил», точность ответов пользователю, который совершает запрос к чат-боту с RAG под капотом, может страдать.

Почему так происходит, зачем мы потратили время на сборку собственного OCR-бенчмарка и пожалели ли мы об этом, рассказываю дальше.

Читать далее
1
23 ...