Как заставить модель учиться, если мы сами ничего не знаем: введение в self-supervised обучение

Разбираем 3 метода self-supervised обучения, которые помогут превратить хаотичные представления данных в структурированные.

Основа искусственного интеллекта

Разбираем 3 метода self-supervised обучения, которые помогут превратить хаотичные представления данных в структурированные.

В экологии происходит настоящая ML-революция.
Число публикаций с использованием матмоделирования растёт по закону Мура, а наличие ML-моделей и прогнозов становится стандартом в статьях про биологические виды и их будущее.
Появились модели, предсказывающие распространение видов в пространстве и во времени - на 100 лет вперёд или на 6000 лет назад. Экологи начали моделировать взаимодействие видов, сообществ - и целых экосистем.
Расскажу, почему это произошло, как работают такие модели на практике - и к чему всё это нас приведёт.

Переосмысливаем память в ИИ: от пассивного контекста к активной, 'живой' системе. Мой проект MemNet с Hebbian-графом и 'сновидениями' решает задачи долгосрочных зависимостей. Код на GitHub + эксперименты внутри!

Сегодня многие компании внедряют ИИ‑ассистентов, которые автоматически пишут SQL‑запросы и помогают менеджерам готовить отчеты. На первый взгляд они отлично справляются с цифрами и синтаксисом, но теряются, когда дело доходит до бизнес-контекста. Почему? Потому что бизнес живет не только данными, но и контекстом: историей компании, внутренними правилами, неформальными договоренностями, культурой.
В результате ИИ превращается в «умное автодополнение», а не в стратегический инструмент. В этой статье разберем, что именно мешает алгоритмам учитывать бизнес‑контекст и какие инженерные подходы помогают превратить статистического помощника в полноценного участника управленческих процессов.

Подавляющее большинство изображений кубика Рубика — в иллюстрациях, принтах на одежде, мультфильмах, компьютерной графике и особенно в генерациях нейросетей — воспроизводят неправильные кубики. Чаще всего это невозможные в реальности комбинации цветов, реже к некорректным цветовым схемам добавляются нарушения геометрии и структуры кубика. Разгоняем эту тему в статье.

Эксперимент по хирургическому удалению слоёв из языковой модели
Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity.
Результаты:
• Удаление 1 среднего слоя: +10% скорость, -4% качество
• Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество
• Удаление первого слоя: модель полностью ломается
Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении).
Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

Отношение к ИИ, как к помощнику, у многих людей напоминает отношение суровых сибирских лесорубов к японской лесопилке из старого анекдота. Лесорубы совали в неё всё более толстые брёвна — и машина со всем справлялась. Тогда в неё засунули железный лом. Этого лесопилка уже не пережила. А лесорубы сделали вывод: ничего-то эта заморская техника не может.
С ИИ часто происходит то же самое. Либо «сделай всё и сразу», либо «ну нет, слабоват ты пока для серьёзных задач». А что если ИИ способен решить вашу задачу пусть не полностью, но процентов так на 80–90? И вы сами в этой сфере тоже несовершенны? Но области ваших ошибок с ИИ не совпадают! Что если, грамотно объединив с ним усилия, можно получить результат, близкий к 100% успеха?
Примерно так, как в фильме Moneyball (Человек, который изменил всё). Там три узкоспециализированных (а потому по отдельности посредственных) игрока, играя слаженно, смогли превзойти на поле одного игрока-суперзвезду. Который, разумеется, стоил в разы дороже их троих вместе взятых.
Именно такую технологию я и хочу передать в этой статье — эффективное использование пока ещё несовершенного ИИ-помощника. На примере создания схем бизнес-процессов. Пример выбран не случайно: на получившихся схемах очень наглядно видно наше с ИИ несовершенство по отдельности — и качественный результат, достигнутый совместно.

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.
Неделя выдалась насыщенной: китайцы выкатили MiniMax-M2.1 для кодинга и агентных задач, новая мультимодальная опенсорс LTX-2 и обновлённый Qwen-Image-2512. ИИ для документаций, озвучка текста в браузере и штрафы за нейро-видео.
Всё самое важное — в одном месте. Поехали!

Каждый январь нагрузка на инженерные команды растёт. Больше функций, ускоренные релизные циклы, повышенные требования к надёжности. Ваше новогоднее обещание наверняка звучало как «работать умнее, а не усерднее», но обычно это лишь утешительное клише, которое мы повторяем себе прямо перед тем, как снова засидеться допоздна, чиня сломанный пайплайн.
В 2026 году «работать умнее» наконец-то означает подключить агента к процессу.
Не для автодополнения. Не для подсказок. Для исполнения.
Вы описываете, что вам нужно, простым языком. Claude Code читает вашу кодовую базу, пишет продакшн-код, запускает тесты и интегрируется с вашими инструментами. Вы тратите меньше времени на шаблонный код и больше - на архитектурные решения.
Это руководство покажет вам, как строить реальные системы с Claude Code.

2025 год стал для ИИ временем отрезвления. Эпоха масштабирования подходит к концу. Эксперты сходятся во мнении, что простым увеличением данных и вычислительной мощности следующий качественный скачок не совершить. На первый план выходят новые архитектуры, компактные модели и принципиально иные подходы к обучению.
В 2026 году индустрия, похоже, даст ответ на вопрос, что ИИ может дать нам здесь и сейчас. Мы вступаем в эпоху прагматичного ИИ.
Попробуем разобраться, какие именно тенденции определят лицо ИИ в наступающем 2026-м году.

Проснулись, потянулись, зашли в новости, а там за ночь вышло пять новых нейросетей, две из которых уже успели устареть, пока вы чистили зубы. Добро пожаловать в реальность, где вчерашний прорыв сегодня годится только для мемов. Бедный Уил Смит и спагетти. Мы тут только-только привыкли к 2025-му, а индустрия уже вовсю пакует чемоданы в 2026-й.
Кажется, если моргнуть чуть дольше обычного, можно пропустить момент, когда ваш холодильник начнет писать код на Python.
Чтобы не потеряться в этом бесконечном параде релизов и не пытались гуглить ответы в Яндексе, мы собрали «Арсенал 2026». Это те инструменты, которые помогут не просто разобраться в мире ИИ, но и заставить его работать на вас, пока остальные всё еще пытаются правильно составить промпт для генерации котиков.
Разминайте пальцы и готовьтесь - сейчас будем смотреть на то, с чем мы влетаем в этот год.
Приятного прочтения!

Самый частый вопрос к тезису о том, что языковые модели не думают - чисто практический.
В предыдущей публикации я выдвинул тезис, который многих заставил почувствовать себя неуютно: большие языковые модели не мыслят. Они не рассуждают так, как это делает человек. Они лишь предсказывают следующий токен.
Самым частым возражением было не философское, а практическое:
«Если это правда, то как ИИ удается заниматься арифметикой?»
Сложение, вычитание, умножение - эти процессы кажутся точными, механическими и основанными на строгих правилах. Они выглядят полной противоположностью «размытому» предсказанию языка. Поэтому естественно предположить, что где-то внутри модели спрятан калькулятор или нечто очень на него похожее.
Но его там нет. Однако происходит кое-что весьма любопытное.

Недавно я решал задачу, которая знакома почти любому e-commerce: как поднять конверсию и апсейл вмагазине, где по бенчмаркам все и так «нормально».
Ограничение было простое: решение должно быть на базе ИИ. Мне было важно не «прикрутить чатик», а проверить, насколько зрелы ИИ‑агенты для продакшна, когда они работают с реальными данными, ограничениями и метриками.
Сразу обозначу рамки. Это не статья про то, как увеличить маркетинговый бюджет, переделать витрину или заняться дисраптом. Здесь ровно один фокус: может ли AI‑агент улучшить ключевые метрики: конверсию, средний чек и удержание, в классическом fashion e‑commerce.
Перед тем как строить решение, я разложил клиентский путь на этапы и посмотрел, где теряется конверсия. Самый болезненный участок оказался предсказуемым: переход из карточки товара в корзину. На этом шаге у клиента чаще всего включаются сомнения, размер, посадка, материал, и «с чем это носить». Про конкретный магазин не пишу по понятным причинам.

Разбираем архитектуру, не пугаем. LLM — полезный инструмент при адекватном использовании. Но если марафоните сутками — это сигнал.
Кризисная линия: 8-800-2000-122 (анонимно, 24/7).

Всё началось с вопроса коллеги: «А GigaChat вообще можно к n8n прикрутить?»
Мы посмотрели в список встроенных интеграций n8n. OpenAI — есть. Anthropic — есть. Mistral, Groq, Ollama — пожалуйста. GigaChat — а вот и нет.
«Ну значит нельзя», — сказал бы нормальный человек и пошёл дальше...

У вас есть GitHub ? Ставите Stars ?
Используя эту информацию можно многое про вас рассказать.
В статье вы прочитаете как обучить эмбединги для 300к GitHub репозиториев и как их можно подгрузить прямо в браузере используя WASM для создания рекомендаций.

Всем привет! В первой части мы разобрали теорию: почему LLM «забывают» информацию в середине промпта, как на это влияет архитектура внимания и при чём здесь ротационные кодирования (RoPE). Мы выяснили, что эффект Lost in the Middle — это закономерное следствие того, как устроены современные трансформеры и как они обучаются.
Но насколько всё плохо на практике? Если разработчик модели заявляет контекстное окно в 128k или даже 1M токенов — можем ли мы на него рассчитывать в реальном продакшене?
Во второй части мы переходим от теории к цифрам на бенчмарках. Мы разберём, почему стандартные тесты "иголка в стоге сена" (NIAH) безнадёжно устарели и как новые метрики вроде RULER и NoLiMa показывают реальное «рабочее» окно моделей, которое иногда в 60 раз меньше заявленного.
В финале этой статьи я соберу практические архитектурные принципы, которые помогают проектировать LLM-системы так, чтобы длинный контекст действительно повышал качество, а не превращался в источник ошибок.

Привет, Хабр!
Сегодня я расскажу про библиотеку Python River, которая позволяет обучать модели машинного обучения в потоковом режиме.
В классическом варианте мы собираем весь датасет целиком, делим на обучающую и тестовую выборки, обучаем модель, измеряем качество — и внедряем в прод. Здорово, если данных немного и они разом доступны. А если данные льются непрерывно?
Новые пользователи приходят каждый день, события генерируются каждую секунду. Модель в продакшене устаревает, если не переучивать её регулярно. Переобучение с нуля нарастающим объёмам данных — удовольствие ниже среднего: долго, ресурсозатратно, да и не всегда возможно, если данные бесконечны (например, поток кликов или показателей датчиков).

В прессе и X вирусится история Яаны Доган, Principal Engineer в Google, которая рассказала, как якобы Claude Code за час решил задачу, над которой целая команда трудилась примерно год. После вопросов и критики со стороны коллег, Яана написала ряд уточнений — и история стала даже более интересной. Давайте разбираться!

На некоторые вопросы ответить проще, чем на другие.
Много лет назад - больше, чем мне хотелось бы признать - в те времена, когда программное обеспечение устанавливалось с компакт-дисков, а для выхода в интернет нужно было ждать, пока модем дозвонится по телефонной линии, мы писали тексты с помощью текстовых процессоров.
Именно так Microsoft Word получил свое название: буквально версия текстового процессора от Microsoft. А до Word были терминальные редакторы вроде WordStar - которым, как известно, до сих пор пользуется Джордж Р. Р. Мартин.
В то время у нас были проверки орфографии. Гораздо более примитивные, чем современные инструменты в браузерах и приложениях.
Из руководства пользователя WordStar 4.0 - версии 1987 года, в которой до сих пор пишет автор «Игры престолов»: