Все потоки
Поиск
Написать публикацию
Обновить
856.2

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Какое в Китае есть ИИ-железо. Насколько эти чипы мощные в сравнении с моделями Nvidia / AMD

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.2K

Из-за экспортных ограничений США, китайские производители AI-чипов переманивают бывших сотрудников Nvidia и активно развивают свое железо.

В обзоре рассмотрим на самые перспективные стартапы в области разработки ИИ-железа (Cambricon, Baidu, Huawei, Moore Threads, Enflame, MetaX), разберем самые известные чипы этих компаний, сравним их с чипами от Nvidia и AMD.

Читать далее

ИИ как соавтор: как агенты меняют науку прямо сейчас

Время на прочтение4 мин
Количество просмотров1.8K

Пару лет назад казалось, что искусственный интеллект в науке — это про умных помощников: они сортируют данные, визуализируют графики, подсказывают формулы, но остаются просто искусными руками для человека. Но теперь всё меняется. На горизонте появился новый герой — научный агент. Он уже не ждет указаний, а сам берется за чтение статей, формулирует свежие гипотезы, ставит эксперименты, а если что-то идет не так — может сам себя скорректировать. Такой ИИ — это не просто ассистент, а почти полноценный соавтор в лаборатории. Пока одни ученые еще скептически приглядываются к этой идее, в биологии, химии и материаловедении научные агенты уже совершают реальные открытия. Кажется, научный цикл меняется прямо на наших глазах.

Читать далее

ML Q & AI. Глава 8. Успех трансформеров

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.8K

← Предыдущая глава | 

В чём секрет успеха трансформеров?

В последние годы трансформеры стали самой успешной архитектурой нейронных сетей, особенно в задачах обработки естественного языка. Теперь они близки к тому, чтобы стать SOTA для задач компьютерного зрения тоже. Успех трансформеров обусловлен несколькими ключевыми факторами: их механизм внимания, возможность легкой параллелизации, предварительное обучение без учителя и большое количество параметров.

Читать далее

Schema Guided Reasoning: метод структурированного рассуждения AI

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.3K

📝 Описание

Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning), многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов.

🔍 Ключевые особенности

- Структурированные выводы: типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа.
- Три паттерна рассуждения: Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений.
- Constrained decoding: CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации.
- Мультиагентная архитектура SG²: разделение на модуль рассуждений и модуль извлечения с программным доступом к графу.
- Программное извлечение: генерация Python-кода для обхода scene-graph вместо жёстких API.
- Снижение галлюцинаций: разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы.
- Совместимость: OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.).

Читать далее

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров607

📝 Описание

Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning), многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов.

🔍 Ключевые особенности

Структурированные выводы: типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа.
Три паттерна рассуждения: Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений.
Constrained decoding: CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации.
Мультиагентная архитектура SG²: разделение на модуль рассуждений и модуль извлечения с программным доступом к графу.
Программное извлечение: генерация Python-кода для обхода scene-graph вместо жёстких API.
Снижение галлюцинаций: разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы.
Совместимость: OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.)

Читать далее

Долгая дорога к DiT (часть 1)

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров987

Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи архитектуры Diffusion Transformer (DiT). Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.

Читать далее

Fine-tune Qwen3 Embeddings для классификации категорий товаров

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.7K

Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста.

Читать далее

Очеловечить компьютер: как развивалось машинное обучение в середине XX века

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров1.3K

Согласно хрестоматийной хронологии машинного обучения, в 1952 году, то есть спустя год после того, как Минский и Эдмондс собрали и испытали свой SNARC, сотрудник компания IBM Артур Самюэль написал программу для игры в шашки с компьютером IBM 701. С точки зрения математики это было, как говорится, из другой оперы, скорее статистики и теории игр, но с точки зрения машинного обучения это считается теперь одним из краеугольных камней, заложенных в фундамент машинного ИИ, да и введение в оборот самого термина Machine Learning ставят в заслугу именно Самюэлю.

Читать далее

Интерпретация и оптимизация перцептрона Розенблатта

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров1.9K

В прошлой статье на Хабре «На дворе LLM, а книгу о перцептроне так никто и не открыл!?» я указал, что многие понятия не имеют о перцептроне Розенблатта, но пишут о нем так как будто читали оригинал. И так или иначе в комментариях прошла дискуссия, как минимум с тремя оппонентами, которые тоже находятся в разного рода не знании о перцептроне. Что только подтверждает мои слова, что это массовое явление. Поэтому даже в научной статье мне придётся этому уделить не малое внимание. Свою статью, я еще не опубликовал, да ещё полностью и не написал, хотя все эксперименты были сделаны 15 лет назад, а сейчас их нужно улучшить. Собственно, когда я сам стряхнул пыль с них, я долго не мог по программному коду понять, о чем это, что это дает, так и возникла моя мысль, что это нужно донести людям. И подумал, почему бы мне некоторые разделы будущей статьи, сразу не взять и не опубликовать тут на Хабре. Имея широкий охват, это может иметь даже большую пользу, чем публикация в модерируемом издании. Поэтому ниже я дам выдержки из своего черновика статьи «как есть», относящиеся в основном к «утерянной памяти о перцептроне», но т.к. как это часть научной статьи, настоятельно прошу при цитировании ссылаться на меня. Хотя и понимаю, что выдержки не дадут вам полного понимания проблемы, но как минимум расскажут о известных фактах и надеюсь, все же уберегут от поверхностного взгляда. Ну и мало ли — если тут найдется специалист, который публикуется на https://arxiv.org последние 5 лет, мне нужна ваша помощь с рекомендацией, свяжитесь со мной. Тогда полноценная статья выйдет быстрее.

Но прежде, чем начать, я хочу, в отличии от прошлой своей статьи на хабре, похвалить автора статьи Всё, что вы хотели знать о перцептронах Розенблатта, но боялись спросить, которая вселяет надежду, что люди все таки читают оригиналы, и не живут мифами. А за информацию о биографии Розенблатта — отдельное спасибо, таких подробностей я не знал. Очень рекомендую прежде, чем читать дальше.

Читать далее

Методы интерпретации на основе вмешательства в CV: RISE implementation

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров522

Привет, друзья! Добро пожаловать в новый туториал из серии практических материалов по explanable AI (интерпретируемости моделей). Он посвящен методу интерпретации на основе вмешательства — RISE. В этом материале разобрана теоретическая постановка метода, подчеркнуты красивые математические идеи и переходы, и, конечно, реализован код для практики. Приглашаю к чтению! Ноутбук к туториалу доступен на гитхаб.

Читать далее

Что такое детерминизм и как с ним бороться?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров5.8K

Привет, Хабр!

Много лет можно наблюдать один и тот же ритуал: человек берёт фиксированный seed, торжественно записывает его в три места, запускает обучение и искренне ожидает, что всё будет повторяться до бита. А потом accuracy скачет на третьем знаке, лосс уплывает и приходит вопрос: «Почему не детерминируется?» А потому что детерминизм в ML это не один флажок. Это сумма десятка мелких факторов, от выбора алгоритма в cuDNN до порядка файлов в каталоге.

Читать далее

Машинное обучение в финтехе

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.4K

Привет, Хабр! Машинное обучение в финансовой сфере — это полноценный инструмент, который уже меняет подходы к анализу данных, принятию решений и автоматизации процессов. Как именно эта технология работает, и какие конкретные задачи она решает? Поговорим об этом в этой статье.

Читать далее

Vision Language World Model: язык как картина мира

Время на прочтение4 мин
Количество просмотров460

До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.

Читать далее

Ближайшие события

Три сказа о построении RAG: От выбора модели до форматирования базы знаний

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров6.5K

Привет! Меня зовут Александр Золотых, уже два года я работаю во ВкусВилле разработчиком ИИ-решений. В этой статье хочу рассказать, как мы сделали карманного консультанта по клиентократии — и зачем вообще он понадобился.

ВкусВилл работает по клиентократии — модели управления, которую развивает и распространяет система управления  Beyond Taylor. Основная особенность клиентократии — фокус на клиенте, когда все процессы компании выстраиваются для удовлетворения его потребности. Модель инновационная: погружаешься, и возникает множество вопросов. Конечно, лучше спросить и узнать, чем не спросить и не узнать, но не всем и не всегда это просто. Значит, нужно снижать порог входа и сделать описание модели ближе к изучающему.

Именно из этого понимания у нашей команды и появилась идея карманного консультанта — инструмента, который готов отвечать на все «глупые» и каверзные вопросы. Мы поделились замыслом с коллегами из Beyond Taylor, получили их поддержку и приступили к реализации. Так родилась наша первая задача с тем, что сейчас называется RAG (Retrieval-Augmented Generation).

Конечно, есть готовые решения (Notebook LM, Нейроэксперт), но они имеют несколько минусов:

Читать далее

Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов

Время на прочтение2 мин
Количество просмотров198

Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.

В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :-)

Читать далее

Как за год вырастить персонализацию на главной: эволюция рекомендаций в fashion ecom

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров766

Привет, Хабр! Меня зовут Данил Комаров, я дата-сайентист в команде персонализации Lamoda Tech. Уже больше года мы меняем подход к рекомендациям на главной странице, делая их персонализированными. Я расскажу, как мы внедряли и масштабировали решение, переводили его из оффлайна в онлайн, и бустили систему на разных слоях.

Читать далее

Почему Text-to-SQL до сих пор ломается и как это исправить

Время на прочтение3 мин
Количество просмотров3.5K

Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?

В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.

Читать далее

Нейро-дайджест: ключевые события мира AI за 1 неделю сентября 2025

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.8K

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.
Меня зовут Вандер, и каждую неделю я обозреваю новости о нейросетях и ИИ.

Неделя выдалась интересной: xAI выкатила Grok Code Fast 1, Microsoft показала первую LLM. Громкий релиз nano-banana, Anthropic тестирует Claude в Chrome, Krea показывает реалтайм-видео, а YouTube тихо апскейлит ролики.

Всё самое важное — в одном месте. Поехали!

Читать дайджест →

«Переиграл и уничтожил»: занимательные исследования промпт-атак

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

Недавно в блоге Beeline Cloud мы рассказывали про open source-проекты, которые могут помочь с разработкой ИИ-агентов. Посмотрим на тему ИИ-агентов с другой стороны и разберем исследования, посвященные промпт-атакам — их авторы рассматривают новые способы обхода фильтров, ищут слабые места в генерации ответов и подбирают особые формулировки, призванные сбить LLM с толку.

Читать далее

Semantic RAG – как научить AI-ассистентов понимать, а не угадывать

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров6.7K

Одна из самых распространённых задач для AI-ассистента — поиск ответов на вопросы. Пользователи ожидают, что он сможет находить информацию во внутренних wiki, базах знаний техподдержки, Word-документах, Excel-файлах и других корпоративных источниках.

Сегодня такой поиск чаще всего реализуется с помощью подхода Retrieval-Augmented Generation (RAG). Суть проста: сначала ассистент находит фрагменты документов, которые кажутся релевантными запросу, и уже на их основе формирует связанный ответ.

На первый взгляд схема выглядит логичной. Но на практике у классического RAG есть целый ряд ограничений, которые быстро дают о себе знать при реальных внедрениях. В этой статье мы разберём основные проблемы и покажем, как можно их обойти.

Читать далее

Вклад авторов