Все потоки
Поиск
Написать публикацию
Обновить
798.58

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Triton FP8: реализация и автотюнинг GEMM/Attention под RTX 40xx/Blackwell

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров498

Привет, Хабр!

Я тут на досуге решил разобраться с 8-битными числами с плавающей запятой (FP8) и попробовать написать под них свои GPU-ядра на Triton. Зачем? Ну, новые ускорители от NVIDIA обещают невиданную ранее производительность на FP8 — вдвое больше операций, чем на FP16. Для тренировки огромных нейросетей это прям манна небесная: меньше памяти, больше скорость. Но, конечно, всё не так просто.

Сам по себе FP8 формат капризный, требует тщательного подхода: два разных варианта чисел (E4M3 и E5M2), масштабирование (скейлинг) тензоров, аккуратное накопление сумм в FP16/FP32, разбиение вычислений на тайлы под размер быстрого SRAM (shared memory) и даже специальные меры против переполнения. В общем, нюансов хватает. Расскажу, что узнал и как реализовал GEMM (умножение матриц) и внимание (Attention) в FP8 на языке Triton, да ещё и с автотюнингом.

Перейти к материалу

Понимание оценки LLM: детальный разбор 4 основных подходов

Время на прочтение26 мин
Количество просмотров767

Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

Для каждого метода есть описание и код реализации с нуля, которые отлично показывают, что под капотом у каждого из методов оценки. И такой материал заслуживает того, чтобы быть на русском языке, поэтому я сделал качественный перевод, включая ключевые картиночки. Объёмные блоки кода скрыты за спойлерами, основные схемы переведены — если вы интересуетесь оценкой LLM (ее еще называют evals), то будет интересно.

Важное уточнение: статья позиционирует себя как «создание с нуля» (from scratch), и для этой цели она отлично подходит. Однако, будучи глубоко погружённым в эту тему, я посчитал многие моменты достаточно базовыми. Поэтому финальные выводы с radar-диаграммой и таблицей плюсов-минусов я вынес в самое начало — это отличный способ быстро освежить знания и систематизировать понимание для тех, кто уже глубоко в теме. И продублирую идею о том, что в реальной жизни под конкретную задачу стоит создавать свой бенчмарк и замеряться именно на нем.

В остальном — из песни слов не выкинешь, всё переведено как в оригинале, и это действительно отличный материал. Дальше будет именно он.

Читать далее

Как камеры с ИИ помогают бизнесу

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.6K

Машинное зрение давно вышло за рамки научной фантастики и сегодня активно используется в бизнесе. Камеры наблюдения, которые ещё недавно служили только для безопасности и архивирования происходящего, теперь становятся источником ценной информации.

С их помощью можно не просто «смотреть» за происходящим, а собирать данные о поведении людей, загрузке оборудования и эффективности процессов.

Всё это помогает принимать управленческие решения быстрее и точнее.

Читать далее

Бесконечность в ваших данных – power laws

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.5K

Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.

Читать далее

Как управлять интернетом вещей с помощью LLM

Время на прочтение4 мин
Количество просмотров3K

ИИ сегодня уверенно распознаёт тексты, пишет программный код и подсказывает сложные решения — но как только его просят поработать с реальными датчиками или «умным» домом, всё становится неожиданно сложно. Один и тот же датчик может передавать данные в разных форматах, соединения обрываются, взаимодействие превращается в квест с кучей костылей и кастомных скриптов.

Однако совсем недавно инженеры предложили элегантное решение этой застарелой проблемы: не добавлять «ещё один слой» или велосипедить интеграции, а полностью переосмыслить, как LLM взаимодействуют с миром железа. В основе нового подхода — чистая, структурная логика, где роли чётко распределены и всё работает более похоже на реальную команду, чем на беспокойную толпу серверов.

Почему это важно? Такой сдвиг — не просто удобство для разработчиков, а первый реальный шаг к тому, чтобы ИИ начал по-настоящему работать с физическим миром. Как это получилось, где скрыты ключевые идеи и почему новая архитектура может стать стандартом для всего IoT — рассказываю простыми словами.

Читать далее

ChatGPT как главный маркетплейс планеты: разбираем OpenAI Agentic Commerce Protocol

Время на прочтение10 мин
Количество просмотров4.8K

Не так давно OpenAI анонсировала Instant Checkout и затем опубликовала Agentic Commerce Protocol — два важных изменения, которые могут качественно повлиять на то, как будет выглядеть еком в ближайшие несколько лет. А может и нет.

Однажды в интервью продуктологов OpenAI я прочитал важную мысль про подход к запуску новых продуктов — «мы трясем яблоню и смотрим что упадет». Можно любить OpenAI и не любить, любить LLMки и нет (лучше — любить), но все, что делает OpenAI неизбежно долгосрочно оказывает влияние на всю индустрию, поэтому совсем пройти мимо такого интересного события — не хотелось.

И как говорил мой англоговорящий друг: «Is that just hype, low hanging fruit, or a real game changer?» (хороший вопрос, кстати).

Попробуем разобраться что внутри и куда движет еком, сравнив в том числе с тем, что делает Google.

Читать далее

Паттерны программирования при работе с LLM

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров8.9K

LLM - мощный инструмент, но его эффективность в продакшене зависит не от одного «хитрого промпта», а от всей архитектуры: что мы даём модели, как управляем её рассуждением и как проверяем/обрабатываем результат. В этой статье - компактная карта паттернов, разбитая по этапам конвейера: Input -> Reasoning -> Output.

Читать далее

От GPT-2 к gpt-oss: анализ достижений архитектуры

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров4.1K

📝 Описание

На этой неделе разбираем релиз GPT-OSS — первых полностью открытых моделей OpenAI с момента GPT-2 в 2019 году. Две модели: gpt-oss-20b и gpt-oss-120b представляют собой современные LLM с архитектурой MoE (Mixture of Experts), оптимизированные для рассуждений и способные работать на одном GPU благодаря квантованию MXFP4.

Читать далее

Как встроить нейроинтерфейс для управления ИИ-приложением: от электроники до API

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.2K

Когда мы говорим «нейроинтерфейс», большинство сразу представляет себе что-то вроде Neuralink или фантастические сцены из «Джонни Мнемоника». Но на деле между идеей и практикой — не пропасть, а куча микроконтроллеров, кода, биопотенциалов и кофе. В этой статье я покажу, как можно построить рабочий прототип интерфейса «мозг → ИИ-приложение» — начиная от электродов и аналоговых фильтров, заканчивая API, которое передаёт сигналы в модель машинного обучения.

Читать далее

Как ИИ меняет поиск людей и построение социальных связей

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров925

Сегодня - о новом подходе к поиску людей и построению социальных связей через искусственный интеллект.

В качестве примера в этой статье я использую наш проект Linkeon. Воспринимать его как единственно возможное решение, конечно, не стоит.

Проблема: поверхностность современных социальных сетей

Современные социальные сети и сервисы знакомств решают задачу соединения людей через примитивные критерии: возраст, внешность, геолокацию, общие интересы. Но эти критерии не отражают глубинные ценности и намерения людей.

Когда мы ищем партнера для бизнеса, единомышленника для проекта или просто близкого по духу человека, нам важны не хобби и внешность, а то, что движет человеком изнутри. Его ценности, убеждения, жизненные цели и намерения.

Классическая проблема: мы тратим месяцы на общение с людьми, которые на первый взгляд подходят нам, но в итоге оказываются на совершенно другой "частоте". Разные ценности, разные цели, разные представления о жизни.

Особенно остро это проявляется в профессиональной сфере:

В своей предыдущей статье о ключевых качествах сотрудников я писал, что для меня критически важными являются мотивация и обучаемость. Но посмотрите на любую платформу поиска работы - hh.ru, LinkedIn, SuperJob. Там вообще нет полей для этих качеств!

Система ищет по навыкам, опыту, образованию — но не по тому, что действительно определяет успех сотрудника в долгосрочной перспективе. В итоге HR‑менеджеры тратят кучу времени на собеседования, пытаясь понять, подходит ли кандидат по «мягким» навыкам, которые невозможно оценить по резюме.

Читать далее

Запускаем Qwen3-VL-30B на 48GB VRAM

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров6K

Недавно вышла коллекция моделей от Alibaba - Qwen3-VL:

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

Запустим эту модель на Ubuntu

Как выжать максимум смысла из тысяч строк кода

Время на прочтение4 мин
Количество просмотров2.4K

Сколько смыслов можно уместить в тысяче строк кода? Этот вопрос становится совсем не теоретическим, когда к делу подключаются современные LLM — им всё чаще приходится разбираться в огромных проектах, где важно не просто “прочитать всё”, а вытащить из бесконечного кода именно то, что нужно. При этом стандартные методы экономят время и память… но нередко теряют самую суть, упуская важные связи между частями программы.

В свежей работе исследователи предлагают неожиданно простой трюк: вместо того чтобы скармливать модели лишние мегабайты, они аккуратно выжимают из репозитория только те фрагменты, которые реально двигают модель к правильному ответу. При этом смысл сохраняется, а мусор уходит.

Оказалось, даже совсем не обучая модель и не вникая во внутренности LLM, можно кратно повысить скорость и снизить стоимость анализа длинного кода — и иногда добиться даже лучшего качества. Как это работает, почему эффект оказался внушительным и к каким деталям тут всё сводится — разбираемся на примере LongCodeZip.

Читать далее

Призрак в машине: ИИ-подделка и аура в эпоху алгоритмической воспроизводимости

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров956

В данном случае отсылки в заголовке к знаменитой работе Вальтера Беньямина 1936 года «Произведение искусства в эпоху его технической воспроизводимости» отнюдь не случайно. Мы окружены подделками и поделками. Крупные издательства выпускают научно-популярные и художественные книги российских авторов под видом зарубежных (недавно про наиболее вопиющие случаи писали СМИ, без ИИ тут явно не обошлось). Дипфейки известных актеров и политиков заливаются в сеть сотнями каждый день. Нейротворчество выдают за созданное человеком. На Хабре появилась целая когорта пользователей, пытающихся отделить человеческие статьи от машинных.  

В мае 2025 года я опубликовал статью на Хабре «Аркадий Стругацкий против Deepseek и ChatGPT: как ИИ повлияет на художественный перевод», тогда разгорелась нешуточная дискуссия о роли переводчика в эпоху искусственного интеллекта. Я решил продолжить дискуссию, на этот раз поговорить о той самой ауре, которой должны обладать произведения искусства и тексты. 

Читать далее

Ближайшие события

«LLVM для AI». Крис Латтнер и язык программирования Mojo

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров6K

Крис Латтнер (Chris Lattner) — создатель CPU-компилятора LLVM и соавтор Swift — предложил новый язык программирования Mojo, спроектированный для одновременного программирования CPU, GPU и TPU (тензорные ядра, оптимизированные для матричного умножения, а это и есть инференс LLM), без всяких лишних библиотек типа CUDA, ROCm и XLA.

Mojo — это надмножество Python с производительностью С и потенциальная замена Rust. Код на нём легко переносится между различными GPU, при этом платформа Modular быстрее обновляется под новые модели GPU, чем сама Nvidia выпускает обновления для своего софта (новые attention kernels).

Простой и мощный язык для написания и деплоя LLM-приложений независимо от оборудования (AMD, Nvidia, Intel и проч.), с метапрограммированием во время компиляции и прочими штуками. Что-то вроде единой «LLVM для AI». Унифицированная программная платформа, которая запускается на любом железе. Это ещё и самый простой способ ускорить Python-приложение в 10−1000 раз, не переписывая его фрагменты на Rust или C++ (что по сути делают NumPy и PyTotch).

Читать далее

ИИ и развёртка в фотонику

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.5K

Всем очевидно: индустрия ИИ стремительно развивается. Но здесь появляется одно гигантское слоноподобное НО. В последнее десятилетие лидеры ИИ предпочли развиваться экстенсивно - то есть, например, ЛЛМ максимизируют объём моделей. Это в свою очередь тянет за собой целую цепочку гигантских затрат: от электростанций до передовых числодробилок. Из последнего - xAI готовится запустить вычислительную фабрику мощностью 1 ГВт с 500-ми тысячами видеоускорителей! Можно по разному относиться к хайпу вокруг ИИ, но очевидно одно - есть много желающих вкладываться по полной программе в эти технологии. И, возможно, впоследствии экстенсивный рост перейдёт в интенсивный, то есть количество перейдёт в качество. Проблема только в том, что на низком уровне - уровне железа - техника подходит к физическим пределам. И если не сменить парадигму и физическую основу, то поддерживать развитие индустрии никакими средствами кроме масштабирования не получится.

Читать далее

Как мы улучшили персональный музыкальный поток с помощью контекстного многорукого бандита

Время на прочтение9 мин
Количество просмотров645

Музыкальные стриминговые сервисы давно перестали быть просто «цифровыми полками» с треками — они превратились в персонализированные медиаплатформы, на которых ключевую роль играют рекомендательные системы. От Spotify и Apple Music до Яндекс.Музыки, VK Музыки и Звука — все они стремятся не просто хранить музыку, а предугадывать, что пользователь захочет услышать прямо сейчас. Рекомендации покрывают большое количество различных сценариев: плейлисты дня, подборки новинок, экспериментальные плейлисты в смежных для пользователя жанрах и многое другое. 

В этой статье мы хотим обсудить один из самых часто используемых и один из самых сложных с технической точки зрения сценариев: персональный поток треков (Персональная Волна).

Читать далее

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

Уровень сложностиСложный
Время на прочтение24 мин
Количество просмотров430

Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru.

В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач.

В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или vLLM Production Stack, подсветим, где разбросаны грабли в этом деле, а еще заглянем под капот к Cloud.ru Shared GPU и объясним, как именно он позволяет нам ставить цены на уровне западных облаков при кратно более дорогом железе в РФ.

ML-инженеры, DevOps и MLOps-архитекторы, можете сразу добавлять в закладки, чтобы возвращаться и списывать нужные конфиги. Наливайте бочку чая или чего покрепче, постарался изложить все сугубо по делу, много кода спрятал в «раскрывашки», так что не пугайтесь обозначенного выше времени чтения.

Читать далее

Три пути к 4K: выбираем свой инструмент для нейросетевой реставрации видео

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.3K

Превратить старое видео из 480p в кристально чистое 4K сегодня может каждый. Но какой ценой? Пока одни инструменты подкупают простотой и мощными моделями вроде Starlight, другие предлагают безграничную гибкость open-source, а третьи — ультимативную скорость обработки, требуя взамен технических знаний.

В этом большом сравнении мы сталкиваем лбами три разных подхода к AI-апскейлингу, а также даём несколько практических советов.

Читать далее

Зоопарк фреймворков для AI-агентов: как выбрать подходящий — делаем бенчмарк и большое сравнение

Время на прочтение10 мин
Количество просмотров7.1K

Привет! В этой статье я детально разберу основные фреймворки для AI-агентов, попробую их побенчить и детально распишу их плюсы и минусы. Если вы подступались к агентам, то первым вопросом наверняка стало «а на чем их делать?». Отовсюду все говорят про langchain и десяток других фреймворков, звучат аббревиатуры типа MCP и A2A, какие-то Swarmы и CrewAI, мультиагентность и самое всякое разное.

Давайте попробуем все это разложить по полочкам, потестировать, замерить и собрать материал, который поможет за раз во всем разобраться. А в качестве задачи мы возьмем мой проектик, который я с удовольствием поделываю в качестве развлекухи по ночам: сложный выбор товаров на маркетплейсах LLMкой.

Что будем тестировать: LangChain, LangGraph, AutoGen, CrewAI, OpenAI Swarm, LlamaIndex, MetaGPT, ControlFlow, Haystack, Phidata, Pydantic AI, smolagents, DSPy, SuperAGI, Semantic Kernel, Claude Agent SDK

Читать далее

Борьба с дисбалансом классов. Стандартные методы

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.5K

Привет, Хабр! На связи KozhinDev, а именно ml-разработчик Приходько Александр. Этой статьей я начну цикл публикаций по теме борьбы с дисбалансом классов. В первую очередь этот гайд предназначен для ml-разработчиков уровня junior/middle. Мы ознакомимся с различными подходами к решению проблемы дисбаланса классов и проведем их сравнительный анализ на сгенерированной выборке: коснемся метрик качества, встроенных в классификаторы методы борьбы с дисбалансом классов, методы модификации выборки, а также комбинированные техники. В последней части мы расскажем про наш опыт применения кастомных метрик точности, как еще один метод борьбы с дисбалансом.

Читать далее

Вклад авторов