Обновить
737.98

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

K-VAE токенизатор от Сбера

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.7K

В Сбере, в Управлении базовых моделей Kandinsky были разработаны токенизаторы KVAE как для изображений, так и для видео, превосходящие state-of-the-art аналоги как по объективным метрикам (PSNR), так и по качеству генерации.

Прямое назначение этих моделей: декодирование и формирование латентного пространства для диффузионных моделей, к которым относится Flux, Wan, StableDiffusion и другие. Качество генераций этих моделей напрямую зависит от выбранного токенизатора.

В посте приведены подробности разработанного решения, которое будет полноценно представлено в рамках AIJourney 2025.

Читать далее

ИИ в инфобезе: от генерации фишинга до анализа уязвимостей

Время на прочтение5 мин
Охват и читатели6.7K

Искусственный интеллект (ИИ) меняет мир быстрее, чем мы успеваем к этому привыкнуть — от генерации картин и текстов до управления машинами и защитных систем. Теперь он добрался и до киберпространства, где стал оружием и для специалистов по безопасности, и для хакеров. Большие языковые модели вроде GPT и Llama превратили ИИ в универсальный инструмент: он помогает атаковать и защищаться, меняя сами правила цифровой войны. Это уже реальность, в которой алгоритмы задают темп. Давайте разберемся, как именно ИИ применяется по обе стороны баррикад, какие технологии за этим стоят и к чему все это ведет.

Читать далее

Как сделать нейросети понятнее: эксперимент OpenAI с разреженными моделями

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.4K

Команда AI for Devs подготовила перевод исследования OpenAI о том, как обучение разреженных моделей может сделать ИИ более прозрачным. Авторы показывают: если заставить модель использовать меньше связей, внутри неё появляются понятные цепочки вычислений, которые можно изучать и проверять. Это может стать шагом к созданию мощных, но интерпретируемых систем.

Читать далее

Как обучить ИИ работать за компьютером

Время на прочтение3 мин
Охват и читатели7.9K

ИИ-агенты всё лучше справляются с решением тестов на общее развитие, поиском информации, рисованием картинок и даже программированием, но вот с интерфейсами на рабочем столе они пока не очень. Оказывается, реальные пользовательские интерфейсы с сотнями мелких элементов, шумом и похожими иконками — всё ещё сложное испытание. Количество опций на экране слишком велико для тривиального перебора, так что агенту надо понимать, что происходит на экране и где именно тот элемент, который нужен по инструкции пользователя.

Как ни странно, но не большие обезличенные датасеты делают агента умнее, а много человеческой и плотной разметки. Вместо миллионов сгенерированных картинок откуда‑то взятые десятки тысяч реальных сценариев использования с ручным выделением и подписью каждого элемента. Почему это важно и что это меняет для разработки агентов — давайте разбираться на примере нового исследования.

Читать далее

ИИ в программной инженерии: обзор практик, инструментов и проблем

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели9.3K

Привет, Хабр! Меня зовут Николай Бушков, я работаю архитектором в команде Engineering Productivity R&D в Т-Банке (группа «Т-Технологии»). В начале лета я выступал на конференции MTS True Tech Day c докладом «Не эксперимент, а стратегия: путь к системному использованию AI в SDLC». А сейчас хочу поделиться текстовой версией описания сценариев использования искусственного интеллекта (ИИ) в программной инженерии, которые реализуются у нас в компании. Уверен, наш опыт будет полезен многим для генерации и фильтрации идей применения ИИ, а также сравнения их с положением дел в ваших рабочих процессах. В конце статьи кратко сформулирую наше видение дальнейшего развития и приглашу поучаствовать в  исследовании ИИ в инженерной культуре России.

Читать далее

Open source-стратегии: как Сбер сегодня развивает AI/ML-технологии

Время на прочтение11 мин
Охват и читатели3.5K

На днях со мной согласился поговорить Максим Савченко, управляющий директор Центра практического искусственного интеллекта Сбербанка (Sber AI Lab).

Кстати, 29 ноября коллеги собирают большое мероприятие «Open Source & AI Agents», где поделятся опытом DS-специалисты, исследователи и бизнес-лидеры. Там можно пообщаться с экспертами из индустрии, а если захотите выступить с докладом, организаторы открыты к предложениям (контакты — в конце поста).

Далее делюсь расшифровкой нашего разговора по теме open source-подхода.

Читать далее

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

Время на прочтение13 мин
Охват и читатели15K

Допустим, вам нужно протестировать LLM на сотни миллиардов или почти триллион параметров в локальной среде — на своих данных, которые вы не хотите отдавать в облако. Задача сводится к сравнительным экспериментам или вообще к развертыванию решения внутри своей сети под небольшую нагрузку, если пользователей мало. Масштаб этих моделей ведет к проблеме: памяти одной видеокарты не хватит, а использование серверов с несколькими GPU может повлечь большие расходы на инфраструктуру.

В таких случаях альтернативой становится запуск LLM на центральном процессоре (CPU), который хотя и медленнее GPU, но гораздо дешевле. Например, если сервер с двумя CPU обойдется за месяц в 150 000 ₽, то сервер с GPU — более 700 000 ₽. Конечно, сервер с GPU может «прожевать» больше запросов. Но если вам столько не надо?

Привет, Хабр! Меня зовут Никита Староверов, я системный архитектор в Selectel. В этой статье рассмотрю, насколько реалистично запускать современные крупные языковые модели исключительно на CPU. А еще — покажу, какие инструменты и подходы позволяют загружать и выполнять такие модели, какие требования к железу и насколько производительность системы остается приемлемой для практического использования.

Читать далее

Anthropic зафиксировали первый официальный случай крупной кибератаки, выполненной с помощью ИИ

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели11K

Команда AI for Devs подготовила перевод статьи о первой зафиксированной кибератаке, почти полностью выполненной ИИ. Атака, где человек нужен лишь для того, чтобы пару раз «подтвердить заказ», — и это уже не фантастика, а реальность 2025 года.

Читать далее

Нейро-дайджест: ключевые события мира AI за 2-ю неделю ноября 2025

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9.6K

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.

Неделя выдалась насыщенной: китайцы выпускают ERNIE-4.5-VL и Kimi K2, релизы от ElevenLabs, Google построит датацентры в космосе в 2027, а Сэм Альтман собрался назанчить нейронку на пост CEO OpenAI.

Всё самое важное — в одном месте. Поехали!

Читать дайджест →

Как мы собрали ML-платформу на Kubernetes и не утонули в YAML

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели7.6K

Инфраструктура для машинного обучения — это не просто «поставить кубер и Jupyter». Любая команда, которая пыталась собрать MLOps-стек с нуля, знает: в теории всё просто, а на практике — год возни, YAML на сотни строк и бесконечные танцы с GPU-драйверами. Мы через это тоже прошли.

Так появилась Nova AI — новая редакция нашей платформы Nova, адаптированная под задачи искусственного интеллекта и машинного обучения. Базовая Nova уже несколько лет используется компаниями как Kubernetes-платформа для оркестрации контейнеров и управления инфраструктурой. Но в какой-то момент стало ясно: если поверх этого ядра добавить GPU Operator и специализированные ML-сервисы — такие как JupyterHub, MLflow, Airflow и KServe, — получится полноценная среда для ML-команд.

Меня зовут Никита Векессер, я лидер продукта Nova AI, и в этой статье будет инженерный разбор того, как мы собрали новую редакцию продукта: из чего она состоит, как устроено управление компонентами, как реализовано дробление GPU и почему мы сделали ставку на модульность, а не на монолитный стек вроде Kubeflow.

Читать далее

Как продакту выжить в мире ИИ-фичей

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.5K

Привет! Меня зовут Миша Хаджинов — я продакт в DS-департаменте Авито и уже более семи лет занимаюсь разработкой продуктов на основе технологий машинного обучения и LLM. За это время успел пройтись по всем возможным граблям, поэтому решил поделиться опытом, как их можно было бы избежать. Расскажу о рабочем пайплайне, который поможет добиться успеха в разработке с первого раза. Статья будет полезна продактам, которые сталкиваются с ИИ впервые, а также разработчикам без профильной экспертизы.

Читать далее

3I/ATLAS: что нового и что важно знать о межзвёздной комете

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели47K

3I/ATLAS — третий известный межзвёздный объект, редкий гость из-за пределов нашей Солнечной системы. Его впервые обнаружили 1 июля 2025 года с помощью телескопа ATLAS в Чили. Официальная точка зрения, поддержанная NASAESA и большинством астрономов: 3I/ATLAS — естественная комета, третий подтверждённый межзвёздный объект после ‘Oumuamua и кометы 2I/Borisov.

Но не все в этом уверены. Некоторые полагают, что необычные свойства объекта открывают дорогу более экзотическим объяснениям.

Читать далее

Небольшой экскурс в историю, или почему хз самый частый ответ в мире ИИ

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели13K

Из этой главы любознательный читатель извлечет несколько фактов по истории вопроса, поймет за что нынче дают Нобелевские премии по физике и узнает почему на почти любой вопрос в мире ИИ — ответ «да хрен его знает»...

Читать далее

Ближайшие события

LLM vs. почерк: практическое сравнение GPT-5, Gemini и Claude в задачах OCR

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели8K

Распознавание рукописного текста — задача, которая остаётся болезненной даже в 2025 году. Именно это не позволяет оцифровать многие архивы и документы, а также является камнем преткновения в разной бизнес деятельности.

Производители заявляют, что модели вроде GPT-5, Gemini 2.5 Pro и Claude Sonnet 4.5 способны не просто распознать почерк, но и догадаться, что автор имел в виду: исправить пунктуацию, восстановить сокращения, даже понять, что стоит за пометками на полях.

Звучит красиво. Но работает ли это на реальных документах?  Чтобы ответить, мы провели исследование и сравнили, как три топ-LLM обрабатывают рукописные и смешанные документы — с точки зрения точности, структурной консистентности и понимания контекста.

Читать далее

Используем агентов LLM для миграции кода

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели4.8K

Агенты LLM меняют подходы разработчиков к миграции кода, превращая утомительные, подверженные ошибкам рефакторинги в интеллектуальные, полуавтоматизированные рабочие процессы. В этой статье мы показываем, как с помощью агентов перенести кодовую базу Java на TypeScript, проанализировав код, спланировав шаги и выполнив изменения с учетом архитектурных особенностей и проверки на основе CI.

Читать разбор

Сила оттенков серого: компьютерное зрение с нуля

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели16K

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO. Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды.

Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли?

Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

Читать далее

Как изменить формат обучения LLM: подход через фазовую когерентность

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели4.5K

Современные LLM учатся предсказывать следующее слово. Я предлагаю дополнить эту цель: учить модель сохранять стабильность смысловых связей (когерентность). Это может уменьшить зависимость от объёма данных и ускорить появление способностей к рассуждению. Статья описывает гипотезу, метрики для проверки и возможные способы реализации.

Читать далее

EMNLP-2025: обзор исследований жестовых языков

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.1K

Всем привет! В этом году в китайском городе Суджоу прошла юбилейная тридцатая конференция EMNLP (Empirical Methods in Natural Language Processing). Это одна из ведущих международных конференций по обработке естественного языка (NLP), проводимая под эгидой ассоциации компьютерной лингвистики ACL (Association for Computational Linguistics). 

Впервые конференция EMNLP прошла в 1996 году. Сегодня она посвящена эмпирическим методам, то есть моделям, основанным на данных, статистике и машинном обучении. А тогда конференция называлась Workshop on Very Large Corpora и представляла собой небольшое мероприятие ACL, посвящённое использованию корпусов текстов для обучения моделей. Тогда еще не было никаких трансформеров и уже привычных нам больших языковых моделей (LLM) и уж тем более мультимодальности, агентов и прочих хайповых ИИ-направлений. Это была эпоха статистического NLP, когда всё строилось вокруг частот, вероятностей и корпусов текстов, а в ходу были N-граммные языковые модели и скрытые Марковские модели. 

Читать далее

ИИ для юристов: Как мы неделю учили нейросеть работать с юридическими шаблонами

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.4K

Однажды, к нам пришли наши клиенты — юристы и рассказали, что наш агрегатор обходит по эффективности их дорогие нейросетевые юридические сервисы. Но! Всегда ведь есть но, правда?. Говорят — «Ребята», продукт классный, но нам нужно больше. Научите его работать с нашими внутренними шаблонами документов, искать актуальные нормы права, подбирать свежую судебную практику». Мы, если честно, даже и не думали, что нашим B2C продуктом пользуются юристы.

Так родилась задача: сделать конструктор документов на базе нейросетей, такого нейро-помощника для юриста, способного генерировать документы на основе проверенных шаблонов. Путь к ее решению оказался куда более извилистым, чем мы предполагали, и растянулся на семь дней интенсивной работы.

Читать далее

Интенсивный курс «AI-агенты» от Google День 3

Уровень сложностиПростой
Время на прочтение58 мин
Охват и читатели8.2K

На данный момент я прохожу 5-дневный интенсив по AI‑агентам от Google. Эта статья представляет собой перевод оригинального материала, выполненный с помощью Gemini и мной. В этой статье вы узнаете как сделать так, чтобы ИИ не просто «отвечал», а «понимал» и «запоминал»? И если вы когда‑либо задумывались о том, как научить LLM‑агентов вести осмысленные, долгосрочные беседы, эта статья станет вашим проводником в мир сессий и памяти, которые формируют ИИ агентов.

Читать далее

Вклад авторов