Как стать автором
Поиск
Написать публикацию
Обновить
745.92

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Период
Уровень сложности

Пишем свою Diffusion модель с нуля

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров16K

Всем привет, думаю у вас на слуху разного рода Diffusion модели последние 2 года. На его основе генерируют реалистичные изображения и видео, поэтому мне захотелось копнуть поглубже и узнать какова кроличья нора...

Меня зовут Юра, я - разработчик, фаундер и ML энтузиаст, также пишу свои заметки в своем ТГ канале. Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал. На гифке изображены примеры итоговых картинок на моей финальной модели.

Если вам тоже интересно, то читайте дальше

Читать далее

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Время на прочтение7 мин
Количество просмотров17K

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов — Yambda. Он содержит 4,79 миллиардов обезличенных пользовательских действий, собранных за 10 месяцев использования сервиса Яндекс Музыка.

Мы выбрали Яндекс Музыку, потому что это крупнейший подписной стриминговый сервис в России, которым в среднем в месяц пользуются 28 миллионов людей. Существенная часть датасета — агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков, полученные из системы персональных рекомендаций «Моя волна». Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов: от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач.

В этой статье я расскажу, из чего состоит датасет, как мы его собирали и как вы можете использовать его для оценки новых рекомендательных алгоритмов.

Читать далее

Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning». Часть 2

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.4K

Привет! Некоторое время назад я начал искать истоки термина «Deep Learning». Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж, откладывать это больше нельзя. Посмотрим, на кого будут ссылаться отечественные авторы в том, что касается истории развития глубокого обучения. Без долгого вступления — берем в руку пальцы Ctrl/Cmd+F и начинаем раскопки!
Читать дальше →

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети

Время на прочтение7 мин
Количество просмотров30K


Всего месяц назад команда DeepSeek выпустила в открытый доступ новую мультимодальную модель для генерации картинок — Janus-Pro-7B. Разработчики заверяют, что она умеет генерировать изображения, почти неотличимые от настоящих, отлично работает в локальном режиме, бесплатна и превосходит западных конкурентов в ряде задач.

Но действительно ли Janus-Pro-7B так хорош? Под катом разворачиваем модель в облаке, тестируем ее в деле и сравниваем результаты с другими генераторами изображений.
Читать дальше →

Из лингвиста в дата-сайентисты: личный опыт и детальный трек

Время на прочтение8 мин
Количество просмотров12K

Освоить новую профессию и начать работать в сфере ИТ сейчас хотят многие. Моя история доказывает, что переквалифицироваться реально, хотя и очень сложно. Расскажу о своем входе в сферу Data Science с несколько нестандартной исходной точки. Шесть лет учёбы филологии, преподавания языков и разработки игр привели к тому, что к тридцати годам я поняла, что хочу всё поменять, и отныне моё призвание – Data Science. В этой статье в блоге ЛАНИТ - подробно о том, какой путь мне пришлось пройти и чему я училась на каждом из этапов. Все пароли-явки курсов и полезных учебных материалов вы найдете под катом. 

Читать далее

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, чтения иллюстраций

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров76K

Я устал платить за GPT и думать, куда уходят данные. Нашёл Gemma 3 12B от Google и LM Studio — установил всё за 15 минут. В статье — подробная инструкция и советы, как запустить свою Gemma даже без опыта в ML.

Читать далее

Галлюцинации моделей текстовых ИИ, и как с ними бороться

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров11K

Современные языковые модели, такие как ChatGPT, Claude, Gemini, Grok и так далее, способны генерировать тексты, которые часто кажутся уверенными, логичными и достойными доверия. Однако за этим часто скрывается одна из главных проблем нейросетей — галлюцинации. Галлюцинации — это уверенные, но ложные утверждения, которые модель выдает как факты. Они могут проявляться в виде несуществующих цитат, выдуманных терминов, неверных интерпретаций, ошибочных чисел или ссылок на несуществующие источники. Например: при запросе о биографии известного ученого модель может уверенно сообщить о его работе в MTI и сослаться на несуществующую публикацию в Nature с точной датой и названием. Другой распространенный случай — цитирование выдуманных законодательных актов с номерами и датами принятия, которые выглядят достоверно, но фактически не существуют. Подробное и обоснованное описание создает иллюзию достоверности, делая галлюцинации особенно критичными при использовании ИИ в науке, образовании или, например, в медицине.

Читать далее

Как готовить Triton: рецепты вашей собственной Inference-платформы

Время на прочтение9 мин
Количество просмотров3.8K

Привет, Хабр! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel. Если вам нужно запустить небольшой инференс одной ML-модели, можно взять команду бэкендеров, дать им эту модель, они обернут ее в эндпоинт — и готово. Достаточно короткого скрипта из нескольких строк на Python. Но что если нужно запускать несколько моделей, оптимизировать выполнение, работать с ансамблем моделей, задействовать CPU и GPU одновременно и т. д.? Все эти проблемы решает NVIDIA Triton Inference Server. Правда, он добавляет одну новую: разобраться с ним и его документацией — тот еще квест.

В статье посмотрим, насколько сложной задачей может оказаться создание собственного инференса и какие аспекты нужно учитывать. Научимся запускать различные форматы моделей, посмотрим на основные фичи Inference-платформы Selectel, запустим несколько популярных LLM и моделей, а также познакомимся со способами оптимизации конфигурации и проектирования интерфейса для модели.
Читать дальше →

Google Firebase Studio – облачная AI-платформа для разработки приложений

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров12K

Представьте, что вы можете разработать и задеплоить полностью работающее приложение, просто описав его словами. Google задает новый тренд в разработке программного обеспечения, представив Firebase Studio — платформу с интегрированным ИИ-ассистентом Gemini, способным автоматизировать значительную часть задач. В этой статье мы разберемся, почему некоторые сми называют Firebase Studio «убийцей Cursor», и покажем, как можно воплощать идеи в функциональные приложения буквально за несколько минут. Подробности под катом.
Читать дальше →

Почему AI не заменит программистов

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров26K

В эпоху быстрого развития AI и LLM я все чаще вижу, что многие люди думают AI заменят всех программистов и они будут не нужны. Такую мысль высказывал даже CEO Nvidia - Jensen Huang.

Читать далее

Как мы учимся решать одну из самых сложных задач в метеорологии — прогнозирование количества осадков по часам

Время на прочтение14 мин
Количество просмотров5.8K

Вопрос точности прогнозирования осадков — один из ключевых вызовов в метеорологии. Мы все сталкиваемся с ситуациями, когда дождь буквально появляется «из ниоткуда», несмотря на оптимистичный прогноз. Особенно остро эта проблема проявляется летом, когда проливные кратковременные дожди сложно поймать заблаговременно. Об этой проблеме знает и наша команда Яндекс Погоды и ищет способы решить её.

Если бы меня попросили назвать слово, которое лучше всего подходит для прогноза осадков, я бы с уверенностью выбрал «сложность». В осадках она подстерегает нас всюду: от способов прогнозирования до оценки качества полученного прогноза. Потому в научных статьях про нейросетевой прогноз погоды (GraphCast, Pangu Weather, Aurora и т. д.) осадки или совсем не участвуют, или прогнозируются раз в 6 часов без упоминания о метриках. Либо же создаётся локальная модель под регион (например, MetNet для США).

В Яндекс Погоде мы используем множество ML‑моделей в рамках наших технологий прогноза Метеум и OmniCast, постоянно их улучшаем и постепенно заменяем на более продвинутые, повышая качество прогноза для наших пользователей. Недавно мы научились прогнозировать грозы, а до этого — улучшили прогноз температуры за счёт использования пользовательских метеостанций.

Меня зовут Стефеев Дмитрий, я разработчик группы ML и качества прогноза в Яндекс Погоде. Сегодня я и моя команда хотим представить новые модели для прогноза осадков и рассказать, почему мы на них перешли и как этот переход повлиял на качество.

Читать далее

Edge AI: локальный инференс — новый драйвер эффективности бизнеса

Время на прочтение10 мин
Количество просмотров2.9K

Привет! Я — Миша Тринога, менеджер по продуктовому маркетингу в Selectel. По данным отчета Wevolver, с 2025 года компании начинают массово внедрять Edge AI в производство, логистику, здравоохранение и сельское хозяйство. Бизнес рассматривает технологию уже не как эксперимент, а как необходимый компонент для повышения операционной эффективности, безопасности и устойчивости систем. В тексте постараюсь за несколько минут объяснить, что такое Edge AI, почему за ней важно следить и как подготовиться к пилотированию.
Читать дальше →

Мультимодальные модели тотально страдают селективным восприятием

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5K

Проводя свои текущие исследования для задач сегментации и распознавания объектов на изображениях, я задал простой вопрос многим мультимодальным моделям с целью оценить их способности к интерпретации деталей изображения.

Результат был, мягко говоря, странным.

С одной стороны, общее описание простой, на первый взгляд, картинки радует подробным и содержательным ответом.
Но, с другой стороны, наблюдаются просто вопиющие утверждения, которые ни как нельзя оставить без внимания.

Итак сам промпт:

- Опиши детально, что ты видишь на этой картинке?

Читать далее

Ближайшие события

ИИ — просто мешок слов. Как перестать видеть интеллект там, где его нет

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров14K

Когда к ИИ-инструменту привыкают, его порой начинают воспринимать как разум — будто за ответами скрывается личность с намерениями и логикой. Но это не что иное как ловушка антропоморфизма: мы приписываем моделям человеческие качества и потом удивляемся, когда они выдают банальности или абсурдные советы. В статье предлагается более честная и полезная метафора — «мешок слов». Она объясняет, почему LLM предсказуемо сильны в одних задачах и столь же предсказуемо сыплются в других, а главное — почему сравнивать их с людьми изначально неправильно.

Читать далее

T-Pro 2.0 — открытая гибридно-ризонинговая русскоязычная LLM

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров12K

Всем привет! На связи Толя Потапов, MLE в Т-Банке. Мы продолжаем развивать собственную линейку моделей GEN-T и внутренние продукты на основе своих моделей: агенты в саппорте, внутренние копилоты для сотрудников и Вселенную ассистентов.

Мы уже делились большими языковыми моделями T-lite 0.1, T-lite 1.0 и T-pro 1.0. Модели завоевали популярность и скачиваются суммарно более 15к раз в месяц. 

Сегодня делимся новой моделью T-pro 2.0, обученной на основе модели Qwen3 32B, но с более плотной токенизацией на русском языке. Модель поддерживает гибридный ризонинг и позволяет сгенерировать рассуждение перед тем как отвечать. Это помогает в сложных задачах, где требуется несколько последовательных выводов, таких как математика. 

Мы дообучали модель в несколько этапов, чтобы прокачать общее качество решения задач на русском и улучшить генерацию рассуждений.

Расскажу общие детали процесса обучения модели, основные характеристики и результаты замеров качества. Поделюсь, какие сложности у нас возникали и на чем планируем сосредоточиться. 

Читать далее

Как я устал тестировать LLM-системы вручную и написал универсальный сканер уязвимостей

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров18K

Полгода назад я работал над внедрением RAG-системы в крупной финансовой компании. Задача была типичная: построить корпоративного чат-бота, который мог бы отвечать на вопросы сотрудников по внутренним документам. Казалось бы, что может пойти не так? Берем готовую LLM, подключаем к базе знаний, добавляем немного магии с векторным поиском — и готово.

Но когда я начал тестировать систему перед продакшеном, обнаружил, что наш "умный" ассистент превращается в болтливого предателя при правильно сформулированных вопросах.

Читать далее

Как не переплатить за автоматизацию? Разбираем, когда стоит подключать ML

Время на прочтение11 мин
Количество просмотров4.5K

Часто автоматизация средствами ML ассоциируется с быстрым ростом эффективности бизнеса, но на практике оборачивается молниеносным увеличением затрат. Поэтому подход «Если делаешь что-то больше одного раза, автоматизируй это» выглядит слишком радикальным.

Как понять, действительно ли вам нужны ML-технологии или же ваши задачи можно закрыть простыми скриптами и правилами? Чтобы разобраться в этом вопросе, мы в Selectel исследовали успешные кейсы автоматизации в финансовом секторе, телекоме и IT-инфраструктуре, опираясь на экспертизу специалистов из T-Банк, PIX Robotics и Netcracker. Подробности под катом!
Читать дальше →

Тестируем новые модели o3 и o4-mini от OpenAI

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров8.6K

Привет! На связи Кирилл Филипенко, сисадмин в Selectel. Недавно OpenAI анонсировала два новых поколения моделей — o3 и o4-mini, которые стали частью линейки o-series. В статье разбираемся, за счет чего они получились мощнее, насколько дешевле обойдется их использование и какие кейсы стоит обязательно протестировать уже сегодня. В OpenAI уверены, что эти образцы задают новую планку того, каким должен быть AI-ассистент. Так ли это? Проверим под катом.
Читать дальше →

История YOLO – самой известной архитектуры компьютерного зрения

Время на прочтение20 мин
Количество просмотров25K

YOLO расшифровывается как You Only Look Once. Это широко известная архитектура компьютерного зрения, которая знаменита в том числе своим огромным количеством версий: первая из них вышла в 2016 году и решала только задачу детекции объектов на изображении, а последняя – одиннадцатая – появилась в сентябре этого года и уже представляет из себя целую фундаментальную модель, которую можно использовать для классификации, трекинга объектов на видео, задач pose estimation и тд. Все это – в реальном времени.

Да, за 8 лет своего существования YOLO стала своеобразным трансформером во вселенной компьютерного зрения: ее любят и используют повсеместно.

Эта статья – полноценная техно-история YOLO. Мы расскажем, что представляет из себя задача детекции, как работала самая первая YOLO и как ее дорабатывали во всех последующих версиях.

Читать далее

Ускоряем проверку документов для клинических исследований за счёт пайплайна на базе YandexGPT 5 Pro

Время на прочтение13 мин
Количество просмотров4.2K

В мире ежегодно проводятся тысячи клинических исследований, а в России их количество может доходить до 900 в год. До внедрения в практику новые методы лечения, лекарства и медицинские изделия проходят множество испытаний под строгим контролем. Исследователям необходимо подтверждать безопасность и эффективность метода, а также соответствие самой процедуры испытаний научным стандартам и нормам этики. Эти процессы формализованы и требуют подтверждения официальными документами — но их нельзя свести к одному простому формату, особенно если дело касается этики. Поэтому только проверка пакета документации может занимать недели, а в современных условиях хочется, чтобы эта работа была менее длительной — чтобы пациенты быстрее получали доступ к новым методикам лечения.

В 2025 году команда НМИЦ онкологии им. Н.Н. Петрова вместе с Центром технологий для общества Yandex Cloud и компанией Raft запустила приложение для быстрой обработки документов клинических исследований. Решение на базе большой языковой модели Яндекса помогает специалистам научного центра классифицировать документы, проверять их оформление и содержание по чек‑листу — и это позволяет сократить цикл согласования с нескольких месяцев до 5–10 дней.

Читать далее

Вклад авторов