Все потоки
Поиск
Написать публикацию
Обновить
775.83

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Период
Уровень сложности

Практический кейс: как применять ML и GPT для поиска дубликатов в базе данных

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров28K

Привет! Я Давид Акопян, занимаюсь интеграциями ML, GPT и консалтингом. Сейчас работаю тимлидом продуктовой аналитики в Авито. В этой статье делюсь опытом реализации успешного консалтингового проекта по интеграции ML и GPT для интернет-магазина на Shopify с целью уменьшения количества дубликатов в базе данных клиента.

Читать далее

8 внешних факторов, влияющих на эффективность распознавания лиц с видеокамер

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.9K

Сразу скажу – камеры с большим разрешением не решат ваших проблем, если вы решили строить систему распознавания лиц. Увы, в большинстве случаев результат станет только хуже, а заплатите вы больше!

Читать далее

Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров10K

После прочтения зарубежного исследования предвзятости GPT, где автор генерировал людей большими языковыми моделями, решил повторить эксперимент с русскоязычными моделями.

Как выглядит типичный день человека: его пол, возраст, профессия и типичный распорядок дня по мнению нейросетей от Яндекса, Сбера, Т‑Банка и ещё одной зарубежной компании читайте в этой статье.

Читать далее

Физика + нейросети: суть алгоритма, который принёс Хинтону и Хопфилду Нобелевскую премию

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров16K

Аналитический центр red_mad_robot собрал для вас главное, что нужно знать о Нобелевской премии 2024 по физике.

Нобелевский комитет наградил премией по физике учёных, которые использовали фундаментальные физические принципы для развития машинного обучения. Благодаря этому алгоритму AI сможет обучаться и совершенствоваться самостоятельно — без помощи человека.

Читать далее

DETR: Бесконечная история

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров3.6K

Всем привет, с вами команда Layer!
Мы рады сообщить, что совсем скоро выйдет наша новая исследовательская работа, посвященная поиску моментов в видео, релевантных пользовательскому запросу. Мы хотим сделать эту работу как можно более доступной для каждого, кто хочет глубже разобраться в теме. Поэтому мы решили написать этот небольшой туториал, посвященный семейству моделей DETR, так как они используются не только для детекции котиков на картинках, но и в таких необычных доменах, как детекция моментов в видео. Мы уверены, что среди читателей многие знакомы с основами DETR, однако подозреваем, что не все могли следить за её развитием. Всё‑таки по сравнению с YOLO, DETRу пиара явно не достает. В этой статье мы предлагаем краткий обзор эволюции модели, чтобы помочь вам лучше ориентироваться в новых исследованиях. Если же вы впервые слышите о DETR или хотите освежить свои знания, то бегом читать — тык, если после прочтения остались вопросы, то можно ознакомиться с этими видео — тык, тык.

Давайте детальнее разберёмся, что ждёт вас в этом туториале. Сначала мы рассмотрим недостатки оригинальной версии DETR, а затем перейдём к архитектурным улучшениям, которые либо устранили эти проблемы, либо заметно их сгладили. Начнём с Deformable DETR — модели, которая оптимизировала вычисления. Затем обратим внимание на Conditional DETR и DAB DETR — архитектуры, которые существенно переосмыслили роль queries в модели. Далее мы погрузимся в особенности DN‑DETR, который стабилизирует one‑to‑one matching. После этого детально разберём DINO DETR — модель, которая объединяет и улучшает идеи DN‑DETR и DAB‑DETR, а также переизобретает RPN для детекционных трансформеров. И в завершение нашего путешествия мы познакомимся с CO‑DETR, который объединил классические детекторы, такие как ATSS, Faster RCNN, и модели типа DETR, установив новые SOTA метрики на COCO.

Читать далее

Топ-5 нейросетей для создания аватаров

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.1K

Представьте: вы просыпаетесь, волосы торчат в разные стороны, голос напоминает смесь дрели и чайника, а коллеги требуют записать корпоративное видеообращение. Если раньше с этим связывали панику, десять дублей и нервный тик, то сегодня — пара кликов, и ваш сияющий цифровой двойник уже говорит, улыбается и выглядит будто только что сошёл с обложки журнала.

Видео-аватары не устают, не спорят и не требуют премии к Новому году. Хотите стендап? Сделает. Нужно обратиться к подписчикам с важной новостью? Пожалуйста. Даже поздравить тёщу с днём рождения. А самое главное — за всё это не нужно платить, по крайней мере в начале.

Поэтому, если вы давно мечтали стать говорящей головой без мучений перед камерой, добро пожаловать! Дальше вас ждет обзор 5-ти лучших бесплатных сервисов для создания видео-аватаров.

Приятного чтения!

Читать далее

Осваиваем LLM: подробное знакомство с книгой Себастьяна Рашки «Строим LLM с нуля»

Время на прочтение5 мин
Количество просмотров9.1K

Недавно у меня появилась возможность прочитать книгу Себастьяна Рашки «Строим LLM с нуля», и, начав читать, я просто не мог её отложить.

Эта книга увлекательно сочетает исчерпывающую теорию, практическую реализацию кода и прекрасно и доходчиво объясняет одну из самых актуальных тем в области современного искусственного интеллекта: большие языковые модели (LLM). Как человек, который любит разбираться в тонкостях моделей ИИ, я считаю эту книгу настоящей жемчужиной. Ее обязательно нужно прочитать всем, кто серьезно интересуется LLM. Хочу отметить, что я никак не связан с автором или издателем; эта рецензия является исключительно отражением моего восхищения содержанием книги.

Читать далее

Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO

Время на прочтение11 мин
Количество просмотров7.3K

Привет, Хабр. Меня зовут Дмитрий Крюков, я инженер по разработке ПО искусственного интеллекта в YADRO. Мы продолжаем рассказывать о возможностях GPU-серверов YADRO G4208P и YADRO VEGMAN R220 G2 в работе с локальными (on-premise) LLM-моделями. Сегодня делимся результатами тестирования популярных LLM из семейства DeepSeek R1 и Qwen3 размерами от 14B до 685B параметров. Тесты проводились в условиях, максимально близких к решению реальных кейсов: чат-бот, саммаризация и автоматизация аналитических задач. 

Узнать результаты

Эволюция автоматчинга в e-commerce: опыт команды Купер.тех

Время на прочтение9 мин
Количество просмотров1.8K

Привет, Хабр! Меня зовут Николай, и я ML-инженер в команде контента в Купере,
где уже год занимаюсь задачами автоматчинга. Этот материал — адаптация моего недавнего выступления, на котором я рассказывал, как мы стараемся сэкономить бизнесу время и деньги. 

Речь далее пойдет о матчинге товаров в ритейле: от ручного ввода до ML-пайплайнов с эмбеддингами и ранкерами. Если что-то покажется неясным или возникнет желание подискутировать о деталях, велком в комменты.

Читать далее

Создание умных AI-агентов: полный курс по LangGraph от А до Я. Часть 1. Архитектура: графы, узлы и состояния

Время на прочтение23 мин
Количество просмотров25K

В первой части курса по созданию ИИ-агентов разбираем фундаментальные основы LangGraph: что такое графы состояний, как работают узлы и рёбра, зачем нужны условные переходы и циклы.

Учимся строить архитектуру будущих AI-агентов без единой строчки ML-кода — только чистая логика и понятные примеры. От простого калькулятора возраста до сложных циклических процессов с визуализацией графов. Готовим фундамент для интеграции с нейросетями в следующих частях.

Читать далее

Когда несколько пикселей решают всё: One Pixel атака и способы защиты от неё

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров11K

Удивительно, но факт: несколько изменений в изображении могут полностью поменять вывод нейросети, что ломает заложенную разработчиком логику. В данной статье мы не просто подсветим факт существования One Pixel атаки, но и комплексно разберём архитектурные факторы, которые влияют на устойчивость CV-систем к данному семейству атак.

Читать далее

Retrieval-Augmented Generation (RAG): глубокий технический обзор

Время на прочтение34 мин
Количество просмотров12K

Retrieval‑Augmented Generation (RAG) — это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM — замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG‑подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа. Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели.

В этой статье мы подробно рассмотрим: архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine‑tuning, перспективы технологии.

Читать далее

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.9K

С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).

Если коротко, RAG — это способ «подкормить» LLM свежими данными: перед генерацией ответа модель получает не только сам вопрос, но и релевантные тексты, найденные внешней поисковой системе или во внутренней базе знаний. Идея звучит просто, но как понять, насколько хорошо это работает? Какие документы действительно помогли модели, а какие запутали её ещё больше? А главное — как сравнить разные RAG-системы между собой по-честному?

Оценка таких систем — нетривиальная задача. С одной стороны, нужно учитывать и качество извлечённых документов, и финальный ответ модели. С другой — важно избегать контаминации: когда модель «угадывает» правильный ответ просто потому, что уже видела его в процессе обучения. Это особенно актуально при использовании статических наборов данных вроде Natural Questions или HotpotQA: они давно «протекли» в открытые датасеты, в том числе для обучения популярных LLM.

Читать далее

Ближайшие события

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.3K

Всем привет! Авторы бенчмарка MERA этим летом не только анонсировали отраслевую ветку — MERA Industrial, но и рады сообщить о расширении проекта на кодовые задачи.

Большие языковые модели (LLM) сегодня умеют не только вести диалог, но и писать код, помогать с документацией и автоматизировать задачи разработчиков. Однако возникает вопрос: «Как мы измеряем качество этих способностей?» Большинство бенчмарков сосредоточены на проверке понимания языка и, частично, на генерации кода. Но насколько такой код применим на практике? Учитываются ли требования, сформулированные на русском? Как модели работают с документацией на других языках, кроме английского? Мультиязычные бенчмарки вроде HumanEval-X, MultiPL-E и mxEval делают шаг в нужную сторону, но по большей части сосредоточены на языках программирования. Связь между кодом и естественным языком, особенно в многоязычном контексте, пока освещена слабо.

Чтобы учесть все эти моменты, мы разработали MERA Code — первый комплексный бенчмарк для оценки больших языковых моделей на реальных прикладных задачах, с которыми сталкивается программист в русскоязычном контексте.

Читать далее

От промтов к агентам: как мы дошли до трансформеров, что LLM умеют уже сейчас и что нас ждёт в 2027 году

Время на прочтение13 мин
Количество просмотров15K

Привет! Меня зовут Александр Фролов, я data scientist отдела машинного обучения в Нетологии. В этой статье я коротко расскажу, откуда взялись LLM, чем они стали сегодня, куда всё идёт и где в этом хаосе найти точку опоры.

Постараюсь обойтись без лишней теории и академического занудства — просто обзор по верхам с точки зрения дата-сайентиста, который строит пайплайны по обработке данных.

Читать дальше →

Как понять что свинюшка готова к любви? Определяем через ML

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.6K

Привет! Я Ярослав Шмулев, датасаентист, выпускник МФТИ и технический директор студии R77. Мы внедряем AI в корпорации, а сегодня я расскажу, как мы анализировали поведение свинок с помощью ML, чтобы выявить идеальный момент для их оплодотворения.

Читать далее

Нейро-дайджест: ключевые события мира AI за 2-ю неделю июня 2025

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.1K

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась интересной: выход o3-pro, думающая модель от Mistral, презентации от Apple и AMD, интересные спейсы на HuggingFace, видеогенератор от ByteDance, который круче Veo 3 а Disney и Midjourney ждёт суд.  

Всё самое важное — в одном месте. Поехали!

Читать далее

Потеря работы из-за ИИ: насколько реальна угроза? Мнение Демиса Хассабиса

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров3.9K

Имя Демиса Хассабиса — синоним амбициозных проектов в области ИИ. От разработки легендарной игры Theme Park до создания AlphaFold, решившей «нобелевскую» задачу биологии, и теперь — к AGI, искусственному интеллекту уровня человека. Глава DeepMind утверждает: шанс увидеть AGI в ближайшее десятилетие — 50/50. Этот прогноз одновременно восхищает и пугает. Ведь за ним маячит призрак массовой потери работы из‑за ИИ.

Насколько реален апокалипсис профессий? И есть ли свет в конце тоннеля общего искусственного интеллекта? Погружаемся в мысли одного из главных архитекторов нашего будущего.

Читать далее

Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров8.5K

На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью поручают им различные задачи в течение дня. И сегодня мы с вами посмотрим на битву ИИ-титанов: ChatGPT o1 Pro, DeepSeek R1, Claude 3.7 Sonnet и Gemini 2.5 Pro. Ну, может, конечно, будет и не столь зрелищно, как в каких-нибудь боевиках, однако, какая из этих моделей справляется с общими задачами лучше всего, мы с вами постараемся выяснить.

Что действительно волнует пользователей — как выбрать идеального ИИ-помощника под свою конкретную задачу? Все чаще они ищут не просто умную нейросеть, а специализированные решения для маркетинга, копирайтинга слоганов, сценариев и других видов контента. В этом обзоре мы с вами не только сравним общие способности лидеров рынка, но и присмотримся к тому, какая модель станет вашим лучшим оружием в конкретных областях.

Читать далее

Покерная лаборатория закрывается, ловите исходники

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров16K

Я делал этот проект более полутора лет, сейчас отказываюсь от него. И, чтобы эти полтора года не были прожиты зря) открываю исходники. Java+Spring.

Принимайте проект «как есть», со всеми ad-hoc костылями, незаконченными исследованиями, TODOs, а также всевозможными KISS, DRY, и, как их… SOLID с GoF.

Предполагается, что вы знакомы с покером, имеете неплохие навыки программирования, поверхностно разбираетесь в теории игр.

Читать далее

Вклад авторов