Все потоки
Поиск
Написать публикацию
Обновить
771.46

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Период
Уровень сложности

LLM агент для работы с Google Spreadsheets

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3K

Салют, Хабр! На связи Арсенин Никита из команды R&D в SberDevices. Сегодня я хочу рассказать про одно из наших направлений исследований — разработку агентских систем на основе больших языковых моделей.

В этой статье мы постараемся сделать обзорный тур по ключевым технологическим аспектам проектирования и реализации LLM‑агентов, рассмотрим способы работы связок LLM и функций, некоторые компоненты мультиагентных систем, методы контролируемой генерации и повышения робастности. Кроме того, представим и подробно опишем архитектуру и способ построения одного из прототипов LLM‑агентов, нацеленных на выполнение задач в Google SpreadSheets.

Наш LLM‑агент был реализован при помощи SDK GigaChain и GigaGraph, адаптированными под работу с GigaChat. Вы можете посмотреть на итоговую версию Google SpreadSheets агента в репозитории или начать разработку своего агента с вводного туториала.

Читать далее

Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.1K

Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы с человеческим интеллектом. Отсюда мы получаем целый пласт заблуждений. Например, что модели нас «чувствуют», «понимают», ведь мы выкладываем для них столько информации о себе, начиная от стилистики нашего письма, что уже является неким цифровым отпечатком нашей личности, и заканчивая оценкой их собственной работы. На самом деле это миф. И трендом 2023–2024 годов стало обширное внимание публики к XAI:

как они (генеративные модели) устроены и как они принимают решения;

как проводятся атаки уклонения (склонение моделей к неверной выдаче);

как эти атаки (уклонения) связаны с другими атаками на LLM и какие они могут быть для эскалации деструктивного поведения системы;

с какой позиции верно интерпретировать выход генеративной модели;

разработка системы эшелонированной защиты моделей;

разработка системы внутреннего критика для модели.

Для начала начнём с существующих атак и их анализа. Заинтересованных приглашаем под кат.

Читать далее

В ногу с дипфейками: применение технологии и этические аспекты

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

Технология «deepfake» несёт в себе глубокие этические последствия, усиливая опасения по поводу дезинформации и манипуляций. Плавно смешивая сфабрикованный контент с реальностью, дипфейки подрывают доверие к СМИ и общественному дискурсу. А так как образы людей эксплуатируются без их согласия, это ставит под угрозу и личную безопасность. 

Проблемы с доверием усиливаются, поскольку отличить правду от лжи становится всё более сложной задачей. Смягчение этих этических затруднений требует упреждающих мер, включая надёжные системы обнаружения и нормативные рамки.

Читать далее

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 1

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров8.6K

При про­ектировании RAG-системы инженер каждый раз сталкивается со множеством вопросов: какую базу данных использовать, как организовать получение релевантной информации, да даже выбор эмбеддера может занять приличное время, а это лишь вершина айсберга. Что хорошо работает в одной сфере, например в техподдержке, может полностью провалиться в другой — например, при анализе юридических документов. Поэтому задачей инженера является выявление особенностей предметной области и адаптации RAG системы к ним. Однако, чтобы это сделать, необходимо не только понимать, какие приёмы можно использовать, но и знать насколько они эффективны.

В данной статье мы разберём основные RAG техники, посмотрим их сильные и слабые стороны, сферы применения, а также немного поэкспериментируем. В следующей части статьи мы проведём тестирование этих техник на реальных пользовательских запросах из датасета Natural Questions и оценим качество работы с помощью RAGAS и BertScore, посмотрим на графики и разойдёмся, чтобы обдумать всё написанное. Поэтому предлагаю начать!

Читать далее

Какая LLM лучше распознает чертежи? Мы сравнили 6 LLM и узнали ответ

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров10K

Инженерные чертежи содержат десятки типов размеров и допусков: линейные и угловые, радиальные и диаметральные, справочные и базовые, а также геометрические характеристики вроде плоскостности или перпендикулярности. Для инженера это привычный язык, но для автоматической обработки такие документы представляют серьёзную задачу.

С появлением мультимодальных LLM возник вопрос: способны ли они заменить классические OCR-решения и специализированные пайплайны постобработки? Насколько хорошо современные модели справляются с извлечением размеров и допусков из коробки, без дообучения? Какие модели дают максимальную точность, какие быстрее, а какие дешевле? И можно ли комбинировать разные подходы, чтобы повысить результат?

Чтобы ответить на эти вопросы, мы протестировали шесть актуальных vision-LLM на одном наборе реальных механических чертежей и сравнили их точность, скорость и стоимость обработки.

Читать далее

Есть ли жизнь без споттера? Как мы внедряли быстрые команды в умные устройства Sber

Время на прочтение6 мин
Количество просмотров1.2K

Привет, Хабр! 

Меня зовут Айрат, я руковожу командой Embedded ML в Сбере. Сегодня мы выкатили быстрые команды для умных колонок SberBoom. Они позволяют управлять самим устройством, а также телевизорами Sber, ТВ-приставками SberBox и умным домом с помощью колонки проще и быстрее.  

Сегодня я расскажу, как удалось уместить все быстрые команды всего в 6 МБ и благодаря чему наше решение распознает не только простые команды вида «Включи свет», но и сложные со множеством параметров, например, «Яркость сорок пять процентов в коридоре». Мы рассмотрим, что такое спам-команды и как мы добились их корректного распознавания без задержек.

Читать далее

7 кругов ада: практический гид по выбору стека для ML-разработки

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров7.1K

Сколько раз за последние пару-тройку вы меняли свой AI/ML стек? Если ответ «ни разу» — либо у вас железная дисциплина, либо вы просто не следите за тем, что происходит в индустрии. McKinsey Global Survey показывает, что adoption AI вырос с 50% до 72% только за последний год. Это означает, что пока вы размышляете над выбором между PyTorch и TensorFlow, ваши конкуренты уже запускают production-модели на совершенно других стеках. 

Проблема не в том, что инструментов мало — а в том, что их чертовски много. Современный ML/AI стек превратился в слоеный пирог из семи уровней: от ИИ-инфраструктуры в самом низу до слоя ИИ-решений наверху. Каждый уровень предлагает десятки вариантов, от которых глаза разбегаются даже у матерых разработчиков, но хаос поддается систематизации. В этой статье мы расскажем о любимых инструментах, препарируем популярные решения, и разберемся, как выбрать стек, который не превратится в тыкву через полгода. 

Читать далее

Как уместить ИИ на edge-устройствах

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров2.7K

От AlphaGo до ChatGPT — прогресс в области искусственного интеллекта впечатляет своими масштабами. Однако за красивым фасадом скрывается серьезный разрыв между возможностями современных моделей и реальными условиями их применения. Возьмем, к примеру, GPT-3 с его (уже не такими впечатляющими) 175 миллиардами параметров, требующими 800 ГБ памяти. Такие модели существуют только в лабораториях вроде OpenAI. Что уж говорить о запуске подобных систем на устройствах с ограниченными ресурсами.

При этом именно edge-устройства генерируют львиную долю данных — по прогнозам Gartner, к концу этого года около 75% корпоративной информации будет поступать не из традиционных дата-центров или облака, а с периферийных устройств. Обработка такого объема данных в облаке создает серьезную нагрузку на каналы передачи и увеличивает задержки. 

Граничный ИИ (EdgeAI) предлагает элегантное решение: перенести вычисления ближе к источнику данных. Это позволяет обрабатывать информацию локально, без подключения к сети, что критично для систем, требующих мгновенной реакции. 

Но как уместить современные AI-модели в устройства с ограниченными ресурсами? Об этом и поговорим в статье.

Читать далее

«Голос — мозг»: нейроинтерфейс нового поколения мгновенно озвучивает мысли. Новый проект UC Davis

Время на прочтение5 мин
Количество просмотров896

Нейротехнологии постепенно выходят за пределы лабораторий и становятся поддержкой для людей с нарушениями здоровья. Уже тестируются мозговые импланты вроде Neuralink, помогающие пациентам управлять компьютером или протезом. Но исследователи из медицинского центра UC Davis сделали следующий шаг: научились озвучивать мысли людей. Новый нейроинтерфейс считывает сигналы из речевой зоны мозга и синтезирует голос — без промежуточных действий со стороны пациента. Давайте разбираться, что это за проект.

Читать далее

ICLR-2025: что нового в мультимодальном ранжировании

Время на прочтение16 мин
Количество просмотров1.4K

Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.

С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.

В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции.

Читать далее

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров4.5K

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс.

Предлагаем вместе с нами проверить, на что способен одноплатный компьютер Lichee Pi 4A в задачах обработки изображений, несмотря на его ограниченные ресурсы. А заодно — получить базовые навыки по разработке систем компьютерного зрения. Пройдем путь от настройки системы до отслеживания кликов по картинке и распознавания объектов с моделью YOLOX.

Читать далее

Распознавание орхоно-енисейских рунических надписей методами машинного обучения

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.9K

Орхоно-енисейские руны — это древнейшая система письма тюркских народов, использовавшаяся с VI по X век на территории Центральной Азии (включая современную Монголию, южную Сибирь и часть Казахстана). Это были надгробные и памятные тексты, выбитые на камне. Они отражают политические, военные и культурные события тюркских племён. Их расшифровка началась во второй половине XIX века и остаётся предметом научных исследований и дискуссий. Исследование символов рунической письменности актуально, так как может помочь в понимании истории и культуры народов этой местности. Интерпретация енисейских надписей с памятников – очень сложная задача. Каменная поверхность разрушена временем, из-за чего символы могут быть плохо различимы. Многие памятники находятся в удаленных, диких местах, где долгий процесс исследования слишком трудозатратен. По этой причине надписи с памятников переносятся на бумажные или цифровые носители для последующей расшифровки. Как отмечал Кормушин И. В. – профессор филологии, тюрколог и алтаевед, перед чтением надписей, необходимо идентифицировать ее символы отдельным этапом. Эта ручная обработка надписей с памятников осложнена не только деформацией самих памятников, но и отсутствием строгой определенности с принадлежностью символов к тому или иному алфавиту. Достаточно распространенной оказалась проблема неточного определения состава рунических символов во многих изданиях XX века. Эти неточности приводят к ошибкам чтения и перевода древних текстов. Поэтому целесообразно автоматизировать этот процесс для повышения точности и скорости определения символов.

Читать далее

Яндекс.Вброс или ИИ для фейков

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.7K

tl;dr: Продолжение разборов состязательных атак на генеративные модели. Разбор семантических атаках (подбор синонимов, построение фраз, эзопов язык), и использование для этого другой LLM модели.

Часть 1: Яндекс.Разврат или анти-этичный ИИ

Читать далее

Ближайшие события

Анализ данных: от EDA до Tinder-битвы графиков

Время на прочтение6 мин
Количество просмотров1.8K

Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.

В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом.

Читать далее

Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров18K

В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта (ИИ).

Читать далее

12 лет я работала дизайнером интерьеров, а потом пришла нейросеть

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров52K

Эту историю для моего блога рассказала Полина Киселева, дизайнер интерьеров

Я дизайнер интерьеров и многодетная мать троих детей. Когда времени становится критически мало, начинаешь искать новые подходы к работе. Год назад один из моих заказчиков подарил мне курс по основам работы с искусственным интеллектом, и я начала экспериментировать с нейросетями в своей профессии. Хочу честно рассказать, что получилось: где AI действительно экономит время, а где создает лишь иллюзию решения.

Большинство моих клиентов — частные заказчики, желающие обустроить квартиру или дом. Они приходят с архитектурным проектом и вопросами: как расставить мебель? какие материалы выбрать? как сделать пространство функциональным и гармоничным?

Также работаю с владельцами бизнеса, которым важен интерьер как часть бренда — рестораны, салоны красоты, торговые площади. Именно в коммерческих проектах, где важен вау-эффект, нейросети показали себя особенно полезными.

Читать далее

Мультизадачность на максимуме: как мы одновременно решали 5 задач на хакатоне и заняли второе место

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров1.2K

Привет, Хабр! Меня зовут Максим Хандусь, я ML-инженер в лаборатории машинного обучения Альфа-Банка. Недавно наша команда «Мы МИСИС 177!!!» (Назарий Карпов, Кузнецов Данил, Павел Смирнов, Душенёв Даниил — как вы могли догадаться, все мы студенты НИТУ МИСИС) участвовала в хакатоне PurpleHack2025 с достаточно необычным форматом и заняла там второе место.

Чаще всего, когда говорят «На хакатоне было пять кейсов», то это значит, что команда выбирает только один кейс, а потом призёры определяются в каждом из кейсов отдельно. Но в этот раз предполагалось решать сразу пять кейсов, а призёры определялись по сумме баллов за все кейсы. На решение давалось шесть дней, не очень много для сразу пяти задач.

Расскажем, какие задачи были, как мы их распределяли и решали.

Читать далее

Помощник читателя: визуализируем сюжет

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.6K

Пишем AI-помощника для анализа художественных произведений. С помощью языковой модели для анализа текста и небольшой обвязки для визуализации полученного структурированного ответа генерируем:

- граф связей между героями
- хронологию событий
- карту мест действия

Читать далее

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров2.7K

В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты или автоматические трейдеры. Представьте: смарт-контракт управляет финансами, а подключённая языковая модель принимает решения, основываясь на анализе новостей или команд пользователей. Ещё недавно такая идея казалась футуристичной, однако сегодня, в 2025 году, web3 AI-агенты, взаимодействующие с блокчейном и децентрализованными системами, стали реальностью.

Многие уже слышали истории о том, как пользователи вынуждают LLM-модели отвечать на неэтичные вопросы, сочинять матерные стихи и совершать другие «шалости». Однако в контексте web3 подобные нестандартные поведения моделей могут привести к реальным и ощутимым финансовым последствиям. В этой статье мы рассмотрим устройство web3 AI-агентов, проанализируем возможные векторы атак, обсудим актуальные jailbreak-методы и разберём несколько конкурсных задач на примерах из личного опыта.

Читать далее

Как мы сделали рекомендации, отказались от подрядчика и заработали денег

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2K

Привет, Хабр! Меня зовут Данила Федюкин и я тимлид в X5 Digital. Руковожу командой, которая занимается рекомендациями и метчингом.

Персонализация играет ключевую роль в развитии бизнеса. На первых этапах, когда у компании ещё нет собственных решений для адаптации под клиентов, часто приходится обращаться к внешним подрядчикам. Именно так поступили и мы. Но работа с подрядчиком для нас оказалась дорогой, болезненной и долгой. Про наш путь к собственной разработке расскажу в статье.

Читать далее

Вклад авторов