Все потоки

Машинное обучение *

Основа искусственного интеллекта

СтатьиПостыНовостиАвторыКомпании

verasobol 21 окт в 10:53

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Сложный

10 мин

2.4K

Блог компании AIRIОбработка изображений * Алгоритмы * Машинное обучение * Искусственный интеллект

Кейс

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!

Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке.

Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим).

Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

Читать далее

+10

andre_dataist 21 окт в 10:14

Как ИИ-очки предсказывают ваши желания прежде чем вы о них подумаете

3 мин

932

Машинное обучение * Искусственный интеллект

Обзор

ИИ-ассистенты уже достаточно эволюционировали, но есть ньюанс: даже самые умные ассистенты чаще всего остаются пассивными наблюдателями. Они ждут команды от человека и не берут на себя инициативу. Так почему ИИ до сих пор не угадывает наши желания?

Исследователи нашли ответ на этот вопрос: дело не в “прокачанности” нейросетей, а в самом подходе к взаимодействию с ИИ. Они научили ИИ-очки не просто реагировать, а чувствовать ситуацию — вмешиваться ровно тогда, когда помощь действительно уместна, и делать это почти незаметно. В результате получилась система, которая не раздражает бесконечными подсказками, а помогает точно в момент сомнения — будь то партия в блэкджек или выбор свитера в магазине.

В этом обзоре — как работает проактивный ассистент и почему именно способность заговорить вовремя способна перевернуть представление о будущем ИИ-интерфейсов.

Читать далее

+4

olegchir 21 окт в 10:01

Исследование-обучение с отладчиком контекста (ICRF 1.0)

3 мин

217

Блог компании Anarchic AIИскусственный интеллектМашинное обучение *

Рассуждающие чаты показывают пользователю ход своих мыслей. Но обычно там написана какая-то ерунда. Максимум, что там полезного можно вычитать: «пользователь спрашивает про плоскую землю — наверное, он сумасшедший».

А хочется, чтобы нейронка подробно объясняла каждый шаг и свои намерения.

Изумительно! Читать далее

0

Revaqia 21 окт в 09:45

Собираем качественные датасеты для LLM с помощью Telegram-бота

Простой

14 мин

2.1K

Блог компании YADROМашинное обучение * Искусственный интеллектKubernetes *

Кейс

«Дайте мне качественный датасет, и я переверну Землю!» — возможно, так перефразировал бы свою крылатую фразу Архимед, доведись ему тренировать современные LLM. Хороших наборов данных в открытом доступе не так много, а собрать свой — задача не из простых. О популярных способах сбора данных для датасетов, связанных с этим рисков и о решении, которое мы используем в YADRO, сегодня и поговорим.

Читать далее

+18

eshibanova 21 окт в 07:00

Балконы и полигоны: как мы разметили 12 000 квартир для генерации 3D-туров

7 мин

2.2K

Блог компании ЯндексМашинное обучение * Искусственный интеллектАлгоритмы * Краудсорсинг

Те, кто имел дело с покупкой и продажей недвижимости, знает, что просмотры — очень хлопотное занятие. Неудивительно, что для экономии времени появляются предложения посмотреть квартиру онлайн или с помощью 3D‑тура. О таких виртуальных экскурсиях мы сегодня и поговорим.

В сентябре Яндекс Недвижимость рассказала о 3D‑турах для новостроек. С момента начала тестирования в июле на сервисе было сгенерировано более четверти миллиона виртуальных экскурсий по строящимся квартирам. Чтобы это стало возможным, мы обучили нейросеть анализировать планировки и превращать их в трёхмерные визуализации. Но чтобы это стало возможным, нужно было проделать большую и кропотливую работу, чтобы нейросеть понимала, где отрисовывать окно или класть плитку на пол.

Меня зовут Катя Шибанова, я работаю архитектором краудсорсинговых решений (CSA) в службе разметки данных Yandex Crowd Solutions. Недавно к нам обратились коллеги из Яндекс Недвижимости: нужно было помочь с разметкой для обучения модели компьютерного зрения, которую используют для создания 3D‑туров. Об этом интересном проекте и будет мой рассказ. Я расскажу, чем опасны миллиметровые зазоры между полигонами в разметке, почему помимо типов помещений (кухня, спальня, санузел и тому подобное) нужно размечать структурно важные элементы — двери, окна, несущие стены, а также почему приоритизация геометрической согласованности важнее «средней» точности по пикселям.

Читать далее

+23

yelis_alt 21 окт в 05:15

Документный хаос? RAG-система придёт на помощь

Средний

13 мин

3.8K

Искусственный интеллектХранение данных * Поисковая оптимизация * Поисковые технологии * Машинное обучение *

Кейс

Статья описывает практическую реализацию системы Retrieval-Augmented Generation (RAG) для превращения документов в интерактивную базу знаний. Показано, как хранение эмбеддингов в Qdrant и интеграция с языковой моделью (LLM) позволяют быстро получать точные ответы на вопросы. Рассматриваются архитектура, ключевые компоненты и внутренние механизмы работы системы, полезные для разработчиков и новичков в области RAG.

Читать далее

+2

tac 21 окт в 03:40

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Средний

6 мин

1.1K

Машинное обучение * Алгоритмы * Обработка изображений *

Аналитика

Recovery Mode

Предисловие. Опубликовав первую часть понял, что само обучение перцептрона мало кого интересует, пока не будет экспериментальных результатов. И это разрешило мою дилемму о том, как сократить изложение для хабра. Мы пропустим разделы с объяснением архитектуры перцептрона TL&NL и начнем сразу с 4 раздела моей статьи.

4. Точность прогнозирования

В предыдущих разделах, мы стремились уменьшить число признаков (А - элементов), требуемых для решения задачи. И это понятно, т.к. обработка меньшего числа признаков требует меньше вычислительных затрат. Но выделяя только минимальное число признаков (и соответствующих A-элементов), и обучаясь только на части всех возможных примеров, мы рискуем построить слишком грубую модель. Её будет достаточно для решения задачи на обучающем множестве, но она будет плохо предсказывать. Представьте, что мы аппроксимируем окружность, и примеры нам показывают, что это многоугольник и во время прогнозирования мы исходим из того, на сколько углов мы обучили свою сеть. Поэтому, задача исследования в этом разделе состоит не в минимизации А-элементов, а в нахождении такого их количества, которое стабилизирует модель обобщения, которую строит перцептрон. Что означает стабилизация станет ясно из последующего изложения.

Для анализа точности прогнозирования будем использовать классические тесты MNIST по распознаванию рукописных цифр и MNIST Fashion по распознаванию пиктографических изображений одежды.

4.1. О методологии экспериментов

Отсутствие пред- и постобработки. Это не всегда очевидно, и различные исследователи часто явно или не явно используют некоторую предобработку обучающей и тестовой выборки. Мы должны строго разграничить обучающую выборку от тестовой, так, как например в результате некой нормализации происходит “подсказки от экспериментатора”, что не допустимо. Например, используя некие статистические характеристики и одинаково нормализуя обучающую и тестовую выборки происходит утечка информации, передача признаков тестовой выборки из обучающей выборки, или наоборот. По сути, это сводится к тому, что экспериментатор, зная тестовую выборку, косвенно подсказывает алгоритму, как ему обучаться. Поэтому важно, чтобы тестовая выборка была строго отделена от обучающей. Кроме того, мы хотим исследовать как именно работает алгоритм, а не то, как дополнительные манипуляции помогают решить задачу. Еще более важным, это становится при сравнении алгоритмов, в нашем случае перцептрона TL&NL с MLP+backprop. Поэтому в рамках наших экспериментов мы намеренно не допускаем никакой пред- и постобработки, за единственным исключением. В MNIST точки изображения даны в градации серого от 0 до 255. А нейросети удобнее работать с величинами на отрезке [0;1]. Поэтому единственную нормализацию, которую мы допускаем является разделение значения цвета на 255, как для обучающей, так и тестовой выборки.

Читать далее

0

andre_dataist 20 окт в 21:44

Почему маленькие ошибки больших языковых моделей важнее, чем кажутся

3 мин

1.8K

Искусственный интеллектМашинное обучение *

Обзор

ИИ становится всё умнее — но почему даже топовые модели всё ещё ошибаются в простых фактах, особенно если задать вопрос не по-английски? Бывает достаточно использовать одно неверное по смыслу слова, чтобы весь ответ оказался неверным.

Новое исследование PsiloQA неожиданно меняет акцент: оказывается, самые тонкие и опасные ошибки LLM часто проходят незамеченными именно потому, что стандартные проверки их не ловят — и ещё реже на других языках. Команда собрала огромный датасет из миллионов коротких галлюцинаций на 14 языках, чтобы понять: в чём уязвимость моделей, и какие методы реально помогают найти эти проблемы.

Разбираемся, как ИИ учится находить свои промахи, зачем детально размечать даже самые крошечные ошибки и почему эта тонкая работа может сыграть ключевую роль в будущем честных и универсальных ИИ-моделей.

Читать далее

+2

Upgini 20 окт в 17:25

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Простой

5 мин

1.5K

Машинное обучение * Искусственный интеллектBig Data * Алгоритмы * Natural Language Processing *

Туториал

Перевод

Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.

Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.

Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.

Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.

Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.

Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.

👉 GitHub - upgini/upgini: Data search library for Machine Learning

Читать далее

+2

olegchir 20 окт в 15:09

Аттракшен инжиниринг и MCCP

5 мин

422

Блог компании Anarchic AIИскусственный интеллектМашинное обучение *

Мнение

В последний месяц очень форсится идея о том, что для универсального промпта нужно правильно натаскать контекст, подключить правильные тулы и MCP, и вот тогда-то наступит счастье.

Итог этой идеи известен каждому руководителю, который пытался сделать для сотрудника идеальные условия, в которых он наконец-то сможет творить, а не заниматься рутиной. Это помогает лишь частично. Если у человека есть возможности что-то делать — не означает, что он пойдет и сделает. Для действий нужны уже некие внутренние мотиваторы. Руководитель уже может капать на нервы очень конкретным образом, в дополнение к формуле «морковка сзади, морковка спереди».

Читать далее

+5

kiselevd 20 окт в 12:46

Как нейрофизиологи Дэвид Хьюбел и Торстен Визель неожиданно для себя помогли в создании машинного зрения

Средний

6 мин

825

Блог компании Online patentМашинное обучение * Искусственный интеллектИстория ITНаучно-популярное

Ретроспектива

В начале 1960-х у нас и в Америке появилась новая разновидность машинного зрения – лазерная, и приборы лазерного машинного видения – лидары. Во второй половине того десятилетия уже продавались промышленные тепловизоры. В основанном в 1966 году Центе искусственного интеллекта Стэнфордского исследовательского института построили программируемого робота колесиках, оснащенного антенной, телекамерой, ультразвуковыми дальномерами и чувствительными демпферами на случай столкновений, способного двигаться по заданному пути, самостоятельно обходя препятствия, а поскольку он при этом все время сам трясся, его так и назвали Shakey (Трясун). Уиллард Бойл и Джордж Смит из Bell Labs изобрели ПЗС-матрицу из светочувствительных диодов, которую окрестили «вездесущим цифровым глазом», новой цифровой ипостасью фотопластинок, фотопленок, телекамер, фотоэлектронного умножителя и т.п.

Читать далее

+6

remptasilearn 20 окт в 11:24

Когда робот учится чувствовать: имитируемые эмоции и этика взаимодействия с машинами

Средний

4 мин

384

Искусственный интеллектМашинное обучение * Научно-популярноеРобототехника

Мнение

Можно ли научить машину не просто распознавать эмоции, а действительно чувствовать? Что вообще значит «эмоция» для нейронной сети, у которой нет тела, боли и страха? В статье разбираюсь, как инженеры, программисты и философы одновременно пытаются встроить человечность в код, что из этого выходит на практике, и почему всё это не только про технологии, но и про нас самих.

Читать далее

0

nikgerasimenko 20 окт в 10:26

Мы открыли для всех доступ к Kandinsky Video

Простой

3 мин

2.4K

Блог компании СберБлог компании SberDevicesМашинное обучение * Обработка изображений * Искусственный интеллект

Обзор

Ура! Состоялся публичный релиз разработанной Сбером модели Kandinsky Video в Telegram-боте GigaChat и Kandinsky. Модель умеет создавать видео по тексту и оживлять изображения.

Узнать, как генерировать

+15

kpshinnik 20 окт в 08:02

Что «под капотом» у DeepSeek-V3.2-Exp? Китайцы нашли способ удешевить нейросети

Простой

3 мин

9K

Искусственный интеллектМашинное обучение * Исследования и прогнозы в IT * Облачные вычисления *

Обзор

Привет, Хабр! Китай снова выпустил кое-что интересное, так что давайте разбираться.

Еще в сентябре у китайцев вышла новинка — DeepSeek-V3.2-Exp, экспериментальная версия последней модели DeepSeek-V3.1-Terminus. Цели и задачи у них вполне определенные: сделать архитектуру трансформеров еще более эффективной. Причем на сайте Hugging Face говорится, что особый акцент стартап делает на повышение вычислительной эффективности при обработке длинных текстовых последовательностей.

Читать далее

+6

19blackadder97 20 окт в 08:00

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

Средний

8 мин

3.3K

Блог компании ЯндексМашинное обучение * Искусственный интеллектАлгоритмы * Natural Language Processing *

Всем привет! Меня зовут Денис Кузнеделев, я работаю в команде Yandex Research. Моё основное направление деятельности на данный момент — задача сжатия и ускорения больших языковых и картиночных моделей. Затраты на обучение, инференс и деплой LLM стали одной из ключевых инфраструктурных проблем индустрии: дефицит вычислительных ресурсов, нехватка видеопамяти и высокие требования языковых моделей к вычислительным ресурсам препятствуют масштабированию решений.

Сегодня я расскажу о методе неравномерного сжатия нейронных сетей EvoPress, который мы предложили совместно с коллегами из ETH Zurich и представили в июле этого года на одной из ведущих конференций по машинному обучению — ICML.

Читать далее

+39

Viktorbull 20 окт в 03:01

ТОП-12 бесплатных сайтов и онлайн инструментов для генерации изображений в 2025 году

Простой

10 мин

19K

Машинное обучение * Искусственный интеллектОбработка изображений *

Обзор

Генерация изображений нейросетями стала «обычной кнопкой» рядом с привычными инструментами дизайна. Сегодня можно создать картинку по описанию на русском языке, прямо в браузере, часто без регистрации и, что важно, — бесплатно. Такой «free image generator» полезен не только дизайнерам: предприниматели собирают карточки товара и hero-баннеры, SMM-специалисты — креативы и сторис, журналисты и блогеры — иллюстрации к материалам, разработчики — прототипы интерфейсов и игровые мокапы.

Почему эта тема так «зашла»?

Читать далее

+1

DenisSafronov 19 окт в 20:24

RL (RLM): Разбираемся вместе

Средний

12 мин

1.6K

Машинное обучение * Искусственный интеллектАлгоритмы *

Обзор

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

Читать далее

+6

andre_dataist 19 окт в 14:06

Как роботы начинают учиться гораздо быстрее

3 мин

2.5K

Искусственный интеллектМашинное обучение *

Обзор

ИИ в робототехнике за последние годы сделал огромный скачок, но все равно попадает в ловушки повседневности. В лаборатории всё работает идеально, а на фабрике или в квартире робот вдруг не справляется с элементарными задачами. Почему современные алгоритмы так часто буксуют, когда сталкиваются с реальностью?

Свежий взгляд на проблему предложили исследователи из Оксфорда. Их главный аргумент звучит достаточно просто: секрет не только в мощности железа или объёме данных, а в том, КАК построено обучение. Роботы начинают учиться быстрее людей не потому, что повторяют наши инструкции, а благодаря гибким методам, которые учитывают шумные сенсоры, разные задачи и даже вмешательство человека по ходу работы.

В этом обзоре расскажу о том, как современные роботы осваивают незнакомые задачи за часы, почему объединение данных, грамотных алгоритмов и понятных инструментов меняет всю индустрию, и самое главное — к чему это приведёт нас в ближайшем будущем.

Читать далее

0

abyakovenko 19 окт в 08:24

Внутренние представления интерактивных мировых моделей

Простой

7 мин

1K

Машинное обучение * Искусственный интеллект

Дайджест

Вы не задумывались, почему у нас уже есть Sora/Veo и бесконечный поток нагенерированных роликов, но "Матрица" интерактивных миров где можно действовать всё ещё есть только в лабораториях? Разбираем, что мешает получить 24 FPS интерактивного видео на флагманской видеокарте, как модели запоминают мир и зачем им обучаемое сжатие контекста.

Читать далее

0

Eroric 19 окт в 06:26

Для Кремниевой долины наступила эра «хард-тека»

7 мин

11K

Искусственный интеллектМашинное обучение * IT-компанииКарьера в IT-индустрии

Из песочницы

Перевод

Попрощайтесь с эпохой потребительских сайтов и мобильных приложений. Искусственный интеллект положил начало эре, которую инсайдеры из инновационной столицы страны именуют «хард-теком».

Читать далее

+10

6

7 8 ...