AIRI / Статьи / Хабр

Как стать автором

ПрофильСтатьи58Подписчики317Сотрудники5

AA_VA 12 дек 2024 в 11:52

Homo clickus. Как моделирование кликающих людей пригодится для сегментации изображений

Сложный

13 мин

1.1K

Блог компании AIRIАлгоритмы*Искусственный интеллектМашинное обучение*Обработка изображений*

Кейс

Приветствую всех читающих!

Меня зовут Антон Антонов, я инженер по искусственному интеллекту, работаю в Институте искусственного интеллекта AIRI в команде, которая занимается Embodied AI — областью, связывающей робототехнику, компьютерное зрение и большие языковые модели.

Недавно наша группа получила приятное известие: нашу статью с описанием модели того, как люди кликают и тапают на картинки, приняли на грядущий NeurIPS! Она будет полезна, чтобы тестировать модели интерактивной сегментации, которые помогают автоматизировать и ускорить процесс разметки изображений человеком.

Ниже я хотел бы подробнее рассказать о нашей разработке.

Кликнуть

+7

IrinaArmstrong 10 дек 2024 в 13:33

Задача Emotional FusionBrain 4.0: итоги и победители

Средний

9 мин

908

Блог компании AIRINatural Language Processing*Искусственный интеллектХакатоныРабота с видео*

Кейс

Всем привет! На связи снова лаборатория FusionBrain!

В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стало частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект.

Теперь пришла пора подводить итоги!

Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

Читать далее

+10

jehb4ik 3 дек 2024 в 08:00

Как мы приняли участие в соревновании по машинной диагностике затемнений в лёгких MIDRC XAI Challenge

Сложный

15 мин

1.1K

Блог компании AIRIСпортивное программирование*ЗдоровьеМашинное обучение*Алгоритмы*

Кейс

Всем привет! Мы — научно‑исследовательская лаборатория «Сильный ИИ в медицине» в Институте AIRI. Наша группа разрабатывает решения на основе искусственного интеллекта в медицине. На днях стало известно, что мы заняли призовое, пятое место в конкурсе «MIDRC XAI Challenge: Decoding AI Decisions for Pneumonia on Chest Radiographs» с опытом участия в котором, мы хотели бы поделиться.

Читать далее

+1

dkorzh10 12 ноя 2024 в 12:45

Голос под защитой. Запускаем хакатон SafeSpeak-2024, посвящённый борьбе с голосовыми дипфейками

Средний

5 мин

1.2K

Блог компании AIRIИнформационная безопасность*ХакатоныМашинное обучение*Искусственный интеллект

Обзор

Всем привет! Как и многие читатели Хабра (надеемся), мы в AIRI и МТУСИ терпеть не можем телефонных мошенников. К сожалению, с каждым годом арсенал их методов расширяется. А в связи с развитием и удешевлением ML‑решений в руках мошенников появляются предобученные модели синтеза речи и преобразования голоса.

ML‑сообщество, конечно же, активизировалось для борьбы с этой и другими проблемами, связанными с распространениями голосовых подделок. Чтобы привлечь к решению задач безопасности голосовой коммуникации больше исследователей, наша команда решила провести хакатон SafeSpeak-2024, посвящённый разработке технологий обнаружения аудио‑спуфинга, и нацеленный на решение актуальных проблем безопасной голосовой аутентификации, а также защиту биометрических систем от атак.

Подробности — в тексте ниже.

Читать далее

+1

screemix 2 ноя 2024 в 13:57

Prompt Me One More Time. Учим LLM строить графы знаний из текстов

Сложный

10 мин

9.1K

Блог компании AIRINatural Language Processing*Алгоритмы*Искусственный интеллектData Mining*

Кейс

Привет, Хабр! Меня зовут Алла, я работаю младшим исследователем в команде Memory‑Augmented models в AIRI и занимаюсь ресерчем на пересечений графов знаний и языковых моделей. Потребность в таких изысканиях понятна любому, кто пытался добиться от ChatGPT точного ответа на конкретный вопрос: подобрать литературу для курсовой, вспомнить название фильма по описанию и тому подобное. Очень часто модель начинает галлюцинировать и выдумывать факты, которых не существует.

Один из способов решения этой проблемы — связать LLM с графом знаний, но сами графы тоже должен кто‑то наполнять. Мы с коллегами доказали, что эту задачу можно автоматизировать с помощью LLM и предложили своё решение, названное Prompt Me One More Time (фанаты Бритни тут?), о котором мне бы и хотелось сегодня здесь рассказать. За подробностями же можно обратиться к статье, представлена нами на воркшопе TextGraphs-17 конференции ACL-2024, недавно прошедшей в Тайланде.

Читать далее

+17

THunderCondOR 30 окт 2024 в 07:37

Как мы выиграли соревнование CLEF 2024 по генерации медицинских снимков

Сложный

11 мин

1.3K

Блог компании AIRIАлгоритмы*ЗдоровьеОбработка изображений*Машинное обучение*

Кейс

Всем привет! Меня зовут Михаил Чайчук, я учусь в магистратуре Вышки на ФКН, где также являюсь исследователем в НУЛ моделей и методов вычислительной прагматики. А недавно я пришел работать в AIRI на должность инженера-исследователя в команду Прикладное NLP, которой руководит Елена Тутубалина. Вместе с ней мы приняли участие в соревновании ImageCLEFmed MEDVQA-GI 2024 по генерации медицинских картинок, которое проводилось в рамках конференции CLEF 2024.

Наш результат оказался лучшим среди 27 зарегистрированных команд! Мы уже опубликовали статью в сборнике соревнования, здесь же я расскажу, как нам удалось добиться победы.

ДИСКЛЕЙМЕР

В этом тексте содержатся изображения, имитирующих результаты эндоскопических исследований желудка и кишечника, таких как гастроскопия и колоноскопия. К сожалению, редактор Хабра не умеет блюрить картинки. Поэтому если вы чувствительны к подобным фотографиям, от чтения этой статьи вам лучше воздержаться.

Приятного ~~аппетита~~чтения!

Читать далее

+8

Sayan_kotor 3 окт 2024 в 08:44

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Простой

11 мин

6.2K

Блог компании AIRIИскусственный интеллектМашинное обучение*Учебный процесс в ITNatural Language Processing*

Кейс

Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас.

На словах всё красиво. Но три года назад мы заметили, что и магистры, и работники индустрии, связанной с AI, часто просят «объяснить, как же все‑таки работают трансформеры, потому что из научной статьи ничего не понятно». Так происходит из‑за того, что многое, что в статьях считается очевидным и само собой разумеющимся, очень плохо разъясняется в учебной литературе или существующих курсах. Как следствие, многие не могут использовать трансформеры для решения практических задач и реализации своих идей.

Эта трудность побудила нас создать полноценный курс по трансформерам, в котором проработаны такие проблемные точки и который адаптирован для студентов с разным профессиональным бэкграундом. О нём я и расскажу в этой статье.

Мы уже апробировали курс на лекциях в Сколтехе, МГУ и Сбер Университете, и написали в AIRI о нём статью, которую представили на воркшопе по преподаванию на одной из самых популярных мировых конференций по NLP — ACL-2024. Материалы академической версии курса можно найти в нашем репозитории.

Приятного чтения!

Читать далее

+8

alstar82 20 сен 2024 в 14:03

Улучшаем навигацию роботов с помощью нейронного потенциального поля

Сложный

9 мин

4K

Блог компании AIRIАлгоритмы*Машинное обучение*РобототехникаИскусственный интеллект

Кейс

Всем привет! Меня зовут Алексей Староверов, я научный сотрудник группы «Embodied agents» в AIRI. К числу моих научных интересов в основном относятся алгоритмы обучения с подкреплением (RL) и их применение для робототехнических систем. В этом году в рамках конференции ICRA 2024 мы с коллегами из МФТИ представили статью на тему автономной навигации мобильных роботов, о которой я бы и хотел вам рассказать.

Читать далее

+25

IrinaArmstrong 17 сен 2024 в 11:56

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

Простой

4 мин

890

Блог компании AIRINatural Language Processing*Искусственный интеллектАлгоритмы*Работа с видео*

Мы в лаборатории FusionBrain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.

Мы также любим придумывать соревнования по этой теме. Так, команда FusionBrain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио.

В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional FusionBrain 4.0. Ниже — подробности и детали соревнования.

Читать далее

+4

AlexanderTelepov 12 сен 2024 в 11:18

FREED++. Ускоряем поиск новых лекарств с помощью нейросетей

Сложный

12 мин

1.7K

Блог компании AIRIХимияИскусственный интеллектМашинное обучение*Алгоритмы*

Кейс

Привет! Меня зовут Александр Телепов, я — исследователь в Институте AIRI. Наша команда занимается применением глубокого обучения в науках о жизни. В сферу наших интересов входят такие задачи, как дизайн материалов, анализ растворимости или поиск новых лекарственных препаратов. Про последнее я бы хотел поговорить поподробнее.

О том, что сегодня для поиска новых соединений используют нейросети, слышали многие. Взять хотя бы нашумевший AlphaFold 3 от DeepMind, решающий задачу генерации трехмерной структуры разнообразных молекулярных комплексов. Существуют и другие задачи, в которых нейросети преуспели над классическими численными методами. Ярчайший пример — генерация молекул‑лекарств. Одним из самых заметных подходов к этой задаче стал фреймворк генерации молекул‑лекарств на основе методов обучения с подкреплением FREED. Но и он оказался далёк от идеала.

Не так давно наша научная группа воспроизвела, тщательно исследовала и существенно улучшила FREED. Мы представим свои результаты в журнале TMLR, статья доступна на архиве. Здесь же я кратко расскажу про сам FREED и его проблемы, а также суть наших исправлений этого подхода.

Читать далее

+15

macderru 6 сен 2024 в 08:17

Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения

Средний

11 мин

2.5K

Блог компании AIRIИскусственный интеллектМашинное обучение*Обработка изображений*Алгоритмы*

Кейс

Привет, Хабр! Меня зовут Вадим, я — младший научный сотрудник группы Controllable Generative AI лаборатории FusionBrain в AIRI. Последние несколько лет я занимаюсь исследованием генеративных моделей в контексте задачи редактирования фотографий. Мы с командой накопили большую экспертизу и хотели бы поделиться ей.

Совсем недавно мы выложили препринт статьи, которую мы представим на ECCV этой осенью (сама статья, её код, demo на HuggingFace). Там мы предложили метод редактирования реальных изображений с помощью диффузионных моделей, который достигает лучшего компромисса между качеством редактирования и сохранением структуры исходного изображения, а также эффективен с вычислительной точки зрения. В данной статье я хотел бы рассказать о том, почему приходится делать такой выбор, и как мы эту проблему обошли. Приятного чтения!

Читать далее

+11

shappiron 6 авг 2024 в 08:24

Что не так с расчётом биологического возраста?

Простой

14 мин

3.8K

Блог компании AIRIАлгоритмы*Машинное обучение*Искусственный интеллектБиотехнологии

Мнение

Привет, Хабр! Меня зовут Дмитрий Крюков, я — научный сотрудник лаборатории «Сильный ИИ в медицине» в AIRI. Недавно мы опубликовали статью на стыке биологии старения и машинного обучения, в которой раскритиковали использование так называемых эпигенетических часов старения для измерения омоложения клеток в процессе клеточного репрограммирования. Тема часов старения уже поднималась на Хабре (раз, два, три) — настолько она стала популярной в современной биологии с приходом в неё методов машинного обучения. А уж тема репрограммирования клеток, которую Юрий Дейгин (кстати, рекомендую его блог на Хабре) с легкой руки назвал «эпиоткатом», так вообще превратилась в гигантское направление клеточной биологии и инженерии тканей.

Однако в этой статье мне хотелось бы поделиться с вами своей историей. Историей того, как я медленно проникал в глубины математики и концепцию часов старения. В один прекрасный момент я ужаснулся тому, насколько заблуждения и когнитивные искажения нормализовались в этой части науки. Чтобы показать, как машинное обучение может зло подшутить над учёными, я последовательно введу в текст все ключевые термины, после чего расскажу, почему расчёт неопределённости так важен в практическом машинном обучении и в биологии старения в частности. Понимаю, что вряд ли мне удастся исчерпать эту тему в рамках одной статьи, однако, я сделаю всё, что в моих силах, чтобы заставить вас настороженно прищуривать взгляд, едва вы услышите что‑либо про биологический возраст или часы старения.

Читать далее

+19

Howuhh 29 июл 2024 в 10:01

XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением

Сложный

11 мин

2.7K

Блог компании AIRIАлгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Кейс

Хабр, привет! Меня зовут Александр Никулин, я аспирант МФТИ и один из исследователей научной группы «Адаптивные агенты» в Институте AIRI.

Как можно понять из названия, наша группа заинтересована в создании адаптивных агентов, способных обобщаться на новые задачи после обучения. Направление это относительно новое и в литературе именуется как контекстное обучение с подкреплением (далее in‑context RL). И мы активно двигаем его вперед! Совсем недавно выпустили две статьи, обе приняты на ICML 2024, а ещё среду на JAX со множеством задач для мета‑обучения. Мы обязательно расскажем о них чуть позже (подписывайтесь!), а в этой статье хочется затронуть наш недавний препринт. В нем мы представили и выложили в open‑source огромный (по меркам RL) и пока единственный датасет для in‑context RL. На сбор траекторий для 40к задач и 130B транзиций потребовалось 50 000 GPU‑часов. Эту работу мы проделали совместно с коллегами из лаборатории T-Bank AI Research.

Датасетом уже можно пользоваться, так что рассказываем и надеемся на будущий акцепт статьи! Ну а начнем чуть издалека, расскажу что такое in‑context learning, как он появился в RL и почему нам понадобился собственный датасет.

Читать далее

+12

retir 26 июл 2024 в 12:18

Без компромиссов. Как добиться одновременно высокого качества в редактировании и инверсии изображений с помощью StyleGAN

Сложный

12 мин

2.3K

Блог компании AIRIАлгоритмы*Обработка изображений*Машинное обучение*Искусственный интеллект

Кейс

Всем привет! Меня зовут Денис Бобков, я сейчас обучаюсь на совместной магистерской программе ВШЭ и ШАД под названием «Современные компьютерные науки», а также работаю исследователем в AIRI в команде Controllable Generative AI лаборатории FusionBrain. Область моих исследований касается методов редактирования изображений.

Захотелось добавить на фото улыбку или очки? Поменять причёску или её цвет? Современные инструменты, которые делают это, не способны одновременно изменить именно то, что тебе нужно, не испортив всё остальное, причём так, чтобы изменение выглядело реалистично, а сам процесс изменения не выполнялся слишком долго. Нашей же команде удалось довольно сильно приблизиться к тому, чтобы выполнить все три условия сразу.

Совсем недавно нашу статью приняли на одну из топ‑конференций по компьютерному зрению CVPR 2024 (эта конференция недавно стала самой цитируемой!). Наша статья про то, как можно редактировать лица в высоком качестве с помощью генеративной модели StyleGAN. Почитать её целиком можно на архиве, а здесь же я хотел кратко рассказать о том, что именно мы сделали.

Читать далее

+18

ofantomas 11 июл 2024 в 12:09

Играем в GOLF. Как обучить нейросети точно предсказывать геометрию молекул, используя малое число данных

Средний

8 мин

2K

Блог компании AIRIХимияФизикаИскусственный интеллектBig Data*

Кейс

Привет! Меня зовут Артем Цыпин, я исследователь в Институте искусственного интеллекта AIRI. Наша команда занимается применением глубокого обучения в науках о жизни. В сферу наших интересов входят такие задачи как поиск новых лекарственных препаратов, дизайн материалов, анализ растворимости и другие.

Как вы уже наверное догадались, мы не химики и молекулы в лаборатории не синтерзируем. Вместо этого мы учимся предсказывать их свойства на компьютерах, причём, привлекаем для этого нейросети — оказывается, так выходит сильно быстрее, чем с помощью традиционных квантовохимических пакетов.

Но, есть и обратная сторона медали: чтобы нейросеть точно предсказывала энергии молекул, ей нужно очень много данных. Однако, мы нашли способ, как сильно ослабить это ограничение, и сегодня я вам о нём расскажу.

Читать далее

+18

KovalenkoAE 26 июн 2024 в 11:50

Состязательные атаки на промышленный ИИ и способы защиты от них

Средний

9 мин

1.3K

Блог компании AIRIИскусственный интеллектПромышленное программирование*Алгоритмы*Информационная безопасность*

Обзор

Привет, Хабр! Меня зовут Александр Коваленко, я младший научный сотрудник группы «ИИ в промышленности» в AIRI. В область наших интересов входит применение систем искусственного интеллекта в процессах различных предприятий. И, как и многие аспекты промышленной деятельности, промышленный ИИ может быть атакован злоумышленниками.

Эта статья будет посвящена влиянию состязательных атак на системы диагностики неисправностей. Искусственный интеллект в нашем случае представлен классификаторами на основе нейронных сетей, а в качестве данных выступают сигналы с датчиков, образующих многомерные временные ряды. Я постараюсь объяснить, зачем вообще все это нужно, приведу обзор известных на сегодня методов состязательных атак и способов защиты от них, а также кратко расскажу про наши успехи, представленные в недавно опубликованной с коллегами из ИСП РАН статье Adversarial Attacks and Defenses in Fault Detection and Diagnosis: A Comprehensive Benchmark on the Tennessee Eastman Process.

Приятного чтения!

Читать далее

+5

mikhailpautov 31 мая 2024 в 16:48

Как защититься от кражи нейронной сети: устойчивые цифровые водяные знаки

Сложный

8 мин

4.6K

Блог компании AIRIИнформационная безопасность*Алгоритмы*Машинное обучение*Искусственный интеллект

Кейс

Привет, Хабр! Меня зовут Миша Паутов, я аспирант Сколтеха и научный сотрудник группы Доверенные и безопасные интеллектуальные системы Института AIRI. Совсем недавно вместе коллегами мы предложили новый метод создания цифровых водяных знаков для нейронных сетей. Такие объекты, по-другому называемые ватермарками, можно использовать для определения того, что вашу нейросеть кто-то скопировал и выдаёт за свою. Здесь я расскажу, в чем состоит идея предложенного метода, а более детально о нем можно почитать в препринте статьи, принятой на международную конференцию IJCAI.

Читать далее

+2

grafft 27 мая 2024 в 16:12

Как мы съездили на ICRA2024

Средний

13 мин

2.2K

Блог компании AIRIМашинное обучение*РобототехникаИскусственный интеллект

Репортаж

Привет Хабр! Меня зовут Александр Панов, и я руковожу научной группой «Нейросимвольная интгерация» в AIRI, работаю в ФИЦ ИУ РАН и преподаю ИИ и RL в МФТИ. К числу научных интересов нашей группы относится обучение с подкреплением (мультиагентное, с моделями мира, память, трансформерами), планирование поведения и фундаментальные модели для роботизированных платформ.

Совсем недавно мы с коллегами вернулись из Йокогамы, где проходила ведущая конференция по робототехнике — IEEE International Conference on Robotics and Automation или просто ICRA2024. В этом посте я подробно расскажу о том, что интересного, на мой взгляд, было представлено в этом году (лишь небольшая доля всего того, что там было, так как конференция большая), поделюсь впечатлениями и фотографиями (сделанными на телефон — не судите строго!), а также кратко изложу, с чем там выступала наша команда.

Читать далее

+8

Razant 22 мая 2024 в 09:47

Большие языковые модели гораздо линейнее, чем мы думали

Сложный

4 мин

19K

Блог компании AIRIАлгоритмы*Машинное обучение*Искусственный интеллектNatural Language Processing*

Кейс

Хабр, привет! Это снова Антон Разжигаев, аспирант Сколтеха и научный сотрудник лаборатории Fusion Brain в Институте AIRI, где мы продолжаем углубляться в изучение языковых моделей. В прошлый раз мы выяснили, что эмбеддинги трансформеров-декодеров сильно анизотропны. На этот раз я бы хотел рассказать об их удивительной линейности, ведь нашу статью про обнаруженный эффект («Your Transformer is Secretly Linear») несколько дней назад приняли на международную конференцию ACL!

Читать далее

+68

kuznetsoff87 10 апр 2024 в 09:12

OmniFusion 1.1: мультимодальность теперь и на русском

Сложный

7 мин

11K

Блог компании AIRIАлгоритмы*Обработка изображений*Искусственный интеллектNatural Language Processing*

В прошлом году на конференции AIJ 2023 мы представили первую версию OmniFusion — мультимодальной языковой модели (LLM), способной поддерживать визуальный диалог и отвечать на вопросы по картинкам. Спустя несколько месяцев мы готовы представить обновление — OmniFusion 1.1 — SoTA на ряде бенчмарков (среди моделей схожего размера) и, более того, модель хорошо справляется со сложными задачами и понимает русский язык! Самое главное — всё выкладываем в открытый доступ: веса и даже код обучения.

Ниже расскажем об особенностях модели, процессе обучения и примерах использования. В первую очередь остановимся на архитектуре, а потом отдельно расскажем о проделанных экспериментах как в части архитектурных трюков, так и о работе с данными. Ну а несколько интересных кейсов на англ и русском языках можно посмотреть на палитре ниже.

Читать далее

+20

2