Как стать автором
Обновить
63.59
Сначала показывать

Цветовая вычислительная фотография. Часть 1: Теория цвета

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.6K

Приветствую! Меня зовут Егор Ершов, я руковожу группой «Цветовая вычислительная фотография» в AIRI, а также заведую сектором репродукции и синтеза цвета ИППИ РАН. Область моих научных интересов касается способов регистрации и обработки изображений, что в той или иной степени касается любого человека, кто хоть раз пользовался камерой, монитором или проектором.

Вычислительная фотография лежит на стыке сразу нескольких дисциплин: физики, физиологии, компьютерных наук. Из‑за этого в ней ещё много сложного, но вместе с тем интересного и неизвестного. Я подготовил полноценный курс по алгоритмам вычислительной фотографии для МФТИ и ВШЭ, но мне также хотелось бы поделиться со всеми желающими его материалами в текстовом формате.

Этот курс посвящен как феномену цвета, механизмам его восприятия, исследованию зрительной системы человека, так и непосредственно алгоритмам цветовой вычислительной фотографии. Но в этой статье я бы хотел в общих чертах обрисовать проблему регистрации изображений, а также дать введение в теорию цвета, которая потребуется в дальнейших частях.

Читать далее

BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров578

Привет, Хабр!

Я — Андрей Саховский, исследователь SberAI и аспирант Сколтеха. Занимаюсь биомедицинским NLP, интересуюсь графами знаний, задачами извлечения информации из текстов медицинской тематики, языковыми моделями в хемоинформатике. Если вам тоже интересны эти научные области, обратите внимание на соревнование BioNNE‑L, которое организует наша команда исследователей из AIRI, МГУ и SberAI и которому будет посвящён этот текст.

Читать далее

Уроки химии: AMORE проверит готовность химических языковых моделей

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.5K

Привет! Мы, команда NLP‑исследователей из AIRI и Сбера, опубликовали недавно результаты исследования того, как языковые модели справляются с химическими задачами. Дело в том, что в последние годы интеграция методов обработки естественного языка в области химии неуклонно растёт, и это открывает новые горизонты для открытия лекарств. Однако возникает важный вопрос: действительно ли современные языковые модели научились понимать молекулы, или они просто запоминают их текстовые представления?

Чтобы выяснить это, мы создали ♡AMORE — метод, который проверяет, способны ли химические языковые модели различать одно и то же вещество в разных формах записи, например, при добавлении водородов, канонизации или изменении циклов. Мы протестировали самые популярные модели, такие как Text+Chem T5, MolT5, PubChemDeBERTa и другие, чтобы понять, насколько они устойчивы к таким изменениям.

О том, что мы обнаружили, — читайте в этой статье.

Читать далее

Как несбалансированный оптимальный транспорт помог нам сделать поиск барицентров распределений устойчивым

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров1.2K

Привет! Меня зовут Милена Газдиева, я являюсь научным сотрудником Института AIRI, а также инженером-исследователем и аспиранткой Сколтеха. Мои научные интересы лежат в области разработки генеративных моделей на основе оптимального транспорта (optimal transport, ОТ) и их приложений к различных задачам. Мы с коллегами добились успехов в повышении устойчивости таких моделей, и одна из наших статей по этой теме была принята на престижную конференцию по искусственному интеллекту ICLR 2025, которая в этом году будет проходить в Сингапуре. Сегодня я расскажу об этой работе, в рамках которой мы разработали метод оценки барицентров (взвешенных средних) распределений, устойчивый к различным выбросам и дисбалансам в данных.

Что это означает и зачем нужно — читайте далее.

Читать далее

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров827

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке занимает применение диффузионных моделей к различным задачам.

Не так давно мы получили приятную новость: нашу статью по семантическое выравнивание при генерации 3D‑моделей приняли на ICLR. В ней мы нашли способ, как построить выровненную генерацию 3D‑объектов, используя гайданс предобученной диффузионной модели, чтобы сделать редактирование или гибридизацию более надёжными. В этой статье хотелось бы кратко пересказать суть нашей работы.

Читать далее

Самые быстрые алгоритмы распределенного и асинхронного обучения (с точки зрения теории)

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров4.3K

Всем привет! Меня зовут Александр Тюрин, я руководитель группы «Методы оптимизации в машинном обучении» в AIRI и старший преподаватель Сколтеха. Мы с коллегами занимается оптимизацией распределённого обучения — это довольно актуальная проблема, учитывая, что современные модели обучаются на многих тысячах GPU.

За последние 2 года нам удалось сделать несколько открытий в асинхронных методах оптимизации, которые мы изложили в 5 статьях [1–5] на NeurIPS и ICLR. В этой статье я расскажу, в чём заключаются особенности распределённого обучения и что нового привнесли в него мы с точки зрения теории.

Читать далее

Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.7K

Ночная фотография — одна из самых трудных областей обработки изображений. Сложные условия освещения, повышенные шумы и нестандартные цветовые переходы создают серьезные преграды для алгоритмов, ориентированных на дневной сценарий. Однако совместными усилиями теоретиков и практиков возможно создать методы, позволяющие даже для ночных снимков со смартфона поднять качество до уровня профессиональной камеры.

Именно поэтому мы, команда исследователей из AIRI и ИППИ РАН, проводим в рамках воркшопа NTIRE при конференции CVPR 2025 «Night Photography Rendering Challenge 2025», в котором могут принять участие коллективы со всего мира, увлекающиеся наукой о данных и машинным обучением.

Подробности — в тексте ниже.

Читать далее

DeepSeek-R1 для чайников

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров56K

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.

Читать далее

Гессиан больше не нужен. Упрощаем оценку неопределенностей в машинном обучении

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров1.3K

Привет. Меня зовут Макс, с недавнего времени я занимаюсь в AIRI вопросами ИИ для вычислительной химии и физики. А до того работал в научной группе Т‑Банка, где занимался проблемой неопределенности нейронных сетей. Недавно нашу статью «Identity Curvature Laplace Approximation for Improved Out‑of‑Distribution Detection» приняли на WACV 2025 — престижную конференцию по машинному зрению.

В этой работе мы доказываем, что традиционные методы оценки неопределённости из семейства аппроксимаций Лапласа, основанные на учёте кривизны параметров модели с помощью Гессианов, не только излишне ресурсозатратны, но и в ряде случаев неточны. Взамен мы предлагаем использовать аппроксимацию с единичной матрицей и показываем, что на некоторых датасетах это работает лучше других классических вариантов аппроксимаций Лапласа, а иногда даже лучше небайесовских методов.

Подробнее о новом методе — в тексте ниже.

Читать далее

Эмоциональное принятие решений в LLM: исследование, которое мы показали на NeurIPS 2024

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.1K

Привет, Хабр! Меня зовут Михаил, я — младший научный сотрудник группы «ИИ в промышленности» в AIRI. В этом году на конференции NeurIPS 2024 мы представили работу, посвященную сложной теме современного ИИ — эмоциональным большим языковым моделям (LLM) В целом понятно, что LLM умеют так или иначе эмулировать эмоции, ведь их обучают по большей части на данных, сгенерированных человеком. А человек — весьма эмоциональное создание. Но

▪ что такое правильная эмуляция?

▪ насколько правильно происходит эта эмуляция?

▪ достаточно ли однораундовых бенчмарков, чтобы убедиться в правильной реакции на эмоциональные промпты?

Отвечая на первый вопрос, в рамках нашего исследования мы решили, что наиболее востребованными будут две «правильных» реакции на эмоциональные промпты. Первая — полное отсутствие реакции, строгая оптимальность. Вторая — эмоциональные реакции, согласованные с человеком (эмоциональный алайнмент). Такого агента можно использовать для моделирования социальных и экономических экспериментов, да и общаться с ним потенциально будет приятнее.

А вот для того, чтобы ответить на оставшиеся вопросы мы написали нашу работу. Давайте разбираться вместе!

Читать далее

∇²DFT — новый датасет и бенчмарк для решения задач квантовой химии с помощью нейросетей

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.7K

Привет, Хабр!

Меня зовут Кузьма Храбров, я инженер‑исследователь в AIRI и занимаюсь задачами на стыке машинного обучения, квантовой химии и вычислительной биологии. Вместе с командой мы создаем новые датасеты, обучаем новые модели и придумываем методы решения как фундаментальных, так и практических задач.

В этом посте я расскажу про наш новый датасет малых молекул медицинской химии и бенчмарк графовых нейронных моделей, который мы собрали усилиями большой команды исследователей из групп «Глубокое обучение в науках о жизни» и «Прикладное NLP» AIRI, EPFL, СПбГУ, ИСП РАН и ПОМИ РАН. Кроме создания датасета квантовохимических свойств размером 220 терабайт, мы оценили, насколько хорошо современные нейронные модели решают задачи предсказания энергий и атомарных сил, оптимизации энергии и предсказания гамильтонианов. Наше исследование приняли на конференцию NeurIPS 2024 на трек Датасеты и Бенчмарки.

Приятного чтения!

Читать далее

BABILong — бенчмарк для оценки LLM на больших контекстах

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.8K

Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который мы привезли на NeurIPS в этом году. Он оценивает то, насколько успешно современные модели умеют искать информацию в собственных гигантских контекстах. Оказалось, что зачастую главное — это не размер, а умение пользоваться.

В этой статье расскажем подробнее о наших экспериментах, а также о том, как эффективно использовать длинный контекст.

Читать далее

Homo clickus. Как моделирование кликающих людей пригодится для сегментации изображений

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров1.1K

Приветствую всех читающих!

Меня зовут Антон Антонов, я инженер по искусственному интеллекту, работаю в Институте искусственного интеллекта AIRI в команде, которая занимается Embodied AI — областью, связывающей робототехнику, компьютерное зрение и большие языковые модели.

Недавно наша группа получила приятное известие: нашу статью с описанием модели того, как люди кликают и тапают на картинки, приняли на грядущий NeurIPS! Она будет полезна, чтобы тестировать модели интерактивной сегментации, которые помогают автоматизировать и ускорить процесс разметки изображений человеком.

Ниже я хотел бы подробнее рассказать о нашей разработке.

Кликнуть

Задача Emotional FusionBrain 4.0: итоги и победители

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров882

Всем привет! На связи снова лаборатория FusionBrain!

В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стало частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект.

Теперь пришла пора подводить итоги!

Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

Читать далее

Ближайшие события

Как мы приняли участие в соревновании по машинной диагностике затемнений в лёгких MIDRC XAI Challenge

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров1K

Всем привет! Мы — научно‑исследовательская лаборатория «Сильный ИИ в медицине» в Институте AIRI. Наша группа разрабатывает решения на основе искусственного интеллекта в медицине. На днях стало известно, что мы заняли призовое, пятое место в конкурсе «MIDRC XAI Challenge: Decoding AI Decisions for Pneumonia on Chest Radiographs» с опытом участия в котором, мы хотели бы поделиться.

Читать далее

Голос под защитой. Запускаем хакатон SafeSpeak-2024, посвящённый борьбе с голосовыми дипфейками

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.2K

Всем привет! Как и многие читатели Хабра (надеемся), мы в AIRI и МТУСИ терпеть не можем телефонных мошенников. К сожалению, с каждым годом арсенал их методов расширяется. А в связи с развитием и удешевлением ML‑решений в руках мошенников появляются предобученные модели синтеза речи и преобразования голоса.

ML‑сообщество, конечно же, активизировалось для борьбы с этой и другими проблемами, связанными с распространениями голосовых подделок. Чтобы привлечь к решению задач безопасности голосовой коммуникации больше исследователей, наша команда решила провести хакатон SafeSpeak-2024, посвящённый разработке технологий обнаружения аудио‑спуфинга, и нацеленный на решение актуальных проблем безопасной голосовой аутентификации, а также защиту биометрических систем от атак.

Подробности — в тексте ниже.

Читать далее

Prompt Me One More Time. Учим LLM строить графы знаний из текстов

Уровень сложностиСложный
Время на прочтение10 мин
Количество просмотров8.3K

Привет, Хабр! Меня зовут Алла, я работаю младшим исследователем в команде Memory‑Augmented models в AIRI и занимаюсь ресерчем на пересечений графов знаний и языковых моделей. Потребность в таких изысканиях понятна любому, кто пытался добиться от ChatGPT точного ответа на конкретный вопрос: подобрать литературу для курсовой, вспомнить название фильма по описанию и тому подобное. Очень часто модель начинает галлюцинировать и выдумывать факты, которых не существует.

Один из способов решения этой проблемы — связать LLM с графом знаний, но сами графы тоже должен кто‑то наполнять. Мы с коллегами доказали, что эту задачу можно автоматизировать с помощью LLM и предложили своё решение, названное Prompt Me One More Time (фанаты Бритни тут?), о котором мне бы и хотелось сегодня здесь рассказать. За подробностями же можно обратиться к статье, представлена нами на воркшопе TextGraphs-17 конференции ACL-2024, недавно прошедшей в Тайланде.

Читать далее

Как мы выиграли соревнование CLEF 2024 по генерации медицинских снимков

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров1.3K

Всем привет! Меня зовут Михаил Чайчук, я учусь в магистратуре Вышки на ФКН, где также являюсь исследователем в НУЛ моделей и методов вычислительной прагматики. А недавно я пришел работать в AIRI на должность инженера-исследователя в команду Прикладное NLP, которой руководит Елена Тутубалина. Вместе с ней мы приняли участие в соревновании ImageCLEFmed MEDVQA-GI 2024 по генерации медицинских картинок, которое проводилось в рамках конференции CLEF 2024. 

Наш результат оказался лучшим среди 27 зарегистрированных команд! Мы уже опубликовали статью в сборнике соревнования, здесь же я расскажу, как нам удалось добиться победы.

ДИСКЛЕЙМЕР

В этом тексте содержатся изображения, имитирующих результаты эндоскопических исследований желудка и кишечника, таких как гастроскопия и колоноскопия. К сожалению, редактор Хабра не умеет блюрить картинки. Поэтому если вы чувствительны к подобным фотографиям, от чтения этой статьи вам лучше воздержаться.

Приятного аппетитачтения!

Читать далее

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров6K

Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас.

На словах всё красиво. Но три года назад мы заметили, что и магистры, и работники индустрии, связанной с AI, часто просят «объяснить, как же все‑таки работают трансформеры, потому что из научной статьи ничего не понятно». Так происходит из‑за того, что многое, что в статьях считается очевидным и само собой разумеющимся, очень плохо разъясняется в учебной литературе или существующих курсах. Как следствие, многие не могут использовать трансформеры для решения практических задач и реализации своих идей.

Эта трудность побудила нас создать полноценный курс по трансформерам, в котором проработаны такие проблемные точки и который адаптирован для студентов с разным профессиональным бэкграундом. О нём я и расскажу в этой статье.

Мы уже апробировали курс на лекциях в Сколтехе, МГУ и Сбер Университете, и написали в AIRI о нём статью, которую представили на воркшопе по преподаванию на одной из самых популярных мировых конференций по NLP — ACL-2024. Материалы академической версии курса можно найти в нашем репозитории.

Приятного чтения!

Читать далее

Улучшаем навигацию роботов с помощью нейронного потенциального поля

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров3.9K

Всем привет! Меня зовут Алексей Староверов, я научный сотрудник группы «Embodied agents» в AIRI. К числу моих научных интересов в основном относятся алгоритмы обучения с подкреплением (RL) и их применение для робототехнических систем. В этом году в рамках конференции ICRA 2024 мы с коллегами из МФТИ представили статью на тему автономной навигации мобильных роботов, о которой я бы и хотел вам рассказать.

Читать далее

Информация

Сайт
airi.net
Дата регистрации
Численность
101–200 человек