Как стать автором
Поиск
Написать публикацию
Обновить
763.32

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Глубокое обучение для квантовой химии. Часть II. Предсказание электронной плотности

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.2K

Всем привет! На связи снова Константин Ушенин из AIRI, и мы продолжаем говорить о глубоком обучении в квантовой химии. В прошлом посте мы немного разобрались в том, что такое молекула, как её представлять в компьютере, и как работают графовые нейронные сети.

В этот же раз я расскажу о том, какие результаты в этой области получила наша команда. Речь пойдет о новой архитектуре для предсказания электронной плотности LAGNet, про которую у нас недавно вышла статья в Journal of Cheminformatics [1]. Мы применили несколько интересных усовершенствований к модели DeepDFT, что позволило в 8 раз снизить требование к объёму необходимых данных и в целом сделало выучивание плотности более эффективным.

Но обо всём по порядку.

Восстание машин 2025: я изучил реальные риски со стороны нейросетей

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.3K

Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». 

Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами.

Читать

Внимание! Механизм внимания в трансформерах оказывается не таким уже незаменимым

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.3K

Механизм внимания в трансформерах, который уже много лет “is all we need”, оказывается не таким уже незаменимым. 

Это, конечно, не очень правдивый заголовок, но зато привлекает внимание. На самом деле речь пойдет о различных попытках заменить или хотя бы облегчить механизм внимания в трансформерах. Он во многом обеспечил успех моделей последних лет, но он же остается одним из узких мест. Дело в квадратичной сложности вычислений, из-за которой приходится ограничивать размеры входной последовательности. Ну и вообще, несмотря на все преимущества внимания, хотелось бы, чтобы оно, как основной двигатель моделей, было более экономично. 

Читать далее

Компьютерное зрение в сельском хозяйстве

Время на прочтение7 мин
Количество просмотров2K

Интеллектуальные системы, основанные на компьютерном зрении, проникли практически во все сферы жизни современного человека. Эти системы объединяют компьютерное зрение, искусственный интеллект (ИИ) и технологии машинного обучения и позволяют машинам имитировать зрительные и когнитивные способности человека для принятия обоснованных решений по поставленной задаче. Технология компьютерного зрения используется для обработки и интерпретации визуальной информации из окружающей среды, а технологии искусственного интеллекта (ИИ) вместе с алгоритмами машинного обучения применяются для распознавания закономерностей и прогнозирования действий. Эти интеллектуальные системы улучшают производительность за счет обучения с течением времени.

В этой статье мы рассмотрим использование компьютерного зрения в земледелии. Мы рассмотрим различные этапы так называемого цифрового сельского хозяйства, включая получение изображений, объединение и анализ изображений, принятие решений с помощью машинного обучения.

Читать далее

Hello self driving world! (Carla Simulator) — часть 1

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.5K

Друзья, всем привет! С каждым днем на дорогах становится все больше беспилотных автомобилей. Waymo уже обошел Lyft по количеству поездок в Сан-Франциско и подбирается к Uber. В Нью-Йорке, Шанхае и Москве можно увидеть сотни машин с датчиками на крыше. Как они работают? Что за магия приводит их в движение? 

Давайте погрузимся в мир Self-driving, рассмотрим основные компоненты и модули беспилотного автомобиля. А чтобы путешествие было более интересным — напишем свой беспилотник на Python в симуляторе Carla (UE4). В начале он будет просто стоять на месте, а в конце сможет ехать по маршруту и останавливаться перед препятствиями. Пристегивайтесь, мы отправляемся в путь!

Читать далее

Почему сознание нельзя запрограммировать (критика механистических теорий сознания)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров7.1K

Когда я общаюсь с разработчиками, работающими с современными LLM, часто слышу: "С GPT-4 происходит что-то странное. Это не просто автокомплит. Но и не человек. Что это?"

У многих есть интуитивное ощущение, что мы стоим на пороге чего-то большего, чем "статистические попугаи". Но в то же время что-то подсказывает: просто добавить еще параметров недостаточно.

Эта интуиция может оказаться верной. Но по причинам, которые глубже, чем кажется. Представьте: вы пытаетесь создать живую птицу, крутя ручку музыкальной шкатулки всё быстрее и быстрее. Проблема не в скорости вращения. Проблема в том, что вы пытаетесь получить одну категорию вещей из совершенно другой.

Сейчас я покажу вам четыре фундаментальных барьера, которые объясняют, почему ваши ощущения о современном ИИ могут быть правильными — и почему это открывает совершенно новые возможности.

Барьер первый: Рекурсивный парадокс (теорема Гёделя). В 1931 году математик Курт Гёдель доказал то, что должен знать каждый программист: любая система, достаточно сложная для работы с числами, неизбежно неполна. В ней всегда есть истинные утверждения, которые она не может доказать о себе.

Это не баг — это фича реальности.

Попробуйте написать программу, которая отвечает на вопрос: "Остановится ли эта программа?" Классическая проблема остановки. Если программа отвечает "да" — она остановилась, ответ верен. Если "нет" — тоже остановилась, ответ неверен. Если висит — не остановилась, подтверждая "нет".
Система не может полностью "отрефлексировать" саму себя без выхода на метауровень.

Читать далее

Speaker Recognition. Как искать человека по голосу

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Поговорим про задачу Speaker Recognition. О том, как работает такая система, из каких этапов состоит, как мы ее оцениваем.

Читать далее

Что такое NER, зачем он нужен и когда не поможет

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.8K

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста.

Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения.

Привет, меня зовут Александр Агеев, на протяжении года я занимался NER-моделями для определения сущностей на этикетках продуктов питания. Несмотря на мою любовь к NER, у этой технологии есть свои границы — кейсы, которые она не может решить хорошо, поэтому надо подключать другие инструменты. В статье я дам критерии применимости NER для решения практических задач.

Читать далее

«Скайнет» наоборот: как вырастить и обучить ИИ с помощью Дарвин-Гёдель машины для улучшения человеческой демографии

Уровень сложностиСредний
Время на прочтение58 мин
Количество просмотров1.9K

Разрабатываем и растим «цифрового губера» - консультанта по вопросам государственного политического управления, демографии и миграции. Решаем задачу оптимизации экономики и миграционной политики для устойчивого демографического роста в 89 регионах с помощью   взаимодействующих друг с другом и обменивающихся опытом ИИ-агентов, на основе мутаций, скрещивания и эволюции.   Мультиагентное обучение,  Multi-Agent Deep Deterministic Policy Gradient и Darwin Gödel Machine.

Читать далее

Что же такое TPU

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров15K

В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU.

Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA).

Общая информация

Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность.

Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute.

Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM).

Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

Читать далее

Компьютерное зрение для начинающих

Время на прочтение7 мин
Количество просмотров6.6K

Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.

Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.

В этой статье мы поговорим о том, как все это работает и какие основные технологии и алгоритмы используются. Мы не будем глубоко погружаться в вопросы, связанные с реализацией методов компьютерного зрения, так как задача этой статьи объяснить основные принципы.

Читать далее

Как мы учим роботов ходить плавно, или Почему градиент градиента — это не опечатка, а ключ к безопасной робототехнике

Время на прочтение8 мин
Количество просмотров7.3K

Привет, Хабр! Меня зовут Лёша Лещанкин, я руковожу проектом Humanoids в Яндексе. В начале 2025 года мы запустили это направление при поддержке фонда технологических инициатив компании — Yet Another Tech Fund, созданного специально для реализации новаторских идей сотрудников. Наша цель — создать гуманоидных роботов, которые смогут уверенно и безопасно работать рядом с людьми в самых разных условиях: от логистики и промышленности до сферы обслуживания.

В рамках нашего проекта мы тестируем разные RL‑модели. И сегодня расскажу об одном из методов, который позволил нам перейти от «робот дёргается и падает» к «робот ходит плавно 500 шагов подряд» — Lipschitz‑Constrained reinforcement learning.

Читать далее

Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.4K

Привет, Хабр! Мы – Даниил Соловьев и Михаил Никитин из команды направления распознавания лиц. Сегодня фокусируемся на задаче распознавания лиц на изображениях низкого разрешения (low resolution face recognition, low-res FR). Она актуальна в первую очередь при анализе данных видеонаблюдения, так что если перед вами сейчас стоит подобная задача (или просто интересно, как она решается) — статья для вас. Расскажем про проблемы и сложности распознавания лиц низкого разрешения, подходы к решению задачи, в том числе свежий PETALface с конференции WACV 2025. Также поделимся ссылками на исследования, которые подробнее освещают каждый подход.

Читать далее

Ближайшие события

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров6.9K

Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.

Читать далее

ИИ-суперагенты: приближают ли они нас к AGI?

Время на прочтение12 мин
Количество просмотров2.5K

На протяжении веков идея машины, способной мыслить наравне с человеком, воспринималась скорее как сюжет научной фантастики, чем как практическая инженерная задача. Но сегодня появление ИИ-суперагентов, автономных систем, способных самостоятельно планировать и достигать сложных целей, заставило даже самых закоренелых скептиков задаться вопросом: мы наблюдаем за созданием очередного умного инструмента или присутствуем при строительстве фундамента, на котором будет создан настоящий AGI? Давайте разберемся, что на самом деле представляют собой эти системы и куда они нас ведут.

Читать далее

Интерфейсы без экрана: как разговаривают голосовые ассистенты, когда никто не слышит

Время на прочтение8 мин
Количество просмотров3K

А что если ваш голосовой ассистент никогда не замолкает? Даже когда экран темный, а в комнате мертвая тишина, он ведет свою тайную беседу. Не с вами, а с тысячами серверов. О чем? О вас. В этой статье я предлагаю разобрать механизмы этого фонового «общения»: что именно передается в тишине и как это работает. Детали, как всегда, под катом.
Читать дальше →

Часть 1: ResNet-18 — Архитектура, покорившая глубину

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.5K

Разбор "на пальцах": Как из изображения получается предсказание? Разберем как устроена классическая сеть ResNet.

Читать далее

Как мы подключили ML-модель, чтобы находить дизайны для маникюра, а она стала предлагать стрижки как у Мухаммеда Али

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.6K

История о том, как мы с командой сделали умный подбор картинок, а в процессе затестили русскоязычную модель RuCLIP и обсудили маникюр.

Читать далее

Как мозг человека решает сложные задачи

Время на прочтение23 мин
Количество просмотров3.1K


Эволюция разных видов протекает своим путем, делая повороты в сторону той или иной физиологической особенности, тем самым выделяя ее на фоне других и развивая ее до максимальной эффективности. Кто-то прекрасно видит в темноте, кто-то способен находится подо водой длительное время, а кто-то получил самый сильный эволюционный дар. Дар, способный созидать и разрушать, понимать и осуждать, спорить, где спор уместен, и где ему места нет. Дар этот — интеллект, а получателем его является человек. Одним из проявлений интеллекта является умение решать задачи, от легких до сложных, задействующих не только накопленные знания и опыт, но и учитывающих новые условия. Определить, как именно человек решает сложные задачи довольно сложно, но ученым из Массачусетского технологического института это удалось. Какие методы были задействованы, что они показали, и какой же механизм использует мозг человека для решения сложных задач? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Топ-5 нейросетей для генерации видео в 2025 году

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров12K

В ней мы уже заставили макароны маршировать, а селёдку — дефилировать по подиуму. Казалось бы, всё: тесты пройдены, образы исчерпаны, нейросети удивлены. Но нет! Сервисов полно, а фантазии — ещё больше. Так что… продолжаем банкет.

Сегодня протестируем ещё 5 сервисов. Вместо скучного списка с сухими характеристиками — снова возьмёмся за старое: смотреть, как нейросети воспринимают названия еды буквально — и что из этого получается в движении.

Те же тесты, новые участники. Их вы могли заметить на обложке! И да, снова будет необычно, живо — и немного аппетитно.

Приятного чтения!

Читать далее

Вклад авторов