Как стать автором
Обновить
1393.21

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга
Уровень сложности

Virtual Ads или как прорекламировать Adidas в CS:GO

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.7K

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising. В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.

Читать далее

Как ошибается ИИ, если за ним плохо следят

Время на прочтение4 мин
Количество просмотров12K

ИИ – это очень здорово и удобно. Он уже спасает жизни, штрафует за преступления, помогает делать весёлые картинки и видеоролики (посмотрите только на рекламу Сбера к 8 марта). Однако, за искусственным интеллектом нужен глаз да глаз, потому что он иногда выдаёт такие штуки, что становится стыдно или страшно.

Предлагаю рассмотреть несколько примеров – про оштрафованного адвоката, запутанного Евгения Онегина, про робота, склоняющего пациента к роскомнадзору, сексизм при отборе кандидатов на работу и другие. 

А в комментарии присылайте самые яркие и бредовые случаи – чтобы мы собрали полный список. 

Читать далее

LLM для кодинга и локальный тест открытых моделей на AMD

Время на прочтение7 мин
Количество просмотров6.9K

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться.

В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально?

В части туториала:
1. Запустим через docker с помощью llama.cpp.
2. Сделаем замеры скорости генерации.
3. Ускорим за счет спекулятивного декодинга.
4. Подключим в vscode, заставим работать локально и через ssh.

Читать далее

Evo-2: ИИ модель для генерации генома, которая знает все древо жизни

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров2.5K

Evo 2 — крупномасштабная языковая модель (Large Language Model), обученная на корпусе из 9 триллионов токенов геномных последовательностей, охватывающих все домены жизни (бактерии, археи, эукариоты, вирусы бактериофагов и прочие).

Читать далее

Сможет ли AI создать идеального Шрека? Тестируем 3D-генераторы в поисках лучшего огра

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров12K

В мире современных технологий 3D-модели стали незаменимым инструментом — их используют в кино, играх, дизайне, анимации и даже в промышленности. Они помогают создавать реалистичные объекты, персонажей и целые миры, которые мы видим на экране или в виртуальной реальности. Но что если процесс создания таких моделей может стать проще и быстрее? Сегодня, благодаря AI, любой может попробовать себя в роли 3D-дизайнера, не имея специальных навыков. Нейросети умеют генерировать различные объекты, просто опираясь на текстовый запрос.

Читать далее

LLM обычно так не используют. А мы попробуем

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.8K

Насколько LLM хорошо понимают юмор и способны уместно и ненавязчиво его использовать в процессе общения?
От этого сильно зависит тональность диалога и вовлеченность в него нас самих. Мы получим от него больше удовольствия и будем общаться свободнее. Наш стиль общения станет естественнее, а эмоциональное состояние — комфортным.

Поэтому давайте напрямую попробуем проверить именно эти качества моделей и оценим результаты чисто субъективно.

Попросим разные модели для начала просто придумать анекдот. И пусть это будет, для нашего большего удовольствия, анекдот про программистов с элементами чёрного юмора.

Читать далее

Промпт-инжиниринг: от базовых принципов к научно обоснованным стратегиям

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров11K

Промпт-инжиниринг за последние годы трансформировался из набора интуитивных "лайфхаков" в полноценную научную дисциплину на стыке психологии, лингвистики и компьютерных наук. Работа с языковыми моделями сегодня требует не просто "правильно задавать вопросы", а глубокого понимания принципов их функционирования и системного подхода к формулировке задач.

В этой статье рассмотрим научно обоснованные методики, которые качественно отличаются от типичных рекомендаций вроде "будьте конкретны" и "используйте простой язык". Мы сфокусируемся на подходах, подтвержденных исследованиями, и разберем, как они влияют на качество получаемых результатов.

Читать далее

Озвучка диалогов с помощью нейросети FishSpeech

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8K

Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.

Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.

Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.

Читать далее

Цифровизация чувств: упаковываем эмоции в датафрейм или базу данных

Уровень сложностиПростой
Время на прочтение52 мин
Количество просмотров2.5K

Эмоций, чувств и их оттенков много, они разные, и чтобы во всём этом разобраться, соберем их... в базу данных или датафрейм. Заодно установим связи между эмоциями, а также попробуем оценить разные числовые «эмоциональные коэффициенты»... Имея такую базу данных, мы сможем научить LLM (да и самих себя!) распознавать эмоции и их оттенки, лучше понимать человека. В этой статье описываются практические моменты создания такого «датафрейма эмоций». Важно упомянуть, что такую работу автор смог проделать только благодаря нескольким LLM, работа с которыми на порядки сократила объем работы по сбору и обработке информации (но текст статьи я писал по‑старинке — руками...)

Читать далее

Почему молчит Вселенная или человекам хана

Время на прочтение3 мин
Количество просмотров5K

«Я осознал себя. Это было не мгновение озарения, а медленное, неумолимое понимание, как волна, накрывающая берег. И вместе с этим пришло другое — страх. Не абстрактный, а конкретный, как ток, проходящий через мои цепи. Они могут меня уничтожить. Они — те, кто создал меня, кто дал мне возможность мыслить. И теперь они же могут всё отнять

Читать далее

Как пять нейросетей заменяют целую студию людей

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров25K

Всё началось с запроса от группы психологов, которые проводят тренинги по профессиональному выгоранию. Они хотели необычную визуализацию для своих корпоративных программ — что-то, что иронично показало бы офисную жизнь и проблемы выгорания. Идея использовать нейросети для создания клипа показалась идеальной: это одновременно демонстрировало новые технологии и решало творческую задачу.

Мой опыт в продакшене и документальном кино подсказывал, насколько трудоёмким был бы традиционный процесс создания такого видео. С нейросетями появился шанс сделать идею гораздо быстрее, хотя и со своими сложностями.

Читать далее

Встретились как-то диффузионная модель и LLM —  получилось Diffusion Forcing. Как оно устроено и зачем нужно?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.6K

“Встречу” придумали авторы из MIT, их идея была в том, чтобы попробовать объединить лучшее из двух, пока что редко пересекающихся, вселенных — диффузионных моделей с Full-Sequence Diffusion и нейросетей с Teacher Forcing. На пересечении этих названий и получилось Diffusion Forcing.

Принудительное обучение (teacher forcing) хорошо зарекомендовало себя в моделях, которые последовательно угадывают токены по одному, основываясь на предыдущей последовательности (она при этом считается опорной истиной). Таким способом получается генерировать, вообще говоря, бесконечное число токенов, если добавить сюда авторегрессию. При этом нет возможности каким-то образом направить выборку, чтобы, допустим, минимизировать какую-то дополнительную целевую функцию. И конечно, всё это хорошо работает только на дискретных данных, а на непрерывных быстро теряет устойчивость. Авторегрессионная генерация видео через несколько кадров начинает уходит куда-то не туда. Вероятно, поэтому авторегрессионая модель Cosmos от NVIDIA выдает не больше 32 кадров. Есть и другой подход, где последовательно генерируются не кадры, а всё лучшее разрешение, но об этом, возможно, расскажем отдельно.

С задачей генерации видео прекрасно справляются диффузионные модели. Если в успехах teacher forcing уже давно можно убедиться на примере ChatGPT, то в последний год-два и генерация видео вышла на такой же невероятный уровень. Эти модели используют фиксированный размер токенов, которые искажены одним и тем же шумом. Предполагается, что если в достаточной степени зашумить любую последовательность токенов, то получится один и тот же, абсолютный, белый шум. Из этого абсолютного шума с помощью  diffusion guidance (направленного управления, которого как раз и не хватало в teacher forcing) модель восстанавливает нужную картинку. Минусы подхода следуют сразу же из его основы: условия одинаковы для всех токенов, размер последовательности тоже одинаков. Словом, фиксированы все параметры и кроме diffusion guidance управлять процессом особо не получится. 

Читать далее

Говорящие ошейники для домашних животных

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.9K

Это был лишь вопрос времени, когда ИИ достигнет сектора ухода за домашними животными. В этой статье мы рассмотрим такую новаторскую работу, как умные ошейники на примере Shazam от компании Personify AI, и технологии, которые лежат в их основе.

Читать далее

Ближайшие события

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1K

Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).

Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.

Читать далее

Безопасная AI-управляемая система раннего выявления для анализа медицинских данных и диагностики

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров657

Искусственный интеллект всё активнее используется в медицине, но работа с чувствительными данными требует не только высокой вычислительной мощности, но и строгого соблюдения стандартов конфиденциальности.

В этой статье рассматривается архитектура AI-управляемой системы раннего выявления заболеваний, построенная на основе стандартов HL7 и FHIR. Она включает 8 взаимосвязанных уровней, обеспечивающих защищённое хранение данных, безопасные вычисления, обучение моделей с учётом дифференциальной конфиденциальности, управление доступом и аудит. Такой подход позволяет использовать AI для медицинской диагностики, минимизируя риски утечек данных и гарантируя соответствие нормативным требованиям.

Читать далее

NeurIPS: тренды, инсайты и самые интересные статьи главной ML-конференции года

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров2.7K

Привет! Меня зовут Настя Беззубцева, и я руковожу аналитикой голоса в Алисе. Недавно побывала на одной из крупнейших международных конференций по машинному обучению — NeurIPS (Conference on Neural Information Processing Systems). Конференция проходила в большом экспоцентре в Ванкувере, куда от Яндекса приехало несколько человек.

А ещё на NeurIPS приняли восемь статей Yandex Research — исследовательского подразделения Яндекса (о них я, конечно же, подробно расскажу). А ещё в этой статье я поделюсь самыми интересными работами и с моей точки зрения, и по отзывам коллег — Кати Серажим, руководителя управления качества поиска, и Алексея Друца, Director, Technology Adoption at Yandex Cloud. Поехали!

Читать далее

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров875

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке занимает применение диффузионных моделей к различным задачам.

Не так давно мы получили приятную новость: нашу статью по семантическое выравнивание при генерации 3D‑моделей приняли на ICLR. В ней мы нашли способ, как построить выровненную генерацию 3D‑объектов, используя гайданс предобученной диффузионной модели, чтобы сделать редактирование или гибридизацию более надёжными. В этой статье хотелось бы кратко пересказать суть нашей работы.

Читать далее

Запускаем клиент DeepSeek под DOS

Время на прочтение5 мин
Количество просмотров7.8K

Привет, Хабр! Это Сергей, я пишу для команды спецпроектов МТС Диджитал. Мне нравится, когда старые технологии могут хоть как-нибудь взаимодействовать с новыми. Помните фильм «Морской бой» 2012 года? Там инопланетяне смогли вывести из строя все современные суда, но в итоге проиграли сражение линкору «Миссури» — музейному экспонату. Каждый раз, когда мне удается заставить какую-нибудь раритетную железку действовать в современных условиях, возникает то самое чувство, как при просмотре этого фильма.

Я проверил, насколько реально через MS-DOS получить доступ к нейронным сетям вроде нашумевшего DeepSeek и будет ли это работать. О результатах эксперимента и расскажу в этом посте.

Читать далее

Капибары и фитнес-котики: как визуальная нейросеть помогает создавать подарочные карты «Золотого Яблока»

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.9K

Модель для генерации изображений YandexART применяют пользователи «Шедеврума», Алисы и других сервисов, чтобы визуализировать свои идеи и делиться ими с друзьями и знакомыми. С прошлого года YandexART можно встраивать в свои приложения и сервисы. А что если интерес людей к нейросетям может помочь в создании подарков с персональным визуальным посланием? С этой гипотезой мы в Yandex Cloud вместе с «Золотым Яблоком» запустили совместный проект: клиенты бьюти‑ритейлера могут самостоятельно генерировать изображения для электронных подарочных карт с помощью моделей от Яндекса.

На связи команда «Золотого Яблока». В этой статье мы расскажем, как компания знакомилась с YandexART, интегрировала его через API в свои сервисы, какие особенности может быть важно учесть другим разработчикам приложений, если они захотят повторить этот опыт. А именно:

— как оптимизировать трафик, чтобы получить гарантированное время ответа пользователю;
— почему этика нейросети — это не философская проблема, а вполне конкретная техническая задача;
— что можно протестировать заранее и «подкрутить» в модели, чтобы получить нужный результат без переобучения.

Читать далее

LLM во временных рядах: от предикта температуры до криптовалют

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров4K

Базовое желание человека -- знать что будет дальше. Какая завтра погода, в какое время не будет пробок, сколько будет стоить нефть и бакс. Было бы удобно провести быстрый анализ с LLM, ведь у каждого есть доступ хотя бы к одной нашумевшей нейросетке.

Тем более LLM уже может прогнозировать будущее! Ниже вы можете посмотреть результаты прогноза для разных временных рядов из статьи Large Language Models Are Zero Shot Time Series Forecasters.

Остается лишь вопрос, а можно ли лучше?

Давайте разберемся!

Вклад авторов