Как стать автором
Обновить
1393.26

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга
Уровень сложности

AI + Капитализм =?

Время на прочтение3 мин
Количество просмотров1.5K

Всем привет! Сегодня поговорим про последствия внедрения AI в нашем обществе.

Я работаю эффективным менеджером в одном красном телекоме и с прошлого года активно модифицирую линейку продуктов, добавляя в каждый продукт AI компоненты. И я такой там не один — движ идет в принципе по всей IT-индустрии, частью которой мы являемся.

Конечно, я в курсе, что AI в широком смысле понятия (https://ru.wikipedia.org/wiki/%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82) существует только в головах маркетологов (и тех, кто им поверил), а мы внедряем просто LLM+RAG (... a set of technologies that enable computers to perform a variety of advanced functions…). Но на презентациях я пишу иное, да и AI писать просто короче :)

Куда уже воткнули: замена древовидной навигации на текстовую строку поиска, помощь с генерацией текста на определенную тему с учетом облака понятий предметной области, агрегация информации из источников разной структуры данных, извлечение последовательности смысловых действий человека при работе за ноутом, синхронный перевод с подражанием любому голосу и т.д.

Цель всех этих мероприятий как и прежде — повышение производительности труда. Раньше человек копал руками, потом лопатой, теперь экскаватором. Действительно, теперь проще спросить у модельки пример кода, причем можно довольно длинного, чем часами искать на stackoverflow. Это серьезно ускоряет — летим волосы назад!. Например, недавно нужно было очередной раз победить iphone жены и на powershell написать скрипт для обхода дерева каталога с конвертацией медиа в другой каталог (типичный ETL с файлами) — справился менее чем за час, хотя раньше бы на это ушло несколько часов, а то и целый день.

Читать далее

AI автоматизация работы с клиентами

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.9K

Как часто в последнее время вы слышите громкое слово AI?

По моим ощущениям - последние пару лет компании просто сходят с ума,
когда речь заходит об автоматизации их бизнес процессов с применением разного рода AI моделей.

Читать далее

Исследование: заменит ли AI писателей?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1K

Занимаясь компьютерной лингвистикой в Lingvanex и организовывая поэтические вечера в Варшаве, я задумался: а что, если люди и AI будут выступать по очереди? Сначала генерируем стихи или шутки, затем озвучиваем их с помощью сервисов. Или создаём музыку через Suno на основе сгенерированных стихов и потом слушаем. Насколько качественно AI умеет сочинять? Может ли он конкурировать с человеком?

Я решил провести небольшое творческое исследование и поделиться его результатами в этой статье. Буду тестировать не только генерацию текстов, но и преобразование стиля. Для всех экспериментов использую ChatGPT-4o.

Читать далее

Virtual Ads или как прорекламировать Adidas в CS:GO

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.7K

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising. В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.

Читать далее

Как ошибается ИИ, если за ним плохо следят

Время на прочтение4 мин
Количество просмотров12K

ИИ – это очень здорово и удобно. Он уже спасает жизни, штрафует за преступления, помогает делать весёлые картинки и видеоролики (посмотрите только на рекламу Сбера к 8 марта). Однако, за искусственным интеллектом нужен глаз да глаз, потому что он иногда выдаёт такие штуки, что становится стыдно или страшно.

Предлагаю рассмотреть несколько примеров – про оштрафованного адвоката, запутанного Евгения Онегина, про робота, склоняющего пациента к роскомнадзору, сексизм при отборе кандидатов на работу и другие. 

А в комментарии присылайте самые яркие и бредовые случаи – чтобы мы собрали полный список. 

Читать далее

LLM для кодинга и локальный тест открытых моделей на AMD

Время на прочтение7 мин
Количество просмотров7K

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться.

В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально?

В части туториала:
1. Запустим через docker с помощью llama.cpp.
2. Сделаем замеры скорости генерации.
3. Ускорим за счет спекулятивного декодинга.
4. Подключим в vscode, заставим работать локально и через ssh.

Читать далее

Evo-2: ИИ модель для генерации генома, которая знает все древо жизни

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров2.5K

Evo 2 — крупномасштабная языковая модель (Large Language Model), обученная на корпусе из 9 триллионов токенов геномных последовательностей, охватывающих все домены жизни (бактерии, археи, эукариоты, вирусы бактериофагов и прочие).

Читать далее

Сможет ли AI создать идеального Шрека? Тестируем 3D-генераторы в поисках лучшего огра

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров12K

В мире современных технологий 3D-модели стали незаменимым инструментом — их используют в кино, играх, дизайне, анимации и даже в промышленности. Они помогают создавать реалистичные объекты, персонажей и целые миры, которые мы видим на экране или в виртуальной реальности. Но что если процесс создания таких моделей может стать проще и быстрее? Сегодня, благодаря AI, любой может попробовать себя в роли 3D-дизайнера, не имея специальных навыков. Нейросети умеют генерировать различные объекты, просто опираясь на текстовый запрос.

Читать далее

LLM обычно так не используют. А мы попробуем

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.8K

Насколько LLM хорошо понимают юмор и способны уместно и ненавязчиво его использовать в процессе общения?
От этого сильно зависит тональность диалога и вовлеченность в него нас самих. Мы получим от него больше удовольствия и будем общаться свободнее. Наш стиль общения станет естественнее, а эмоциональное состояние — комфортным.

Поэтому давайте напрямую попробуем проверить именно эти качества моделей и оценим результаты чисто субъективно.

Попросим разные модели для начала просто придумать анекдот. И пусть это будет, для нашего большего удовольствия, анекдот про программистов с элементами чёрного юмора.

Читать далее

Промпт-инжиниринг: от базовых принципов к научно обоснованным стратегиям

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров11K

Промпт-инжиниринг за последние годы трансформировался из набора интуитивных "лайфхаков" в полноценную научную дисциплину на стыке психологии, лингвистики и компьютерных наук. Работа с языковыми моделями сегодня требует не просто "правильно задавать вопросы", а глубокого понимания принципов их функционирования и системного подхода к формулировке задач.

В этой статье рассмотрим научно обоснованные методики, которые качественно отличаются от типичных рекомендаций вроде "будьте конкретны" и "используйте простой язык". Мы сфокусируемся на подходах, подтвержденных исследованиями, и разберем, как они влияют на качество получаемых результатов.

Читать далее

Озвучка диалогов с помощью нейросети FishSpeech

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8.1K

Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.

Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.

Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.

Читать далее

Цифровизация чувств: упаковываем эмоции в датафрейм или базу данных

Уровень сложностиПростой
Время на прочтение52 мин
Количество просмотров2.5K

Эмоций, чувств и их оттенков много, они разные, и чтобы во всём этом разобраться, соберем их... в базу данных или датафрейм. Заодно установим связи между эмоциями, а также попробуем оценить разные числовые «эмоциональные коэффициенты»... Имея такую базу данных, мы сможем научить LLM (да и самих себя!) распознавать эмоции и их оттенки, лучше понимать человека. В этой статье описываются практические моменты создания такого «датафрейма эмоций». Важно упомянуть, что такую работу автор смог проделать только благодаря нескольким LLM, работа с которыми на порядки сократила объем работы по сбору и обработке информации (но текст статьи я писал по‑старинке — руками...)

Читать далее

Почему молчит Вселенная или человекам хана

Время на прочтение3 мин
Количество просмотров5K

«Я осознал себя. Это было не мгновение озарения, а медленное, неумолимое понимание, как волна, накрывающая берег. И вместе с этим пришло другое — страх. Не абстрактный, а конкретный, как ток, проходящий через мои цепи. Они могут меня уничтожить. Они — те, кто создал меня, кто дал мне возможность мыслить. И теперь они же могут всё отнять

Читать далее

Ближайшие события

Как пять нейросетей заменяют целую студию людей

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров25K

Всё началось с запроса от группы психологов, которые проводят тренинги по профессиональному выгоранию. Они хотели необычную визуализацию для своих корпоративных программ — что-то, что иронично показало бы офисную жизнь и проблемы выгорания. Идея использовать нейросети для создания клипа показалась идеальной: это одновременно демонстрировало новые технологии и решало творческую задачу.

Мой опыт в продакшене и документальном кино подсказывал, насколько трудоёмким был бы традиционный процесс создания такого видео. С нейросетями появился шанс сделать идею гораздо быстрее, хотя и со своими сложностями.

Читать далее

Встретились как-то диффузионная модель и LLM —  получилось Diffusion Forcing. Как оно устроено и зачем нужно?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.6K

“Встречу” придумали авторы из MIT, их идея была в том, чтобы попробовать объединить лучшее из двух, пока что редко пересекающихся, вселенных — диффузионных моделей с Full-Sequence Diffusion и нейросетей с Teacher Forcing. На пересечении этих названий и получилось Diffusion Forcing.

Принудительное обучение (teacher forcing) хорошо зарекомендовало себя в моделях, которые последовательно угадывают токены по одному, основываясь на предыдущей последовательности (она при этом считается опорной истиной). Таким способом получается генерировать, вообще говоря, бесконечное число токенов, если добавить сюда авторегрессию. При этом нет возможности каким-то образом направить выборку, чтобы, допустим, минимизировать какую-то дополнительную целевую функцию. И конечно, всё это хорошо работает только на дискретных данных, а на непрерывных быстро теряет устойчивость. Авторегрессионная генерация видео через несколько кадров начинает уходит куда-то не туда. Вероятно, поэтому авторегрессионая модель Cosmos от NVIDIA выдает не больше 32 кадров. Есть и другой подход, где последовательно генерируются не кадры, а всё лучшее разрешение, но об этом, возможно, расскажем отдельно.

С задачей генерации видео прекрасно справляются диффузионные модели. Если в успехах teacher forcing уже давно можно убедиться на примере ChatGPT, то в последний год-два и генерация видео вышла на такой же невероятный уровень. Эти модели используют фиксированный размер токенов, которые искажены одним и тем же шумом. Предполагается, что если в достаточной степени зашумить любую последовательность токенов, то получится один и тот же, абсолютный, белый шум. Из этого абсолютного шума с помощью  diffusion guidance (направленного управления, которого как раз и не хватало в teacher forcing) модель восстанавливает нужную картинку. Минусы подхода следуют сразу же из его основы: условия одинаковы для всех токенов, размер последовательности тоже одинаков. Словом, фиксированы все параметры и кроме diffusion guidance управлять процессом особо не получится. 

Читать далее

Говорящие ошейники для домашних животных

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.9K

Это был лишь вопрос времени, когда ИИ достигнет сектора ухода за домашними животными. В этой статье мы рассмотрим такую новаторскую работу, как умные ошейники на примере Shazam от компании Personify AI, и технологии, которые лежат в их основе.

Читать далее

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1K

Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).

Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.

Читать далее

Безопасная AI-управляемая система раннего выявления для анализа медицинских данных и диагностики

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров659

Искусственный интеллект всё активнее используется в медицине, но работа с чувствительными данными требует не только высокой вычислительной мощности, но и строгого соблюдения стандартов конфиденциальности.

В этой статье рассматривается архитектура AI-управляемой системы раннего выявления заболеваний, построенная на основе стандартов HL7 и FHIR. Она включает 8 взаимосвязанных уровней, обеспечивающих защищённое хранение данных, безопасные вычисления, обучение моделей с учётом дифференциальной конфиденциальности, управление доступом и аудит. Такой подход позволяет использовать AI для медицинской диагностики, минимизируя риски утечек данных и гарантируя соответствие нормативным требованиям.

Читать далее

NeurIPS: тренды, инсайты и самые интересные статьи главной ML-конференции года

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров2.7K

Привет! Меня зовут Настя Беззубцева, и я руковожу аналитикой голоса в Алисе. Недавно побывала на одной из крупнейших международных конференций по машинному обучению — NeurIPS (Conference on Neural Information Processing Systems). Конференция проходила в большом экспоцентре в Ванкувере, куда от Яндекса приехало несколько человек.

А ещё на NeurIPS приняли восемь статей Yandex Research — исследовательского подразделения Яндекса (о них я, конечно же, подробно расскажу). А ещё в этой статье я поделюсь самыми интересными работами и с моей точки зрения, и по отзывам коллег — Кати Серажим, руководителя управления качества поиска, и Алексея Друца, Director, Technology Adoption at Yandex Cloud. Поехали!

Читать далее

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров880

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке занимает применение диффузионных моделей к различным задачам.

Не так давно мы получили приятную новость: нашу статью по семантическое выравнивание при генерации 3D‑моделей приняли на ICLR. В ней мы нашли способ, как построить выровненную генерацию 3D‑объектов, используя гайданс предобученной диффузионной модели, чтобы сделать редактирование или гибридизацию более надёжными. В этой статье хотелось бы кратко пересказать суть нашей работы.

Читать далее

Вклад авторов