Pull to refresh
  • by relevance
  • by date
  • by rating

Исследователи натренировали нейросеть генерировать бесконечное соло на бас-гитаре

Artificial Intelligence Sound

Исследователи из команды Dadabots создали с помощью ИИ бесконечное соло на бас-гитаре. Основой стала двухчасовая импровизация от ютубера Адама Нили.

Читать далее
Total votes 6: ↑6 and ↓0 +6
Views 3.3K
Comments 7

Поиск звуковых аномалий

Machine learning *

Попробуем решить задачу поиска аномалий в звуке.
Микрофоны, на данное время, представляют из себя одни из самых распространенных универсальных детекторов. Они маленькие, дешевые, надежные. И они по-умолчанию присутствуют в сотовых телефонах. Их можно использовать практически везде. Поэтому задача обработки звука, не только речи, стоит перед нами прямо сейчас. Это классический пример Low hanging fruit — "низко висящего фрукта". :)


Примеры аномалий звука:


  • Неисправности в работе двигателя.
  • Изменения в погоде: дождь, град, ветер.
  • Аномалии работа сердца, желудка, суставов.
  • Необычный трафик на дороге.
  • Неисправности колесных пар у поезда.
  • Неисправности при посадке и взлете самолета.
  • Аномалии движения жидкости в трубе, в канале.
  • Аномалии движения воздуха в системах кондиционирования, на крыле самолета.
  • Неисправности автомобиля, велосипеда.
  • Неисправности станка, оборудования.
  • Расстроенный музыкальный инструмент.
  • Неправильно взятые ноты песни.
  • Эхолокация кораблей и подводных лодок.
Читать дальше →
Total votes 19: ↑16 and ↓3 +13
Views 7.6K
Comments 2

Обзор исследований в области глубокого обучения: обработка естественных языков

Wunder Fund corporate blog Machine learning *Natural Language Processing *
Translation


Это третья статья из серии “Обзор исследований в области глубокого обучения” (Deep Learning Research Review) студента Калифорнийского университета в Лос-Анджелесе Адита Дешпанда (Adit Deshpande). Каждые две недели Адит публикует обзор и толкование исследований в определенной области глубинного обучения. В этот раз он сосредоточил свое внимание на применении глубокого обучения для обработки текстов на естественном языке.
Читать дальше →
Total votes 25: ↑24 and ↓1 +23
Views 24K
Comments 2

LSTM – сети долгой краткосрочной памяти

Wunder Fund corporate blog Algorithms *Machine learning *
Translation

Рекуррентные нейронные сети


Люди не начинают думать с чистого листа каждую секунду. Читая этот пост, вы понимаете каждое слово, основываясь на понимании предыдущего слова. Мы не выбрасываем из головы все и не начинаем думать с нуля. Наши мысли обладают постоянством.

Традиционные нейронные сети не обладают этим свойством, и в этом их главный недостаток. Представим, например, что мы хотим классифицировать события, происходящие в фильме. Непонятно, как традиционная нейронная сеть могла бы использовать рассуждения о предыдущих событиях фильма, чтобы получить информацию о последующих.

Решить эту проблемы помогают рекуррентые нейронные сети (Recurrent Neural Networks, RNN). Это сети, содержащие обратные связи и позволяющие сохранять информацию.
Читать дальше →
Total votes 41: ↑39 and ↓2 +37
Views 120K
Comments 2

Transformer — новая архитектура нейросетей для работы с последовательностями

Machine learning *

Необходимое предисловие: я решил попробовать современный формат несения света в массы и пробую стримить на YouTube про deep learning.


В частности, в какой-то момент меня попросили рассказать про attention, а для этого нужно рассказать и про машинный перевод, и про sequence to sequence, и про применение к картинкам, итд итп. В итоге получился вот такой стрим на час:



Я так понял по другим постам, что c видео принято постить его транскрипт. Давайте я лучше вместо этого расскажу про то, чего в видео нет — про новую архитектуру нейросетей для работы с последовательностями, основанную на attention. А если нужен будет дополнительный бэкграунд про машинный перевод, текущие подходы, откуда вообще взялся attention, итд итп, вы посмотрите видео, хорошо?


Новая архитектура называется Transformer, была разработана в Гугле, описана в статье Attention Is All You Need (arxiv) и про нее есть пост на Google Research Blog (не очень детальный, зато с картинками).


Поехали.

Читать дальше →
Total votes 64: ↑61 and ↓3 +58
Views 48K
Comments 7

Как научить нейросеть придумывать названия российских населенных пунктов

Python *Lua *Machine learning *
Sandbox

Для начала немного несуществующих деревень и сёл


Сальтолово
Ничичи
Каверная Голяна
Придориусловка
Старотипенки
Кюканово
Кутюшевка
Верхний Стед
Сабаревка
Зеленокировка
Хадонские Выселки
Старый Куля
Октяга
Ржиново
Черемошно
Голодионово
Александрово-Полейково
Подлопаново
Малое Сусовое
Горы-Чусалы
Чубравяково




Зачем и почему


Всем привет, меня зовут Илья, я занимаюсь компьютационной биологией и биохимией, в свободное время я заставляю нейросети страдать ерундой.


Основываясь на аналогичных проектах (названия британских деревень, названия мест в Орегоне, названия различных цветов и их RGB), я решил научить нейросеть создавать названия несуществующих населенных пунктов


В качестве нейросети я решил воспользоваться torch-rnn, которую достаточно легко установить и настроить. Список городов и сел я нашел тут (можно скачать все в формате csv). С csv пришлось немного повозиться, чтобы привести ее к utf-8, после чего я запихнул ее в нейросеть и оставил на пару часов. Когда тренировка модели закончилась я взял небольшой сампл и получил следующий результат:

Читать дальше →
Total votes 44: ↑36 and ↓8 +28
Views 17K
Comments 28

Предсказываем отток с помощью нейросети

Plarium corporate blog Python *Data Mining *Big Data *Machine learning *
image

Проблема предсказания оттока клиентов — одна из самых распространенных в практике Data Science (так теперь называется применение статистики и машинного обучения к бизнес-задачам, уже все знают?). Проблема достаточно универсальна: она актуальна для многих отраслей — телеком, банки, игры, стриминг-сервисы, ритейл и пр. Необходимость ее решения довольно легко обосновать с экономической точки зрения: есть куча статей в бизнес-журналах о том, что привлечь нового клиента в N раз дороже, чем удержать старого. И ее базовая постановка проста для понимания так, что на ее примере часто объясняют основы машинного обучения.

Для нас в Plarium-South, как и для любой игровой компании, эта проблема также актуальна. Мы прошли длинный путь через разные постановки и модели и пришли к достаточно оригинальному, на наш взгляд, решению. Все ли так просто, как кажется, как правильно определить отток и зачем тут нейросеть, расскажем под катом.
Читать дальше →
Total votes 18: ↑17 and ↓1 +16
Views 13K
Comments 3

Самодельный бот пишет эротические рассказы

Demoscene Artificial Intelligence
Эротическая литература шаблонна: одни и те же возбуждающие слова, эпитеты и, разумеется, одни и те же действия. Это же идеальные условия творчества для бота!

Журналистка Даниэла Эрнандес (Daniela Hernandez, на фото) решила проверить эту теорию.

Знакомый программист сказал ей, что для обучения нейросети нужно хотя бы 750 000 слов, так что поиск текстов занял некоторое время. Она скачала произведения из нескольких специализированных электронных библиотек, где эротика публикуется под лицензией Creative Commons, а также обратилась к авторам с просьбой поделиться своими романами для эксперимента.
Читать дальше →
Total votes 18: ↑16 and ↓2 +14
Views 19K
Comments 20

Нейронные сети с нуля. Обзор курсов и статей на русском языке, бесплатно и без регистрации

Machine learning *Artificial Intelligence
На Хабре периодически появляются обзоры курсов по машинному обучению. Но такие статьи чаще добавляют в закладки, чем проходят сами курсы. Причины для этого разные: курсы на английском языке, требуют уверенного знания матана или специфичных фреймворков (либо наоборот не описаны начальные знания, необходимые для прохождения курса), находятся на других сайтах и требуют регистрации, имеют расписание, домашнюю работу и тяжело сочетаются с трудовыми буднями. Всё это мешает уже сейчас с нуля начать погружаться в мир машинного обучения со своей собственной скоростью, ровно до того уровня, который интересен и пропускать при этом неинтересные разделы.

В этом обзоре в основном присутствуют только ссылки на статьи на хабре, а ссылки на другие ресурсы в качестве дополнения (информация на них на русском языке и не нужно регистрироваться). Все рекомендованные мною статьи и материалы я прочитал лично. Я попробовал каждый видеокурс, чтобы выбрать что понравится мне и помочь с выбором остальным. Большинство статей мною были прочитаны ранее, но есть и те на которые я наткнулся во время написания этого обзора.

Обзор состоит из нескольких разделов, чтобы каждый мог выбрать уровень с которого можно начать.
Для крупных разделов и видео-курсов указаны приблизительные временные затраты, необходимые знания, ожидаемые результаты и задания для самопроверки.


Читать дальше →
Total votes 39: ↑34 and ↓5 +29
Views 179K
Comments 12

Парсим Википедию для задач NLP в 4 команды

Python *Big Data *Machine learning *Natural Language Processing *
Tutorial

Суть


Оказывается для этого достаточно запуcтить всего лишь такой набор команд:


git clone https://github.com/attardi/wikiextractor.git
cd wikiextractor
wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
python3 WikiExtractor.py -o ../data/wiki/ --no-templates --processes 8 ../data/ruwiki-latest-pages-articles.xml.bz2

и потом немного отполировать скриптом для пост-процессинга


python3 process_wikipedia.py

Результат — готовый .csv файл с вашим корпусом.

Читать дальше →
Total votes 17: ↑13 and ↓4 +9
Views 8.6K
Comments 2

NLP. Основы. Техники. Саморазвитие. Часть 1

ABBYY corporate blog Machine learning *Natural Language Processing *

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.


Читать дальше →
Total votes 53: ↑51 and ↓2 +49
Views 48K
Comments 11

Распознавание номеров. Как мы получили 97% точности для Украинских номеров. Часть 2

Python *Machine learning *Artificial Intelligence
Nomeroff Net numberplate detection OCR example


Продолжаем рассказ о том как распознавать номерные знаки для тех кто умеет писать приложение «hello world» на python-е! В этой части научимся тренировать модели, которые ищут регион заданного объекта, а также узнаем как написать простенькую RNN-сеть, которая будет справляться с чтением номера лучше чем некоторые коммерческие аналоги.
В этой части я расскажу как тренировать Nomeroff Net под Ваши данные, как получить высокое качество распознавания, как настроить поддержку GPU и ускорить все на порядок…
Читать дальше →
Total votes 48: ↑43 and ↓5 +38
Views 44K
Comments 100

Kaggle: не можем ходить — будем бегать

Singularis Lab corporate blog Data Mining *Machine learning *Artificial Intelligence Finance in IT
Насколько сложна тема машинного обучения? Если Вы неплохо математически подкованы, но объем знаний о машинном обучении стремится к нулю, как далеко Вы сможете зайти в серьезном конкурсе на платформе Kaggle?


Попробуем выяснить, насколько глубока кроличья нора
Total votes 30: ↑29 and ↓1 +28
Views 12K
Comments 13

Кодирование речи на 1600 бит/с нейронным вокодером LPCNet

Algorithms *Machine learning *Sound
Translation


Это продолжение первой статьи о LPCNet. В первом демо мы представили архитектуру, которая сочетает обработку сигналов и глубокое обучение для повышения эффективности нейронного синтеза речи. На этот раз превратим LPCNet в нейронный речевой кодек с очень низким битрейтом (см. научную статью). Его можно использовать на текущем оборудовании и даже на телефонах.

Впервые нейронный вокодер работает в реальном времени на одном процессорном ядре телефона, а не на высокоскоростном GPU. Итоговый битрейт 1600 бит/с примерно в десять раз меньше, чем выдают обычные широкополосные кодеки. Качество намного лучше, чем у существующих вокодеров с очень низким битрейтом и сопоставимо с более традиционными кодеками, использующими более высокий битрейт.
Читать дальше →
Total votes 57: ↑56 and ↓1 +55
Views 18K
Comments 31

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

ABBYY corporate blog Machine learning *Artificial Intelligence Natural Language Processing *
Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

image
Читать дальше →
Total votes 22: ↑20 and ↓2 +18
Views 28K
Comments 3

Ищем аномалии и предсказываем сбои с помощью нейросетей

НПО Криста corporate blog Machine learning *DevOps *Artificial Intelligence

image


Промышленная разработка программных систем требует большого внимания к отказоустойчивости конечного продукта, а также быстрого реагирования на отказы и сбои, если они все-таки случаются. Мониторинг, конечно же, помогает реагировать на отказы и сбои эффективнее и быстрее, но недостаточно. Во-первых, очень сложно уследить за большим количеством серверов – необходимо большое количество людей. Во-вторых, нужно хорошо понимать, как устроено приложение, чтобы прогнозировать его состояние. Следовательно, нужно много людей, хорошо понимающих разрабатываемые нами системы, их показатели и особенности. Предположим, даже если найти достаточное количество людей, желающих заниматься этим, требуется ещё немало времени, чтобы их обучить.


Что же делать? Здесь нам на помощь спешит искусственный интеллект. Речь в статье пойдет о предиктивном обслуживании (predictive maintenance). Этот подход активно набирает популярность. Написано большое количество статей, в том числе и на Хабре. Крупные компании вовсю используют такой подход для поддержки работоспособности своих серверов. Изучив большое количество статьей, мы решили попробовать применить этот подход. Что из этого вышло?

Читать дальше
Total votes 7: ↑6 and ↓1 +5
Views 7.9K
Comments 4

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

ABBYY corporate blog Machine learning *Artificial Intelligence DIY
Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.
Читать дальше →
Total votes 26: ↑26 and ↓0 +26
Views 8.6K
Comments 9

Генерируем странные кулинарные рецепты с помощью TensorFlow и рекуррентной нейронной сети (пошаговая инструкция)

Python *Machine learning *Artificial Intelligence TensorFlow *
Tutorial

TL;DR


Я натренировал LSTM (Long short-term memory) рекуррентную нейронную сеть (RNN) на наборе данных, состоящих из ~100k рецептов, используя TensorFlow. В итоге нейронная сеть предложила мне приготовить "Сливочную соду с луком", "Клубничный суп из слоеного теста", "Чай со вкусом цукини" и "Лососевый мусс из говядины" ‍.


Используя следующие ссылки вы сможете генерировать новые рецепты самостоятельно и найти детали тренировки модели:



В этой статье описаны детали тренировки LSTM модели на Python с использованием TensorFlow 2 и Keras API.


Cooking recipes generator demo

Читать дальше →
Total votes 12: ↑12 and ↓0 +12
Views 3.9K
Comments 5

Эксперимент в распознавании рукописных текстов на кириллице

Algorithms *Image processing *Machine learning *Natural Language Processing *

Распознавание рукописного текста (англ. Handwritten Text Recognition, HTR) - это автоматический способ расшифровки записей с помощью компьютера.  Оцифрованный текст рукописных записей позволило бы автоматизировать бизнес процессы множества компаний, упростив работу человека. В данной работе рассматривается модель распознавания рукописного текста на кириллице на основе искусственной нейронной сети. В исследовании использовалась система SimpleHTR разработана Гаральдом, а также LineHTR, расширенной версией системы Simple HTR. Подробнее о SimpleHTR можно почитать здесь.

Читать далее
Total votes 15: ↑15 and ↓0 +15
Views 6.7K
Comments 17

Эксперимент в распознавании рукописных текстов на кириллице. Часть 2

Algorithms *Image processing *Machine learning *Natural Language Processing *

Всем привет! В этой части хочу рассказать как мы использовали модель NomeroffNet предназначенного для распознавания автомобильных номеров, распознать рукописные записи. В предедущей статье я поделился опытом в использовании моделей SimpleHTR и LineHTR для распознавания рукописных текстов.

Распознавание рукописного текста (англ. Handwritten Text Recognition, HTR) - это автоматический способ расшифровки записей с помощью компьютера. Оцифрованный текст рукописных записей позволило бы автоматизировать бизнес процессы множества компаний, упростив работу человека. В данной статье рассматривается модель распознавания рукописного текста на кириллице на основе искусственной нейронной сети. Архитектура данной нейронной сети состоит из слоев сверточной нейронной сети (англ. Convolutional neural network, CNN) и рекуррентной нейронной сети (англ. Recurrent neural network, RNN), а также имеет алгоритм декодирования на основе коннекционной временной классификации (англ. Connectionist Temporal Classification, CTC), который приводит текст к окончательному варианту.

Читать далее
Total votes 6: ↑6 and ↓0 +6
Views 2K
Comments 5
1