Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Dino_the_dinosaur 24 мая 2021 в 10:19

Как адаптировать языковые модели Kaldi? (со смешными животными)

14 мин

12K

Блог компании Центр Финансовых Технологий (ЦФТ)Машинное обучение * Голосовые интерфейсы * Open source * Natural Language Processing *

Туториал

«Как научить русскоязычную модель распознавать речь геймеров?» Подобными вопросами задаются те, кто увлекается и занимается NLP. В частности, NLP-специалистов интересует, как можно адаптировать модель Kaldi под свою предметную область, чтобы улучшить качество распознавания. Это мы и разберём в данной статье.

Читать дальше →

averkij 16 мая 2021 в 18:33

Сам себе Гутенберг. Делаем параллельные книги

12 мин

24K

Natural Language Processing * Open source * Python * Изучение языковМашинное обучение *

Туториал

Lingtrain parallel books

Upd. 04.12.2021 — Наш телеграм канал

Если вам нравится изучать языки (или вы их преподаете), то вы наверняка сталкивались с таким способом освоения языка как параллельное чтение. Он помогает погрузиться в контекст, увеличивает лексикон и позволяет получить удовольствие от обучения. Читать тексты в оригинале параллельно с русскоязычными, на мой взгляд, стоит, когда уже освоены азы грамматики и фонетики, так что учебники и преподавателей никто не отменял. Но когда дело все же доходит до чтения, то хочется подобрать что-то по своему вкусу, либо что-то уже знакомое или любимое, а это часто невозможно, потому что такого варианта параллельной книги никто не выпускал. А если вы учите не английский язык, а условный японский или венгерский, то трудно найти вообще хоть какой-то интересный материал с параллельным переводом.

Сегодня мы сделаем решительный шаг в сторону исправления этой ситуации.

Из чего делаем

На входе у нас будут два текстовых файла с оригинальным текстом и его переводом. Для примера возьмем книгу "Убить пересмешника" Харпер Ли на русском и английском языках.

Начало документов выглядит так (отрывки приведены в таком виде, в котором они были найдены в сети):

Выровнять пересмешника

+106

ipostny 14 мая 2021 в 12:27

Искусственный интеллект в юриспруденции. Вебинар № 3: Архитектура Legal AI

2 мин

2.2K

Natural Language Processing * Искусственный интеллектМашинное обучение *

Продолжая цикл вебинаров об искусственном интеллекте для юристов, мы предлагаем поговорить об архитектуре Legal AI, а именно: о технологической основе, о задачах, которые необходимо решить при разработке подобных решений, а также о том, как данные задачи могут быть решены сегодня.

Zashibis 12 мая 2021 в 09:44

Создаем Сильный AI. Конкретика

12 мин

12K

Машинное обучение * Искусственный интеллектNatural Language Processing *

Почему голосовые помощники так хорошо, но плохо говорят? Основная их проблема - отсутствие логического мышления: по большому счету это просто очень продвинутые попугайчики, которые услышав фразу подбирают к ней наиболее подходящий ответ. Уровень выше - Искусственный интеллект, он может неплохо управлять машиной. Но попробуйте заставить его протереть пыль на полках. Как это ни удивительно, данная задача на порядок сложнее, здесь уже требуется Сильный искусственный интеллект (Artificial General Intelligence): поднять вазу, убрать носки в стиральную машину, все это требует объемных знаний об окружающем мире.

Про Сильный AI очень много разговоров, но мало конкретики: "мы сначала должны постигнуть все секреты нашего мозга", "AI оставит людей без работы" и "он поработит человечество". Нет даже четкого определения, что такое AGI, не говоря уже об инструкциях, как его построить. А между тем, почти все ответы уже найдены и остается только собрать этот пазл. Сейчас мы разберемся, что такое Сильный AI, можно ли выжать его из нейронных сетей, и как его создать правильно.

ipostny 29 апр 2021 в 10:40

Искусственный интеллект в юриспруденции. Вебинар № 2: Обзор актуальных LegalTech-решений

2 мин

3.1K

Машинное обучение * Искусственный интеллектNatural Language Processing *

Сегодня мы продолжаем цикл вебинаров об искусственном интеллекте в юриспруденции и хотели бы поговорить о том, как выглядит рынок LegalTech и какие решения доступны уже сейчас.

sagol 29 апр 2021 в 10:25

Нетрадиционный анализ тональности текста: BERT vs CatBoost

6 мин

10K

Python * Natural Language Processing * Машинное обучение *

Анализ тональности — это метод обработки естественного языка (NLP), используемый для определения того, являются ли данные(текст) положительными, отрицательными или нейтральными.

Анализ тональности имеет фундаментальное значение, поскольку помогает понять эмоциональные оттенки языка. Это, в свою очередь, помогает автоматически сортировать мнения, стоящие за отзывами, обсуждениями в социальных сетях, комментариями и т. д.

Хотя сентиментальный анализ стал чрезвычайно популярным в последнее время, работы над ним продолжаются с начала 2000-х годов. Традиционные методы машинного обучения, такие как наивный байесовский метод, логистическая регрессия и машины опорных векторов (SVM), широко используются для больших объемов, поскольку они хорошо масштабируются. На практике доказано, что методы глубокого обучения (DL) обеспечивают лучшую точность для различных задач NLP, включая анализ тональности; однако они, как правило, медленнее и дороже в обучении и использовании.

SergeyBPshenichnikov 23 апр 2021 в 10:01

Категория контекста

12 мин

2.4K

Поисковые технологии * Семантические сети * Алгоритмы * Natural Language Processing *

Математической моделью знаковых последовательностей с повторами (текстов) является мультимножество. Мультимножество было определено Д. Кнутом в 1969 году и позже подробно изучено А.Б. Петровским [1]. Универсальное свойство мультимножества – существование одинаковых элементов. Предельным случаем мультимножества при единичных кратностях элементов является множество. Множество с единичными кратностями, соответствующее мультимножеству, называется его порождающим множеством или доменом. Множество с нулевой кратностью – это пустое множество.

ipostny 14 апр 2021 в 15:07

Искусственный интеллект в юриспруденции. Вебинар № 1: Обзор последних достижений в области AI

2 мин

4.8K

Natural Language Processing * Искусственный интеллектМашинное обучение *

Сегодня тема искусственного интеллекта продолжает набирать популярность. Мы слышим новости и упоминания о ней практически во всех СМИ, однако найти по-настоящему содержательную информацию не так просто. Мы решили продолжить развитие данной темы и открываем цикл вебинаров об искусственном интеллекте в юриспруденции.

SCLabs 12 апр 2021 в 12:19

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

4 мин

1.8K

Natural Language Processing * Processing * Python *

Из песочницы

Недавно Сбер в статье Всё, что нам нужно — это генерация предложил интересный подход для отсеивания некачественных текстов (технического мусора и шаблонного спама). Но разве коэффициент сжатия zlib на качественных текстах не имеет нелинейной зависимости от длины сжимаемого текста? Давайте проверим.

+11

SergeyBPshenichnikov 10 апр 2021 в 18:51

Как преобразовать текст в алгебру: примеры

5 мин

4.6K

Natural Language Processing * Алгоритмы * Семантические сети * Поисковые технологии *

В предыдущей статье было разработано представление знаковых последовательностей полиномами матричных единиц на примере языкового текста. Текст превращается в алгебраический объект. С текстом можно совершать все алгебраические операции, необходимые для структуризации -- вычисления заголовков, словарей, аннотаций, смысловой разметки. В данной статье приведены два примера алгебраической структуризации текстов иной природы. Азбука Морзе выбрана из-за предельной краткости словаря, а математические формулы как пример обратной задачи.

ContentAI_Team 6 апр 2021 в 11:54

Гитара, инвойс и робот: как Fender настроился на интеллектуальные технологии

7 мин

2.3K

Блог компании Content AIИскусственный интеллектNatural Language Processing *

Вы знали, что 2020 год стал самым успешным по объему продаж за 75-летнюю историю американского производителя гитар Fender? Чтобы не сойти с ума в карантин, люди находили спасение в музыке: кто-то пел на балконе, а кто-то брался за гитару, смотрел видеоуроки и учился играть.В такой урожайный год у компании Fender было много работы. Чтобы создавать знаменитые Telecaster’ы, Stratocaster’ы, а также продукцию для поглощенных ранее брендов (Jackson, Gretsch, Charvel, Hamer, Squier), корпорация сотрудничает с двумя тысячами поставщиков по всему миру. Это производители древесины из разных стран, включая Россию, изготовители динамиков из Италии, лакокрасочных покрытий, ламповых усилителей и многого другого. Каждый месяц несколько сотрудников финансового отдела Fender в Скоттсдейле, Аризона, получают около сотни электронных писем с инвойсами (счета-фактуры от поставщиков) и перепечатывают информацию из них в учетные системы, чтобы вовремя рассчитываться с партнерами. Вы удивитесь, но совсем недавно всю эту кропотливую работу делали вручную. Это вызывало немало неудобств, которые мы перечислим ниже. И Fender, который уже давно использует современные технологии для изготовления инструментов, разрабатывает мобильные приложения для настройки гитар и обучению игре, решил внедрить инновации и в расчеты с поставщиками.

Сегодня мы расскажем, как технологии ABBYY для интеллектуальной обработки информации и программные роботы UiPath помогли упростить работу сотрудников финансового отдела Fender: почти исключить досадные ошибки при вводе данных в учётные системы, быстрее рассчитываться с поставщиками и уделять больше внимания развитию новых проектов.

+10

Rybolos 1 апр 2021 в 11:22

Всё, что нам нужно — это генерация

10 мин

30K

Блог компании СберБлог компании SberDevicesМашинное обучение * Искусственный интеллектNatural Language Processing *

Туториал

Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров

С наступлением 2021 в NLP продолжается гонка «больше — лучше», захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров — но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров, а затем и Google Brain заявил о разработке архитектуры Switch Transformer с 1,6 триллионами параметров (и тоже является MoE). Насколько повышение результатов за счет объема полезно для индустрии? Тот же Switch Transformer с его триллионом параметров далеко не на 1 месте в лидербордах.

Огромные языковые модели (Enormous Language Models, теперь это термин, им посвящен отдельный воркшоп конференции ICLR 2021) показывают действительно интересные результаты — не только в традиционных задачах ML, но и в новых сферах применения: генерации всего того, что раньше генерировать без ошибок было нельзя — музыку, изображения попиксельно, программный код и т.д. Из всех традиционных форм NLP-задач — классификация, классификация элементов последовательности, seq2seq, — по сути, у нас остается только одна: seq2seq. С приходом больших языковых моделей все задачи NLP сводятся теперь к форме генерации, при должном качестве этой самой генерации.

Seq2seq — самая «человеческая» форма решения задач: человек использует тот же формат, отвечая на сообщения в чате, общаясь устно, сортируя имейлы в почте.

Лично нам в SberDevices не терпелось поскорее применить такой формат к различным задачам — поэтому мы открываем доступ к самой большой русскоязычной нейросети ruGPT-3 XL с 1,3 млрд параметров.

Инженерный запал вылился в кропотливую работу по распараллеливанию обучения, очистке данных и тестированию. Но зато… теперь в open-source модель ruGPT-3 XL с 1,3 млрд параметров!

А также ее публичное API:

Читать дальше →

+21

yury_chekhovich 1 апр 2021 в 06:50

Честные глаза плагиатора, или еще один взгляд на будущее систем обнаружения заимствований

7 мин

5.3K

Блог компании «Антиплагиат»Natural Language Processing * Машинное обучение * Микросервисы * Программирование *

Развивать систему, созданную 16 лет назад, «конечно, не подвиг, но вообще что-то героическое в этом есть» (с). От пользователей регулярно прилетают вопросы: что будете делать дальше? Каким будет Антиплагиат через несколько лет? Все правильно, все верно – нельзя позволять рутине себя засасывать настолько, чтобы не оставалось времени подумать о далеком…, о жестоком…, ну вы поняли… о будущем.

Действительно, начало весны (отчетность закончилась, а сессия еще не началась) – самое удобное время для стратегических планов. Ну а заодно и для удовлетворения любопытства наших пользователей.

Не могу сказать, что описываю совсем уж ближайшее будущее. Какие-то идеи пока находятся в обработке у наших исследователей, какие-то и вовсе пока еще «варятся в головах». Но тем не менее, описанный ниже сценарий развития системы «Антиплагиат» сейчас наиболее вероятен.
Картинку даю, слегка опережая события. Она имеет непосредственное отношение к теме статьи, но, чтобы обо всем рассказать, нужно чуть больше места.

Кадр из а/ф «Шрек 2» (англ. « Shrek 2»), DreamWorks Pictures, 2004 год

Читать дальше →

+13

DanilSmith 30 мар 2021 в 11:03

Process Mining как эволюция «научного управления» — и наша открытая библиотека для анализа

8 мин

17K

Блог компании СберМашинное обучение * Python * Natural Language Processing * Data Mining *

Process Mining – это мост между Data Mining и Process Management. Это подход к извлечению, анализу и оптимизации процессов на основе данных из журналов событий (event logs), доступных в информационных системах. Мы разработали и открыли библиотеку, позволяющую быстро и достаточно просто обрабатывать данные информационных систем производства, чтобы находить узкие места и точки неэффективности.

Первой научной теорией, целью которой был анализ и оптимизация рабочих процессов, является «Научное управление». На рубеже XIX – XX веков усилиями американского исследователя Фредерика Тейлора и его единомышленников была создана теория классического менеджмента. Она основывается на положении, что существует «наилучший способ» выполнения каждой конкретной работы, и проблема низкой производительности может быть решена путем использования метода, названного «научным хронометрированием». Суть метода заключается в разделении работы на последовательность элементарных операций, которые хронометрируются и фиксируются при участии рабочих. В итоге это позволяет получить точную информацию о необходимых затратах времени на выполнение той или иной работы.

Таким образом, более 120 лет назад таким простым шагом был дан старт научному подходу к исследованию процессов. С развитием общества и технологий эволюционируют и совершенствуются подходы к анализу и оптимизации процессов: происходит переход к «Массовому производству», в основе которого лежит специализация с возможностями оптимизации сборки, компьютеризации и анализа статистки.

Современный Process Mining — это эволюция этого подхода с учётом больших данных.

Читать дальше →

+10

Moryshka 30 мар 2021 в 10:27

DeepPavlov стал частью Google Summer of Code в 2021 году

3 мин

3.4K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллектNatural Language Processing * Удалённая работа

В этом году открытая платформа для обработки естественного языка DeepPavlov, разрабатываемая лабораторией нейронных систем и глубокого обучения МФТИ, впервые стала частью ежегодной программы для молодых разработчиков Google Summer of Code.

Google Summer of Code (GSoC) — это ежегодное событие, проводимое компанией Google для привлечения молодых разработчиков к разработке проектов с открытым исходным кодом в их свободное летнее время. К участию допускаются студенты высших учебных заведений (бакалавриат, магистратура, аспирантура) и колледжей. Это отличная возможность не только развить навыки программирования, но и заработать!

Работать можно в любой организации, которая есть в соответствующем списке на странице Google Summer of Code, но мы предлагаем вам участвовать в рамках сообщества DeepPavlov. И сегодня мы расскажем подробнее о приеме и задачах, которые готовы предложить студентам этим летом. Вместе с вами мы выведем сообщество разработчиков ПО с открытым исходным кодом на новый уровень.

snakers4 30 мар 2021 в 03:27

Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи

9 мин

70K

Natural Language Processing * ЗвукМашинное обучение *

Технотекст 2021

fiona

Вторая часть — https://habr.com/ru/post/563484/

Вокруг темы синтеза речи сейчас много движения: на рынке есть огромное число тулкитов для синтеза, большое число закрытых коммерческих решений за АПИ (как на современных технологиях, так и на более старых, т.е. "говорилки") от условных GAFA компаний, большое количество американских стартапов, пытающихся сделать очередные аудио дипфейки (voice transfer).

Но мы не видели открытых решений, которые бы удовлетворяли одновременно следующим критериям:

Приемлемый уровень естественности речи;
Большая библиотека готовых голосов на разных языках;
Поддержка синтеза как в 16kHz так и в 8kHz из коробки;
Наличие своих собственных голосов у авторов решения, не нарушающих чужие права и лицензии;
Высокая скорость работы на "слабом" железе. Достаточная скорость работы на 1 потоке / ядре процессора;
Не требует GPU, команды ML инженеров или какой-либо дополнительной тренировки или для использования;
Минимализм и отсутствие зависимостей / использование в 1 строчку / не надо ничего собирать или чинить;
Позиционируется именно как готовое решение, а не очередной фреймворк / компиляция чужих скриптов / тулкитов для сбора плюсиков;
Решение никак не связано и не аффилировано с закрытыми экосистемами и продуктами Гугла / Сбера / Яндекса / вставить нужное;

Мы попытались учесть все эти пункты и представить комьюнити свое открытое некоммерческое решение, удовлетворяющее этим критериям. По причине его публичности мы не заостряем внимание на архитектуре и не фокусируемся на каких-то cherry picked примерах — вы можете оценить все сами, пройдя по ссылке.

+205

231

khmelkoff 26 мар 2021 в 09:53

LIT – Инспектор для вашего NLP. Обзор, установка, тест

6 мин

3.1K

Python * Машинное обучение * Искусственный интеллектNatural Language Processing *

Туториал

Инспектор и даже где-то "толкователь", LIT или Language Interpretability Tool — мощная платформа с открытым исходным кодом для визуализации и интерпретации NLP-моделей. Платформа была представлена на EMNLP 2020 специалистами Google Research в ноябре 2020 года. LIT еще в статусе разработки, поэтому разработчики ничего не гарантируют, в том числе работу на платформе windows. Но у меня получилось, делюсь опытом.

sterling239 25 мар 2021 в 07:01

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

12 мин

26K

Блог компании SberDevicesМашинное обучение * Искусственный интеллектNatural Language Processing *

Автор исходного изображения: Blue Flourishes/Shutterstock.com

Всем привет! В этом посте мы расскажем про синтез голосов Сбера, Афины и Джой — виртуальных ассистентов семейства Салют. О том, как мы в SberDevices обучали модели, чтобы сделать синтез живым и специфичным для каждого персонажа, а также с какими проблемами столкнулись и как их решали.

Согласно нашей «библии ассистентов», Сбер — энергичный гик, Афина — взрослая и деловая, а Джой — дружелюбная и веселая. Они отличаются не только уникальными характерами, обращением на «ты»/«вы» и предпочтениями в шутках. Мы попытались сделать так, чтобы их личности отражались и в голосах, которыми они разговаривают. 

Персонажей озвучили телеведущая Анастасия Чернобровина (Афина) и актёры дубляжа Даниил Щебланов и Татьяна Ермилова (Сбер и Джой). Виртуальных ассистентов можно услышать в приложениях Сбер Салют, СберБанк Онлайн, нашем колл-центре по номеру 900, а также в устройствах SberBox и SberPortal. Всё, что вы услышите, — это синтез речи, реализованный с помощью нейросетей. Он работает на связке Tacotron 2 и LPCNet.

Но, чтобы было понятно, что, зачем и почему, — немного теории и истории

+45

Maxim_Mezhov 24 мар 2021 в 05:45

Как сделать интеллектуального чат-бота для проведения опросов/интервью

14 мин

8.6K

Python * Прототипирование * Интернет-маркетинг * Natural Language Processing *

Туториал

В современном мире всё большую популярность приобретает методика под названием customer development для тестирования идей и гипотез о будущем продукте. Методику придумал "крёстный отец Кремниевой долины" Стив Бланк.
Одним из числа сильных инструментов в "разработке клиентов" является интервью, когда вы можете побеседовать с респондентом. Однако им не всегда можно воспользоваться ввиду разных причин, которые условно можно свести к объёму бюджета и имеющемуся времени. Но во многих ситуациях можно воспользоваться опросом. Причём опросом, который можно автоматизировать за счёт применения чат-бота и нейронной сети для определения смысла ответов респондента.

SergeyBPshenichnikov 22 мар 2021 в 21:38

Как преобразовать текст в алгебру

10 мин

4.9K

Семантические сети * Поисковые технологии * Алгоритмы * Natural Language Processing *

Из песочницы

Как пишут тексты в Большой Академии в Лагадо

Алгебра и язык (письменность) являются двумя разными инструментами познания. Если их объединить, то можно рассчитывать на появление новых методов машинного понимания. Определить смысл (понять) – это вычислить как часть соотносится с целым. Современные поисковые алгоритмы уже имеют задачей распознавание смысла, а тензорные процессоры Google выполняют матричные умножения (свертки), необходимые для алгебраического подхода. При этом в семантическом анализе используются в основном статистические методы. В алгебре выглядело бы странным использование статистики при поиске, например, признаков делимости чисел. Использование алгебраического аппарата полезно также для интерпретации результатов вычислений при распознавании смысла текста.

1 2 ...

44 45

47 48 ...

56 57

Natural Language Processing *

Как адаптировать языковые модели Kaldi? (со смешными животными)

Сам себе Гутенберг. Делаем параллельные книги

Из чего делаем

Искусственный интеллект в юриспруденции. Вебинар № 3: Архитектура Legal AI

Создаем Сильный AI. Конкретика

Искусственный интеллект в юриспруденции. Вебинар № 2: Обзор актуальных LegalTech-решений

Нетрадиционный анализ тональности текста: BERT vs CatBoost

Категория контекста

Искусственный интеллект в юриспруденции. Вебинар № 1: Обзор последних достижений в области AI

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

Как преобразовать текст в алгебру: примеры

Гитара, инвойс и робот: как Fender настроился на интеллектуальные технологии

Всё, что нам нужно — это генерация

Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров

Честные глаза плагиатора, или еще один взгляд на будущее систем обнаружения заимствований

Ближайшие события

Process Mining как эволюция «научного управления» — и наша открытая библиотека для анализа

DeepPavlov стал частью Google Summer of Code в 2021 году

Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи

LIT – Инспектор для вашего NLP. Обзор, установка, тест

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

Как сделать интеллектуального чат-бота для проведения опросов/интервью

Как преобразовать текст в алгебру

Вклад авторов