Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Посты Новости Авторы Компании

SergeyBPshenichnikov 25 мая 2022 в 22:44

Коллективное распознавание смысла

37 мин

4.4K

Поисковые технологии*Семантика*Алгоритмы*Natural Language Processing*

Предлагаемый материал является приложением в книге [1].

Современная цивилизация оказалась на перекрестке, на котором нужно выбрать смысл жизни. Из-за развития технологий большинство населения планеты может оказаться «лишним» - не востребованным в производстве ценностей. Есть и другой вариант, когда каждый человек является высшей ценностью, абсолютной индивидуальностью и может быть незаменимо полезен в технологиях коллективного разума.

В восьмидесятых годах прошлого века задача создания научного направления «коллективный разум» была поставлена. Коллективный разум определяется ...

stanislav_as 25 мая 2022 в 11:55

Итоги хакатона по синтезу речи и голосовым дипфейкам

3 мин

1.8K

Блог компании НаносемантикаПрограммирование*ХакатоныИскусственный интеллектNatural Language Processing*

22-24 апреля 2022 года в Российском Технологическом Университете МИРЭА при поддержке компании «Наносемантика» прошел студенческий хакатон по разработке алгоритмов генерации голосовых фейков. В течение 3-х дней 17 команд соревновались в разработке программы, которая копирует голос конкретного человека. Под катом — подробности и результаты прошедшего мероприятия.

Rybolos 25 мая 2022 в 11:47

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

9 мин

15K

Блог компании SberDevicesPython*Машинное обучение*Искусственный интеллектNatural Language Processing*

На этой неделе в издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices.

«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла.

В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).

+24

SergeyBPshenichnikov 25 мая 2022 в 10:16

Алгебра текста без формул

65 мин

3.4K

Поисковые технологии*Семантика*Алгоритмы*Natural Language Processing*

Статья является рефератом Книги [1], основанной на представленных ранее публикациях [2], [3], [4] и [5].

rucola-team 24 мая 2022 в 12:02

Насколько естественен естественный язык? Представляем датасет RuCoLA

7 мин

7.6K

Open source*GitHub*Машинное обучение*Исследования и прогнозы в IT*Natural Language Processing*

В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.

Читать дальше →

+35

NewTechAudit 24 мая 2022 в 07:13

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

4 мин

7.6K

Программирование*Natural Language Processing*

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Для решения этой задачи я обратился к инструментам выявления сущностей в тексте с помощью NLP: NLTK, Spacy, Flair, DeepPavlov, Polyglot, AdaptNLP, Stanza, AllenNLP, HanLP, PullEnti, Natasha и тд. Глаза начали разбегаться. И что же делать? Конечно, выбрать самое лучшее. Я принял решение выбрать несколько самых популярных библиотек, поддерживающих русский язык, и сравнить, какую же из них использовать? Natasha, Stanza и PullEnti привлекли мое внимание. Далее пойдет речь именно об этих библиотеках.

Colindonolwe 19 мая 2022 в 12:43

Практические применения генеративных моделей: как мы делали суммаризатор текстов

9 мин

11K

Блог компании SberDevicesPython*Машинное обучение*Искусственный интеллектNatural Language Processing*

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики.

Читать дальше →

+14

aim110 18 мая 2022 в 10:58

Находим главное в отзывах. Опыт разработчиков геопоиска Яндекса

9 мин

5.1K

Блог компании ЯндексИнтерфейсы*Геоинформационные сервисы*Машинное обучение*Natural Language Processing*

Существует классический способ выбрать, в какое кафе сходить или в какую организацию обратиться: достаточно почитать отзывы (которые, конечно, должны быть защищены от ботов). И такой способ правда популярен — в том числе, уверен, и среди читателей этого поста.

Для тех, кому важно выбрать быстрее, существует топ отзывов, а также рейтинг заведения. Но в случае с топом по-прежнему нужно вчитываться в мнения людей, а рейтинг скрывает за собой множество деталей — непонятно, учитывает ли он нюансы про еду, обслуживание, спектр услуг и так далее.

Мы поняли, что нужно учиться систематизировать отзывы и выделять главное. Этот пост — про то, как мы стремились состыковать интересы пользователей с доступными нам технологиями в машинном обучении и на фронтенде. Рассказывать буду достаточно подробно, чтобы вы прошли этот путь вместе со мной и увидели все пробы и ошибки. Возможно, по дороге у вас возникнут свои мысли о том, как можно решать подобную задачу.

Читать дальше →

+17

0x7o 15 мая 2022 в 13:03

Разработка Gamio AI. Сквозь боль и баги

3 мин

3.9K

Программирование*Машинное обучение*Искусственный интеллектNatural Language Processing*

Gamio AI - текстовое приключение на русском языке, основанное на искусственном интеллекте.

Как бы пафосно это не звучало, мне удалось создать рабочую версию этой амбициозной идеи.

kucev 27 апр 2022 в 11:33

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

7 мин

5.9K

Data Mining*Big Data*Машинное обучение*Искусственный интеллектNatural Language Processing*

Перевод

Введение

Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.

Читать дальше →

fursov 25 апр 2022 в 15:37

Как мы научили «AI да Пушкин» создавать стихи и какие еще технологии использовали

7 мин

8.7K

Блог компании TINKOFFNatural Language Processing*

Привет! Недавно мы представили проект «AI да Пушкин». Благодаря нейросетям поэт генерирует четверостишия по первым словам, которые предлагает пользователь. А затем читает вслух то, что получилось. Увидеть и услышать, как это происходит, можно на сайте проекта. А мы расскажем, как решили проблему отсутствия рифмы с помощью контролируемой генерации текста и какие технологии использовали, чтобы сделать проект более эффектным.

snakers4 22 апр 2022 в 05:52

Реально ли привлечь Home Credit Bank за нарушение лицензии открытого проекта?

2 мин

27K

Open source*Управление проектами*Законодательство в ITNatural Language Processing*

Недавно натолкнулся на статью в корпоративном блоге Home Credit Bank на Хабре.

Там есть ссылка на нашу статью на Хабре, статья в свою очередь ведет на наш проект, который опубликован под лицензией GNU Affero General Public License v3.0:

Вероятно вы уже поняли, куда это все идет. Данная лицензия подразумевает публикацию кода проекта, который использует наши модели. Но банк естественно этого делать не будет, потому что это банк. А значит лицензия де факто означает некоммерческое использование.

Но Home Credit Bank естественно не обращался к нам за коммерческой версией или лицензией для данной модели.

Поделиться опытом

+73

109

sergey_serov 21 апр 2022 в 14:01

Как мы слушаем и разбираем каждый звонок в банк

9 мин

8.1K

Блог компании Хоум БанкУправление проектами*ЗвукNatural Language Processing*

Сначала DSS LAB делает голос-текст, потом LSTM-классификаторы, сущности Spacy + Yargy (Natasha), лемматизация Pymorphy2, правки Fasttext и Word2Vec, 3 разных суммаризатора и наши решения. Мы можем анализировать ваш голос не только для того, чтобы понимать, о чём ведётся диалог, но и для того, чтобы искать места улучшений банковских продуктов после диалога.

Например, по распознаванию некоторых ключевых слов в речи вроде «аккредитив» или «эскроу» оператору показывается справка, по названиям депозитов — их точные тарифы и так далее. Нажимать при этом ничего не надо. Возможность сейчас обкатывается в бете.

Пример:

На входе: «…почему мне откапывает банкомат с переводом в другой банк».
Коррекция: «почему мне отказывает банкомат с переводом в другой банк».
Выделенное ключевое сообщение: «отказывает банкомат».
Действие: оператору предлагается маршрутизация звонка, звонок классифицируется для статистики.

Само распознавание устроено следующим образом:

Голос раскладывается на фонемы. Фонемы собираются в слова тем же решением.
Из собираемых данных удаляются различные клиентские данные: номера карт, кодовые слова и так далее.
Затем полученный поток слов снабжается пунктуацией (точками и запятыми) и заглавными буквами: это нужно для нейросетей, очень чувствительных к такому. Исправляются опечатки, корректируются термины (география).
И на выходе получаются текстовые диалоги, как в чате: их анализирует уже нейросеть, пытающаяся привязать смысл в реальном времени.
После окончания звонка тексты также анализируются нейросетями, отвечающими за сбор разных метрик по голосовой и чат-поддержке.

Давайте покажу реальные (обезличенные) примеры диалогов, чтобы было понятнее.

Читать дальше →

+20

Rybolos 21 апр 2022 в 13:48

Модель-полиглот: как мы учили GPT-3 на 61 языке мира

10 мин

9.1K

Блог компании SberDevicesOpen source*Машинное обучение*Искусственный интеллектNatural Language Processing*

Генеративные языковые модели уверенно обосновались в практике Natural Language Processing (NLP). Большие предобученные трансформеры двигаются сразу в трёх направлениях: мультимодальность, мультизадачность и мультиязычность. Сегодня мы расскажем про последнюю — о том, как учили модель на основе GPT-3 на 61 языке мира.

Это — самая многоязычная авторегрессионная модель на сегодня. Такую модель можно использовать, например, чтобы создать вопросно-ответную систему, обрабатывающую тексты на многих языках, научить диалогового ассистента говорить на разных языках, а также сделать более универсальные решения для парсинга текста, извлечения информации.

Этим релизом мы хотим привлечь внимание к развитию NLP для языков стран СНГ, а также народов России. Для многих из представленных языков эта модель стала первой авторегрессионной языковой моделью.

Модель доступна в двух вариантах размеров: mGPT XL на 1,3 миллиарда параметров — в открытом доступе, а mGPT 13B — будет доступна в ML Space SberCloud.

+27

wtigga 17 апр 2022 в 14:54

Понимание оценки BLEU в кастомизированном машинном переводе

10 мин

Машинное обучение*Natural Language Processing*

Перевод

Про то, что такое оценка качества машинного перевода BLEU и как кастомизация движка машинного перевода с помощью правильно подобранного обучающего датасета улучшает читаемость текста.

inkoziev 14 апр 2022 в 12:07

Как генерировать стихи с помощью силлабо-тонической трансформенной языковой модели (часть первая)

8 мин

9.4K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

Всем привет! Меня зовут Илья Козиев, я работаю в Управлении экспериментальных систем машинного обучения SberDevices над вопросами генерации текстового контента. В этой статье я хочу представить эффективный способ решения такой интересной задачи, как генерация стихов, с помощью одной из самых современных нейросетевых архитектур — GPT-3. Я подробно распишу все необходимые шаги на пути к получению стихов примерно вот такого уровня:

Я оставляю брошенные фразы
Иного смеха, слабости и слёз
Я превращаюсь в голубые стразы
Кружась ветвями молодых берёз

+27

snakers4 12 апр 2022 в 20:58

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

8 мин

48K

Машинное обучение*DIY или Сделай самЗвукNatural Language Processing*Голосовые интерфейсы*

hero_image

В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

Снизили размер модели в 2 раза;
Научили наши модели делать паузы;
Добавили один высококачественный голос (и бесконечное число случайных);
Ускорили наши модели где-то примерно в 10 раз (!);
Упаковали всех спикеров одного языка в одну модель;
Наши модели теперь могут принимать на вход даже целые абзацы текста;
Добавили функции контроля скорости и высоты речи через SSML;
Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

+156

100

andriygav 12 апр 2022 в 19:39

«ПРО//ЧТЕНИЕ»: новый тест Тьюринга экспертов ЕГЭ?

11 мин

1.2K

Блог компании «Антиплагиат»Программирование*Машинное обучение*Микросервисы*Natural Language Processing*

Введение

Бывает, что вам хочется прыгнуть выше головы? С нами такое случается…

Время от времени в мире анализа данных проходят конкурсы с большими денежными призами. В 2006 году компания Netflix объявила о соревновании на миллион долларов по предсказанию оценок фильмов пользователями на основе их предпочтений. В 2019 году AWS, Facebook, Microsoft и другие компании объявили о конкурсе по распознаванию дипфейков Deepfake Detection Challenge с призом в $500,000 за первое место. Да и вообще такие многобюджетные конкурсы проводятся всё чаще и чаще, как видно в таблице ниже. В начале 2020 года в России стартовал конкурс «ПРО//ЧТЕНИЕ», не уступающий этим соревнованиям ни по масштабам, ни по амбициозности задачи. Организаторы конкурса «ПРО//ЧТЕНИЕ» предлагают разработать систему, проверяющую сочинения ЕГЭ по пяти школьным предметам. Общий призовой фонд конкурса составляет 260 млн руб., что с лёгкостью обгоняет описанные выше конкурсы. Участвовать может каждый, и окончательные итоги пока не подведены.

Читать дальше →

Garge_wp 12 апр 2022 в 16:16

Как сжать fastText, или Приключение на 20 минут

11 мин

2.5K

Блог компании «Антиплагиат»Программирование*Машинное обучение*Микросервисы*Natural Language Processing*

Тема, о которой я хочу вам рассказать, появилась не из-за какого-то оглушительного успеха, громкого провала или желания поделиться каким-то сакральным знанием с и так уже максимально искушённым читателем Хабра. Равно как эта тема не была плодом долгой и кропотливой работы — её не планировали, почти не обсуждали и тем более не утверждали заранее.

Всё выглядело как приключение, после которого остались настолько тёплые воспоминания, что захотелось ими поделиться. Проникнитесь и вы духом приключения, желанием разгадывать загадки и чувством восстановленной справедливости!

И как говорил известный персонаж: «Давай, вошли и вышли, приключение на 20 минут».

Кадр из сериала «Рик и Морти» (англ. Rick and Morty), 3-й сезон, 6-я серия, Adult Swim, 2017 год

Читать дальше →

NewTechAudit 12 апр 2022 в 06:00

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

4 мин

3.6K

Python*Программирование*Машинное обучение*Natural Language Processing*

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

1 2 ...

16 17

19 20 ...

36 37

Natural Language Processing *

Коллективное распознавание смысла

Итоги хакатона по синтезу речи и голосовым дипфейкам

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

Алгебра текста без формул

Истории

Насколько естественен естественный язык? Представляем датасет RuCoLA

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

Практические применения генеративных моделей: как мы делали суммаризатор текстов

Находим главное в отзывах. Опыт разработчиков геопоиска Яндекса

Разработка Gamio AI. Сквозь боль и баги

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Введение

Как мы научили «AI да Пушкин» создавать стихи и какие еще технологии использовали

Реально ли привлечь Home Credit Bank за нарушение лицензии открытого проекта?

Как мы слушаем и разбираем каждый звонок в банк

Ближайшие события

Модель-полиглот: как мы учили GPT-3 на 61 языке мира

Понимание оценки BLEU в кастомизированном машинном переводе

Как генерировать стихи с помощью силлабо-тонической трансформенной языковой модели (часть первая)

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

«ПРО//ЧТЕНИЕ»: новый тест Тьюринга экспертов ЕГЭ?

Введение

Как сжать fastText, или Приключение на 20 минут

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

Вклад авторов