Обновить
119.87

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

Время на прочтение11 мин
Охват и читатели16K

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее

Автоматическое реферирование научных статей. Обзор работ

Время на прочтение19 мин
Охват и читатели3.6K

Задача автоматического реферирования научного текста формулируется следующим образом: на основе текста научной статьи и, возможно, некоторой другой информации о ней, например цитат и ссылок на эту статью, содержащихся в других работах, требуется породить с помощью алгоритмов автоматической обработки текста небольшой сжатый реферат, который при этом будет максимально точно и полно передавать основные идеи, методы и результаты, описанные в статье.

Читать далее

Дистилляция BERT для задачи классификации

Время на прочтение17 мин
Охват и читатели4.6K

Большие языковые модели это конечно хорошо, но иногда требуется использовать что-то маленькое и быстрое.

Читать далее

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Время на прочтение12 мин
Охват и читатели71K

⚡ Градиент обреченный

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры". Результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Читать далее

Смогут ли нейросети заменить художников, копирайтеров и журналистов?

Время на прочтение4 мин
Охват и читатели23K

Всем привет! При создании Telegram-бота TurboText_bot и нейросетей для сервиса TurboText в тех-поддержку неоднократно приходили упрёки, что мы пытаемся отнять хлеб у людей. С публикацией недавней статьи на Хабре таких сообщений стало больше. Поэтому, как один из разработчиков "нейросетей-убийц" этих профессий, решил высказать своё мнение.

Почему вообще люди боятся, что их заменят?

Этот страх возник ещё в 1950-х, когда началось сильное индустриальное развитие. С появлением интернета и доступности алгоритмов машинного обучения этот страх начал только расти. Нейросети стали решать, кому давать кредит в банке, скидку в магазине, что должно быть в ленте новостей и рекомендациях к просмотру фильмов. Они по фотографии ваших лёгких могут предсказать наличие опухоли и Covid-19. На сегодняшний день каждый житель городов-миллионников сталкивается с более чем 1000 нейросетями за месяц, но люди по-прежнему боятся технологий. Почему?

Читать далее

Первый нейросетевой переводчик для эрзянского языка

Время на прочтение10 мин
Охват и читатели16K

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

Читать далее

Создание интеллектуальной вопросно-ответной системы

Время на прочтение6 мин
Охват и читатели6.5K

В последнее время все больше крупных компаний выделяют свои ресурсы на создание искусственных диалоговых помощников (Алиса от Яндекса, Ассистенты Салют от Сбер и др). С такими системами можно, хоть и не в полной мере, поддерживать диалог. Ассистенты умеют выполнять простые команды: ставить таймер или будильник, вызывать такси, управлять умным домом. Но в то же время разработка таких систем стоит больших денег, а также ресурсов на поддержку. В большинстве своем многим предприятиям не требуется, чтобы система умела поддерживать диалог, а просто отвечала на конкретный вопрос. Аналог современных вопросно-ответных систем появился в 60-х годах XX века и назывался экспертными системами. Экспертная система включала в себя оболочку на естественном языке и позволяла задавать вопросы на узкую тематику. С развитием методов обработки естественного языка вопросно-ответные системы стало возможным выделить в отдельный класс и не акцентировать их под решение специализированной задачи. В статье описан процесс создания вопросно-ответной системы, в частности, с какими трудностями пришлось столкнуться, какие технологии использовались, и приведен реальный пример практического использования на базе поступающих заявок в Приемную комиссию МТУСИ.

Читать далее

15 нейросетей в один Telegram-бот: история успеха и реализация помощника для создателей контента

Время на прочтение3 мин
Охват и читатели44K

Всем привет! Я занимаюсь NLP в сфере Data Science и хочу поделиться результатами разработки Telegram-бота, у которого под капотом уже 15 нейросетей. Речь идёт о TurboText_bot. Он будет полезен всем, кто причастен к созданию контента. К таким можно отнести блогеров, журналистов, копирайтеров и многих других специалистов.. Даже бабушек у подъезда, ведь бот способен генерировать и обрабатывать новости.

Что удалось реализовать?

Читать далее

Искусственный интеллект в юриспруденции. Зачем он нужен и как его внедрять?

Время на прочтение7 мин
Охват и читатели10K

Технологии искусственного интеллекта сегодня повсеместно внедряются в бизнес-процессы компаний из самых разных секторов экономики: производство, финансы, медицина и др. Поэтому вполне логично предположить, что и юридическая сфера также в скором времени подвергнется трансформации, которая позволит по-новому взглянуть на хорошо всем известные процессы анализа документов, оценки рисков, подготовки договоров и т.п.

Мы предлагаем задуматься о том, как будут выглядеть на горизонте 3-5 лет основные бизнес-процессы юридических компаний и департаментов.

Читать далее

Категоризация веб-ресурсов при помощи… трансформеров?

Время на прочтение13 мин
Охват и читатели4.1K

Привет! Меня зовут Анвар, я аналитик данных RnD-лаборатории. Перед нашей исследовательской группой стоял вопрос проработки внедрения ИИ в сервис фильтрации веб-контента SWG-решения Solar webProxy. В этом посте я расскажу, зачем вообще нужен анализ веб-контента, почему из многообразия NLP-моделей для автоматизации решения этой задачи мы выбрали модель-трансформер. Кратко объясню, как с помощью математики взвесить смысловые отношения между словами. И, конечно, опишу, как мы приземлили веб-фильтрацию в продукт.

Читать далее

Шахматы и вопрос разумности больших языковых моделей

Время на прочтение23 мин
Охват и читатели13K


Масштабирование больших языковых моделей (LLM) является захватывающей темой, поскольку рассматривается как один из лучших кандидатов на пути к ИИ человеческого уровня. Уже сейчас LLM могут отвечать на вопросы, генерировать реалистичные статьи и поддерживать, казалось бы, осмысленный разговор на широкий круг тем. Некоторые исследователи ИИ даже утверждают, что LLM возможно уже могут «слегка обладать сознанием», а журналисты выпускают статьи вроде «роботы захватят весь мир» с картинками терминаторов. Однако, скептики возражают, что большинство таких моделей — это просто большая ассоциативная память, без истинного понимания реальности и неспособная к определенным типам задач. Одна из таких задач, которая привлекла мое внимание — игра в шахматы. В то время как специализированные шахматные движки давно обыгрывают чемпионов мира, даже очень большие языковые модели, такие как GPT-3 с сотнями миллиардов параметров едва справляются с такой простой задачей как мат в один ход. А с такими способностями к стратегии, эти модели едва ли справятся с завоеванием мира. Поэтому как шахматист со стажем и по совместительству разработчик нейросетей я решила попробовать устранить этот недостаток.
Читать дальше →

Как создать переводчик, который переводит лучше, чем Google Translate

Время на прочтение8 мин
Охват и читатели40K

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В этот раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

Читать далее

OpenAI решили распознавание речи! Разбираемся так ли это…

Время на прочтение7 мин
Охват и читатели17K

Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.

Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.

Итак, поехали!

Ближайшие события

Определение типа личности по тексту (на замену закрытому IBM Watson Personality Insights)

Время на прочтение16 мин
Охват и читатели7.3K


Некоторое время назад к нам обратился заказчик с не совсем обычной задачей — воспроизвести сервис IBM Watson Personality Insights, который анализировал текст, написанный человеком и определял по нему ряд личностных характеристик. Задача возникла по причине того, что бизнес заказчика основывался на этом сервисе, в то время как IBM объявила, что сервис вскоре станет недоступен. В этой статье расскажем, что делал этот сервис и чем закончилась задача воспроизведения его функционала.
Читать дальше →

Я сделаю свою «умную» колонку… «with blackjack and hookers!». Эпизод 2 (но двоек не существует). Проект NeBender

Время на прочтение4 мин
Охват и читатели6.3K

Данный проект является одновременно развитием и ответвлением проекта Pinder.

В комментариях к первой статье (да и сам думал об этом тоже) мне предлагали вариант для распознавания смыслов на GPT.

Почитал немного про использование GPT, круто это всё конечно, вот прямо спорткар, Ferrari какой-нибудь в мире NLP. В общем Ferrari это круто, но я люблю велосипеды, поэтому было принято решение запилить пусть что-нибудь простое, но своё.

Так появился проект NeBender (Neural Bender).

Читать далее

Теория сильного ИИ

Время на прочтение15 мин
Охват и читатели5.6K

В данной статье рассматриваются алгоритмы абстрактного мышления и механизм побуждения разума к действию. Это мышление - главная загадка современности и есть мнение, что компьютер не в силах ее решить, что только душа человека на это способна. Что сначала будет создана урезанная версия ИИ, а только потом будет создан сильный ИИ похожий на человеческий.

Основываясь на том, что:

мышление основано на картах реальности, см статья теория алгоритма лежащего в основе фантазирования реальностью в мозге.
мышление основано на сценах, которые предполагают варианты действий разуму в реальности, пример ниже.
мышление основано на словах, и слова несут информацию.
смысл слов существующих в реальности (люди, предметы) описан в статье теория алгоритма, дающего смысл словам.
есть закономерность, что в биологии эволюция идет через создание копий генов с небольшим изменением их функций и гены несут в себе алгоритмы мышления.
что алгоритм распознавания в визуальной информации стилей и текстур очень многогранен (см. статья теория групп слов, на базе которых работает мышление) и участвует в мышлении, имея разный смысл у различных групп слов.
мышление рекурсивное, т.е. думая мы повторяем одно и тоже действие (мысль) и что то придумываем.
есть гипотезы, что за всей работой мозга стоит несложный алгоритм, например фрактал. Хотя считается, что за всем стоят нейросети с еще неопределенными параметрами.

Абстрактное мышление это умение с помощью переноса сознания в абстрактный мир и исследуя вопрос или проблему с разных вариантов в этом мире, правильно либо ее описать, либо решить. Упрощенно мышление с реальными объектами в данной теории (см. рис. 1)

Читать далее

Как сделали 9 NLU ботов за 5 дней с интеграциями на чистом Low-code

Время на прочтение4 мин
Охват и читатели4.4K

Как сделали 9 NLU ботов за 5 дней с интеграциями на чистом Low-code

В данном проекте перед нами стояла задача – с помощью чат-бота разгрузить КЦ, а также оперативно и качественно отвечать на вопросы студентов и школьников группы образовательных организаций.

Читать далее

Шерудим под капотом Stable Diffusion

Время на прочтение10 мин
Охват и читатели39K

Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию.

Я решил разобраться, и заодно сделать небольшой туториал, по архитектуре модели Stable Diffusion. Сегодня мы не будем глубоко погружаться в математику и процесс тренировки. Вместо этого сфокусируемся на применении и устройстве основных компонент: UNet, VAE, CLIP.

Читать далее

Новый запуск курса Natural Language Processing

Время на прочтение2 мин
Охват и читатели7.3K

Уже в среду мы делаем новый запуск курса по обработке естественного языка от ODS и Huawei. Ссылка на курс вот. В этом запуске дополнительно расскажу про то, как устроены Github Copilot и OpenAI Codex, ну и в целом про NLP4Code.

Читать далее

Financial News Sentiment Dataset: определяем точку входа в акции по настроению новостей

Время на прочтение5 мин
Охват и читатели9.5K

Набор данных Financial News Sentiment Dataset (FiNeS) содержит в себе заголовки финансовых новостей о компаниях, торгующихся на Московской и СПб биржах. Целевой переменной датасета является оценка тональности новостных заголовков в виде вещественного числа. Идеи для использования датасета: Создание трейдинговых стратегий на основе анализа тональности новостей "на лету"; Анализ новостного фона в разрезе времени (день/неделя) или в разрезе компании.

Читать далее

Вклад авторов