Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

alex_golubev13 14 окт 2022 в 09:08

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

11 мин

16K

Блог компании Ozon TechPython * Обработка изображений * Машинное обучение * Natural Language Processing *

Технотекст 2022

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее

+42

diana_dev 13 окт 2022 в 10:09

Автоматическое реферирование научных статей. Обзор работ

19 мин

3.6K

Блог компании Unistar Digital | Юнистар ДиджиталСемантические сети * Natural Language Processing *

Задача автоматического реферирования научного текста формулируется следующим образом: на основе текста научной статьи и, возможно, некоторой другой информации о ней, например цитат и ссылок на эту статью, содержащихся в других работах, требуется породить с помощью алгоритмов автоматической обработки текста небольшой сжатый реферат, который при этом будет максимально точно и полно передавать основные идеи, методы и результаты, описанные в статье.

Читать далее

+6

kitaisky 12 окт 2022 в 06:43

Дистилляция BERT для задачи классификации

17 мин

4.6K

Natural Language Processing * Машинное обучение * Искусственный интеллект

Туториал

Большие языковые модели это конечно хорошо, но иногда требуется использовать что-то маленькое и быстрое.

Читать далее

+6

averkij 10 окт 2022 в 10:02

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

12 мин

71K

Блог компании Open Data ScienceData Mining * Машинное обучение * Искусственный интеллектNatural Language Processing *

Туториал

Cезон Data Mining

⚡ Градиент обреченный

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры". Результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Читать далее

+28

mochila007 9 окт 2022 в 10:22

Смогут ли нейросети заменить художников, копирайтеров и журналистов?

4 мин

23K

Python * КопирайтИскусственный интеллектNatural Language Processing *

Всем привет! При создании Telegram-бота TurboText_bot и нейросетей для сервиса TurboText в тех-поддержку неоднократно приходили упрёки, что мы пытаемся отнять хлеб у людей. С публикацией недавней статьи на Хабре таких сообщений стало больше. Поэтому, как один из разработчиков "нейросетей-убийц" этих профессий, решил высказать своё мнение.

Почему вообще люди боятся, что их заменят?

Этот страх возник ещё в 1950-х, когда началось сильное индустриальное развитие. С появлением интернета и доступности алгоритмов машинного обучения этот страх начал только расти. Нейросети стали решать, кому давать кредит в банке, скидку в магазине, что должно быть в ленте новостей и рекомендациях к просмотру фильмов. Они по фотографии ваших лёгких могут предсказать наличие опухоли и Covid-19. На сегодняшний день каждый житель городов-миллионников сталкивается с более чем 1000 нейросетями за месяц, но люди по-прежнему боятся технологий. Почему?

Читать далее

+4

cointegrated 9 окт 2022 в 10:00

Первый нейросетевой переводчик для эрзянского языка

10 мин

16K

Семантические сети * Data Mining * Машинное обучение * Искусственный интеллектNatural Language Processing *

Cезон Data Mining

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

Читать далее

+68

Weshid 30 сен 2022 в 10:04

Создание интеллектуальной вопросно-ответной системы

6 мин

6.5K

Блог компании Unistar Digital | Юнистар ДиджиталСемантические сети * Машинное обучение * Natural Language Processing *

В последнее время все больше крупных компаний выделяют свои ресурсы на создание искусственных диалоговых помощников (Алиса от Яндекса, Ассистенты Салют от Сбер и др). С такими системами можно, хоть и не в полной мере, поддерживать диалог. Ассистенты умеют выполнять простые команды: ставить таймер или будильник, вызывать такси, управлять умным домом. Но в то же время разработка таких систем стоит больших денег, а также ресурсов на поддержку. В большинстве своем многим предприятиям не требуется, чтобы система умела поддерживать диалог, а просто отвечала на конкретный вопрос. Аналог современных вопросно-ответных систем появился в 60-х годах XX века и назывался экспертными системами. Экспертная система включала в себя оболочку на естественном языке и позволяла задавать вопросы на узкую тематику. С развитием методов обработки естественного языка вопросно-ответные системы стало возможным выделить в отдельный класс и не акцентировать их под решение специализированной задачи. В статье описан процесс создания вопросно-ответной системы, в частности, с какими трудностями пришлось столкнуться, какие технологии использовались, и приведен реальный пример практического использования на базе поступающих заявок в Приемную комиссию МТУСИ.

Читать далее

+4

mochila007 30 сен 2022 в 09:56

15 нейросетей в один Telegram-бот: история успеха и реализация помощника для создателей контента

3 мин

44K

Машинное обучение * SQL * Python * Natural Language Processing *

Из песочницы

Всем привет! Я занимаюсь NLP в сфере Data Science и хочу поделиться результатами разработки Telegram-бота, у которого под капотом уже 15 нейросетей. Речь идёт о TurboText_bot. Он будет полезен всем, кто причастен к созданию контента. К таким можно отнести блогеров, журналистов, копирайтеров и многих других специалистов.. Даже бабушек у подъезда, ведь бот способен генерировать и обрабатывать новости.

Что удалось реализовать?

Читать далее

+2

ipostny 29 сен 2022 в 14:17

Искусственный интеллект в юриспруденции. Зачем он нужен и как его внедрять?

7 мин

10K

Машинное обучение * Искусственный интеллектNatural Language Processing *

Технотекст 2022

Технологии искусственного интеллекта сегодня повсеместно внедряются в бизнес-процессы компаний из самых разных секторов экономики: производство, финансы, медицина и др. Поэтому вполне логично предположить, что и юридическая сфера также в скором времени подвергнется трансформации, которая позволит по-новому взглянуть на хорошо всем известные процессы анализа документов, оценки рисков, подготовки договоров и т.п.

Мы предлагаем задуматься о том, как будут выглядеть на горизонте 3-5 лет основные бизнес-процессы юридических компаний и департаментов.

Читать далее

+4

Solar_webProxy 29 сен 2022 в 07:02

Категоризация веб-ресурсов при помощи… трансформеров?

13 мин

4.1K

Блог компании СоларИнформационная безопасность * Машинное обучение * Natural Language Processing *

Привет! Меня зовут Анвар, я аналитик данных RnD-лаборатории. Перед нашей исследовательской группой стоял вопрос проработки внедрения ИИ в сервис фильтрации веб-контента SWG-решения Solar webProxy. В этом посте я расскажу, зачем вообще нужен анализ веб-контента, почему из многообразия NLP-моделей для автоматизации решения этой задачи мы выбрали модель-трансформер. Кратко объясню, как с помощью математики взвесить смысловые отношения между словами. И, конечно, опишу, как мы приземлили веб-фильтрацию в продукт.

Читать далее

+7

Alice_point_py 28 сен 2022 в 22:49

Шахматы и вопрос разумности больших языковых моделей

23 мин

13K

Блог компании MeanoTekNatural Language Processing * Искусственный интеллектМашинное обучение * Научно-популярное

Технотекст 2022

Масштабирование больших языковых моделей (LLM) является захватывающей темой, поскольку рассматривается как один из лучших кандидатов на пути к ИИ человеческого уровня. Уже сейчас LLM могут отвечать на вопросы, генерировать реалистичные статьи и поддерживать, казалось бы, осмысленный разговор на широкий круг тем. Некоторые исследователи ИИ даже утверждают, что LLM возможно уже могут «слегка обладать сознанием», а журналисты выпускают статьи вроде «роботы захватят весь мир» с картинками терминаторов. Однако, скептики возражают, что большинство таких моделей — это просто большая ассоциативная память, без истинного понимания реальности и неспособная к определенным типам задач. Одна из таких задач, которая привлекла мое внимание — игра в шахматы. В то время как специализированные шахматные движки давно обыгрывают чемпионов мира, даже очень большие языковые модели, такие как GPT-3 с сотнями миллиардов параметров едва справляются с такой простой задачей как мат в один ход. А с такими способностями к стратегии, эти модели едва ли справятся с завоеванием мира. Поэтому как шахматист со стажем и по совместительству разработчик нейросетей я решила попробовать устранить этот недостаток.

Читать дальше →

+91

UtrobinMV 22 сен 2022 в 09:21

Как создать переводчик, который переводит лучше, чем Google Translate

8 мин

40K

Data Engineering * Natural Language Processing * Искусственный интеллектМашинное обучение * Data Mining *

Туториал

Cезон Data Mining

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В этот раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

Читать далее

+60

snakers4 22 сен 2022 в 08:54

OpenAI решили распознавание речи! Разбираемся так ли это…

7 мин

17K

Машинное обучение * Искусственный интеллектNatural Language Processing *

Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.

Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.

Итак, поехали!

+22

Durham 20 сен 2022 в 20:58

Определение типа личности по тексту (на замену закрытому IBM Watson Personality Insights)

16 мин

7.3K

Блог компании MeanoTekNatural Language Processing * Искусственный интеллектМашинное обучение * Мозг

Некоторое время назад к нам обратился заказчик с не совсем обычной задачей — воспроизвести сервис IBM Watson Personality Insights, который анализировал текст, написанный человеком и определял по нему ряд личностных характеристик. Задача возникла по причине того, что бизнес заказчика основывался на этом сервисе, в то время как IBM объявила, что сервис вскоре станет недоступен. В этой статье расскажем, что делал этот сервис и чем закончилась задача воспроизведения его функционала.

Читать дальше →

+5

Zen_Kong 19 сен 2022 в 19:35

Я сделаю свою «умную» колонку… «with blackjack and hookers!». Эпизод 2 (но двоек не существует). Проект NeBender

4 мин

6.3K

Python * Машинное обучение * Raspberry Pi * DIY или Сделай самNatural Language Processing *

Данный проект является одновременно развитием и ответвлением проекта Pinder.

В комментариях к первой статье (да и сам думал об этом тоже) мне предлагали вариант для распознавания смыслов на GPT.

Почитал немного про использование GPT, круто это всё конечно, вот прямо спорткар, Ferrari какой-нибудь в мире NLP. В общем Ferrari это круто, но я люблю велосипеды, поэтому было принято решение запилить пусть что-нибудь простое, но своё.

Так появился проект NeBender (Neural Bender).

Читать далее

+6

SubjectPersonalData 19 сен 2022 в 00:09

Теория сильного ИИ

15 мин

5.6K

Алгоритмы * Машинное обучение * Искусственный интеллектМозгNatural Language Processing *

В данной статье рассматриваются алгоритмы абстрактного мышления и механизм побуждения разума к действию. Это мышление - главная загадка современности и есть мнение, что компьютер не в силах ее решить, что только душа человека на это способна. Что сначала будет создана урезанная версия ИИ, а только потом будет создан сильный ИИ похожий на человеческий.

Основываясь на том, что:

• мышление основано на картах реальности, см статья теория алгоритма лежащего в основе фантазирования реальностью в мозге.
• мышление основано на сценах, которые предполагают варианты действий разуму в реальности, пример ниже.
• мышление основано на словах, и слова несут информацию.
• смысл слов существующих в реальности (люди, предметы) описан в статье теория алгоритма, дающего смысл словам.
• есть закономерность, что в биологии эволюция идет через создание копий генов с небольшим изменением их функций и гены несут в себе алгоритмы мышления.
• что алгоритм распознавания в визуальной информации стилей и текстур очень многогранен (см. статья теория групп слов, на базе которых работает мышление) и участвует в мышлении, имея разный смысл у различных групп слов.
• мышление рекурсивное, т.е. думая мы повторяем одно и тоже действие (мысль) и что то придумываем.
• есть гипотезы, что за всей работой мозга стоит несложный алгоритм, например фрактал. Хотя считается, что за всем стоят нейросети с еще неопределенными параметрами.

Абстрактное мышление это умение с помощью переноса сознания в абстрактный мир и исследуя вопрос или проблему с разных вариантов в этом мире, правильно либо ее описать, либо решить. Упрощенно мышление с реальными объектами в данной теории (см. рис. 1)

Читать далее

0

chatme 16 сен 2022 в 19:05

Как сделали 9 NLU ботов за 5 дней с интеграциями на чистом Low-code

4 мин

4.4K

Читальный залУправление проектами * Искусственный интеллектNatural Language Processing *

Из песочницы

Как сделали 9 NLU ботов за 5 дней с интеграциями на чистом Low-code

В данном проекте перед нами стояла задача – с помощью чат-бота разгрузить КЦ, а также оперативно и качественно отвечать на вопросы студентов и школьников группы образовательных организаций.

Читать далее

+2

arch1baald 14 сен 2022 в 14:11

Шерудим под капотом Stable Diffusion

10 мин

39K

Обработка изображений * Машинное обучение * Искусственный интеллектNatural Language Processing *

Туториал

Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию.

Я решил разобраться, и заодно сделать небольшой туториал, по архитектуре модели Stable Diffusion. Сегодня мы не будем глубоко погружаться в математику и процесс тренировки. Вместо этого сфокусируемся на применении и устройстве основных компонент: UNet, VAE, CLIP.

Читать далее

+81

madrugado 12 сен 2022 в 13:00

Новый запуск курса Natural Language Processing

2 мин

7.3K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллектNatural Language Processing *

Уже в среду мы делаем новый запуск курса по обработке естественного языка от ODS и Huawei. Ссылка на курс вот. В этом запуске дополнительно расскажу про то, как устроены Github Copilot и OpenAI Codex, ну и в целом про NLP4Code.

Читать далее

+13

perevalov_a 10 сен 2022 в 15:01

Financial News Sentiment Dataset: определяем точку входа в акции по настроению новостей

5 мин

9.5K

Python * Финансы в ITNatural Language Processing *

Набор данных Financial News Sentiment Dataset (FiNeS) содержит в себе заголовки финансовых новостей о компаниях, торгующихся на Московской и СПб биржах. Целевой переменной датасета является оценка тональности новостных заголовков в виде вещественного числа. Идеи для использования датасета: Создание трейдинговых стратегий на основе анализа тональности новостей "на лету"; Анализ новостного фона в разрезе времени (день/неделя) или в разрезе компании.

Читать далее

+12

1 2 ...

37

38 39 ...