Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

use_magic 3 мар 2023 в 13:02

Bag of tricks для разметки текстовых данных: Часть 1. Четыре способа размечать меньше

Средний

9 мин

5.5K

Блог компании MWS AIМашинное обучение * Natural Language Processing * Искусственный интеллект

Туториал

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. Мы не понаслышке знаем, что сбор и разметка данных часто становятся “бутылочным горлышком" в проектах, связанных с машинным обучением. У нас в компании есть постоянная необходимость в разных видах разметки аудио, текста и изображений.

В этой статье я хочу поделиться лайфхаками по подготовке и разметке текстовых датасетов и возможными "граблями", на которые можно наступить, если вы создаете датасет впервые. Многие из этих советов универсальны, но основной фокус сделан на обработке естественного языка, поскольку я опираюсь в первую очередь на собственный опыт: в разное время я работала с юридическими документами, доменными чат-ботами и участвовала в подготовке и проведении соревнования по автоматической детоксификации текстов.

+10

marker_media 2 мар 2023 в 11:32

Как сделать своего “Марка”? Обучение

Средний

8 мин

15K

Искусственный интеллектNatural Language Processing *

Туториал

Привет! Ты уже знаешь, как генерировать новости с помощью Марка. Теперь расскажем, как же так получилось, что мы обучили языковую модель генерации новостей. Пришло время узнать, как можно файнтюнить большие генеративные модели под свои задачи.

Takagi 26 фев 2023 в 12:59

О «раздутом пузыре» нейросетей

Средний

8 мин

104K

Python * Программирование * Машинное обучение * Искусственный интеллектNatural Language Processing *

Мнение

✏️ Технотекст 2023

На днях я наткнулся на одно любопытное видео.

Моей первой реакцией было ~~Братан, хорош, давай, давай, вперёд! Контент в кайф, можно ещё? Вообще красавчик! Можно вот этого вот почаще?~~ отрицание и усталость, потому что всё это я уже слышу на протяжении лет пяти с разной интенсивностью в зависимости от текущих объектов хайпа. В этом посте я попытаюсь разобраться, что из сказанного в видео является правдой.

Утверждения:

1. Закон Мура больше не выполняется из-за фундаментальных физических ограничений ⇒ масштабирование нейросетевых моделей по вычислительному бюджету невозможно.

2. Нейросетевые модели внедряются слишком медленно.

3. Ответы нейросетевых моделей неконтролируемы и неинтерпретируемы.

Дальше обсудим каждое из них.

+129

172

AnatolyBelov 22 фев 2023 в 06:07

Обработка естественного языка (NLP). Личный опыт — мой первый запуск BERT

4 мин

399

Программирование * Машинное обучение * Искусственный интеллектNatural Language Processing * Python *

Cезон machine learning

BERT — Bidirectional Encoder Representations from Transformers

Здесь не будет рассказываться о том, что такое BERT, как это работает и для чего применяется — в сети об этом достаточно информации.

Это статья про личный опыт — как конкретно у меня получилось запустить BERT с чистого Colab по конкретным описаниям.

shmpanski 21 фев 2023 в 08:28

Пошаговый гайд: как мы ВКонтакте делаем собственный переводчик

Средний

11 мин

5.1K

Блог компании VKМашинное обучение * Natural Language Processing *

Обзор

Машинный перевод — область технологий, которая успешно приближает будущее. Он разрушает языковой барьер и помогает людям, которые говорят на разных языках, понимать друг друга. Один клик — и можно прочитать и понять статью, написанную на незнакомом языке, или сообщения в мессенджере от людей из любой точки мира. А значит, получить больше информации и найти новых знакомых. Это с точки зрения пользователя.

Со стороны разработчиков сервисов тоже, казалось бы, современное машинное обучение уже близко к тому, чтобы достаточно было сделать import model_name from your_favourite_framework — и всё заработало. К сожалению, это не совсем так. Нельзя просто взять готовый претрейн и надеяться, что он будет хорошо переводить все именованные сущности. Нельзя просто обучиться на готовом кусочке WMT-данных и верить в то, что переводчик будет адекватно работать на специфичном домене. Нельзя просто взять обычный токенизатор и трансформер — и рассчитывать на корректный перевод текстов с шумами и опечатками.

Поэтому этот гайд будет немного более сложным, чем импорт моделей. Под катом вы не найдёте серебряной пули — только реальный опыт и подходы, которые помогли нам ВКонтакте справиться со всеми нюансами и запустить собственный переводчик.

+40

hokid 17 фев 2023 в 09:04

Пишем умный поиск по коду с Open AI

Средний

6 мин

11K

JavaScript * Natural Language Processing * Node.JS * Python * TypeScript *

Из песочницы

В этой статье мы кратко рассмотрим технологию, которая лежит в основе ChatGPT — эмбеддинги, и напишем простой интеллектуальный поиск по кодовой базе проекта.

+10

marker_media 16 фев 2023 в 08:16

Тестим Марка: как происходит генерация новостей

Простой

6 мин

2.8K

Учебный процесс в ITЛайфхаки для гиковИскусственный интеллектNatural Language Processing *

Из песочницы

Сейчас Марк от нашего медиа "Маркер" — это генеративная языковая модель, которая умеет придумывать новостные статьи без помощи человека. Марк может писать свободно, опираясь на свой опыт и выбирая каждое слово самостоятельно. Либо же мы можем помочь ему с темой новости и дать начало заголовка или заголовок, тогда Марк продолжит нашу мысль.

AlexKimen 13 фев 2023 в 04:15

Почему Chat GPT говорит по-русски с нейронным акцентом? Специфика токенизации кириллицы нейронной сетью от Open AI

Простой

4 мин

39K

Искусственный интеллектNatural Language Processing *

Обзор

Увидев очередную статью об утомившем всех Chat GPT от Open AI, рука невольно тянется в ~~пистолету~~ минусатору. Ну, в самом деле, сколько можно? Уже, кажется, все успели поиграть с чатом во всевозможных сценариях.

Однако один аспект, почему‑то, почти не затронут как на Хабре, так и в Рунете. Почему же все‑таки Chat GPT говорит по‑русски с весьма специфическим акцентом, который условно можно назвать «нейронным говорком»?

Чтобы понять суть вопроса, обратимся к теории. Чем занимается генеративная нейронная сеть такого типа?

Говоря просто и коротко она получает на вход набор токенов, пропускает их через некий «черный ящик» и выдает другой набор токенов. Вероятность выбора конкретного токена для ответа зависит от набора входящих токенов и конкретных настроек.

Но что же такое «токен»? Интересный факт заключается в том, что для английского языка токеном обычно выступают сочетания символов, зачастую совпадающие с короткими словами или часто встречающимися частями слов.

Возьмем, например, английскую панграмму:

“The quick brown fox jumps over the lazy dog”

Напомню, что панграмма — это предложение из минимального числа слов, содержащая в себе все буквы алфавита.

Официальный токенизатор Open AI.

Показывает, что в этом предложении всего 9 токенов, содержащих 43 символа.

+39

DanielVyazhev 31 янв 2023 в 00:06

Краткая история NLP — Natural Language Processing

6 мин

5.1K

Искусственный интеллектNatural Language Processing *

Ретроспектива

История использования систем обработки естественного языка насчитывает всего 50 лет, но изо дня в день мы используем различные модели NLP. В различных поисковых запросах, переводчиках и чат‑ботах. NLP возникло как слияние искусственного интеллекта и лингвистики. Лингвистика — это наука, изучающая языки, их семантику — смысловые единицы слов, фонетику — изучение звукового состава слов, синтаксис — номинативные и коммуникативные единицы языка.

stalkermustang 26 янв 2023 в 08:55

ChatGPT как инструмент для поиска: решаем основную проблему

40 мин

144K

Блог компании Open Data SciencePython * Машинное обучение * Natural Language Processing *

Обзор

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →

+96

Sanek22 23 янв 2023 в 09:09

Real AI семантический анализатор. Онлайн-демо – овощи, фрукты и их свойства

4 мин

Семантические сети * Искусственный интеллектNatural Language Processing *

Кейс

Всем привет!
Мы продолжаем развитие нашей системы анализа естественного языка и, завершив промежуточный этап работы над коммерческим сценарием выявления поручений из документов, решили выложить в отрытый доступ онлайн демо по нахождению в тексте объектов и соответствующих им характеристик. Как нам кажется, мы сделали уникальную вещь, по крайней мере, нам не известно о доступных онлайн системах построения смысловой модели текста с таким уровнем детализации.

Далее описание применяемой технологии, предметной области, ограничений и возможностей демо.

aarmaageedoon 20 янв 2023 в 08:49

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

10 мин

3.1K

Блог компании MWS AIМашинное обучение * Natural Language Processing *

Всем привет! На связи Игорь Буянов, разработчик в команде разметки MTS AI. Сегодня я поделюсь с вами своими наработками, появившимися во время изучения метрик оценки генерации данных. Когда я только пришел в команду разметки, эта задача была особо актуальной - нас тогда просили нагенерить данные под тестирование информационного бота по COVID. Дело в том, что тестирование результатов выполнялось вручную, что значительно замедляло работу. Каких-либо автоматических метрик оценки качества генерации тестовых данных не существовало.

В какой-то момент мне надоело это терпеть, и я решил посмотреть, а как качество текстов оценивают разработчики языковых моделей. У них точно есть перплексия, может, есть что-то еще.

Спустя время, проведенное за штудированием статей, я нашел кандидата среди известных метрик для оценки качества генерации, но кроме того, к своему удивлению, у меня появилось несколько теоретических тезисов о качестве данных вообще. В этом посте я делюсь ими с сообществом в надежде на дальнейшее обсуждение. Для лучшего понимания дальнейшего текста рекомендую прочитать эту статью.

phoalss 19 янв 2023 в 19:55

MedBench: NLP-задачи в медицине, модели и методы их решения

14 мин

7.2K

ТелемедицинаМашинное обучение * Искусственный интеллектNatural Language Processing *

Из песочницы

Привет, Хабр! Меня зовут Даниил Погуляка. Я студент четвертого курса МГТУ им. Н.Э. Баумана, факультета "Информатика, искусственный интеллект и системы управления". Уже некоторое время я занимаюсь изучением методов машинного обучения, в частности, касающихся автоматической обработки текстов (Natural Language Processing, NLP). В конце прошлого года мне удалось попасть на стажировку в Sber AI Lab. Оказавшись в команде проекта MedBench, у меня появилась возможность поработать над практическими NLP задачами. В этой статье я бы хотел рассказать вам о проекте, которым занимался на протяжении своей стажировки. Проект связан с использованием нейронных сетей в сфере медицины, но подробнее о нём после небольшого введения.

+16

dumperize 19 янв 2023 в 14:48

Важные исследования в области AI в 2022 г

12 мин

8.3K

Big Data * Машинное обучение * Natural Language Processing *

Обзор

Перевод

Данная статья представляет собой свободный перевод раздела "Исследования" из доклада State of the Art 2022 (октябрь). Доклад State of the Art публикуется уже пятый год. Это подборка самых интересных вещей в мире AI, (конечно с точки зрения авторов). Отчет включает в себя несколько блоков:

+15

aarmaageedoon 17 янв 2023 в 07:31

О когезии и когерентности

11 мин

12K

Natural Language Processing *

В этом посте я собрал все свои заметки, которые собрал при изучении лингвистических явлений, таких как когезия, когерентность и связь между ними, а также лексические цепи. В конце вас ждет пара интересных алгоритмов: вычисление этих самых лексических цепей и генерация саммари на их основе.

aarmaageedoon 7 янв 2023 в 09:59

Мы в город изумрудный идем дорогой трудной. Ваш компас в мир NLP

5 мин

3.6K

Управление персоналом * Карьера в IT-индустрииNatural Language Processing *

Роадмэп

Всегда завидовал, что существует ресурс roadmap.sh, где есть разные дорожные карты для разработчиков, а для MLщиков, NLP в частности, нет. Устал я это терпеть и решил сделать сам. С другой стороны, меня интересовали вопросы: а NLP Уngineer это кто? А NLP Research engineer это уже другое? А это то же самое, что NLP Scientis? Чтобы хоть немного разобраться, я решил посмотреть, а что вообще сейчас требуется в вакансиях, где в заголовке фигурирует NLP. В результате вместо просто дорожной карты, получилось собрать еще парочку интересных диаграмм. Надеюсь тем, кто только смотрит в сторону NLP, она поможет сориентироваться, всем HR поможет в построении диаграмм компетенций, а специалистам поможет оценивать кандидатов на собеседовании.

Ссылка на репозиторий.

aarmaageedoon 5 янв 2023 в 15:44

Разбираемся, как измерять разнообразие слов

7 мин

4.6K

Natural Language Processing *

Обзор

Привет в Новом году. Я тут добрался на праздниках до одной темы, которая пылится у меня уже полгода в закладках. Поговорим сегодня о метриках лексического разнообразия. Эти метрики показывают насколько богат текст на разные слова, помогая нам оценить его сложность. В этой небольшой заметке я кратко расскажу историю вопроса, о современных метриках, а в конце покажу результаты предварительных экспериментов. Тетрадка доступна по ссылке.

Читать дальше →

Takagi 29 дек 2022 в 13:51

Стихи, цветы и драконы на EMNLP 2022

7 мин

1.8K

Natural Language Processing * Искусственный интеллектМашинное обучение * Программирование *

Обзор

EMNLP — это одна из самых больших конференций в области обработки естественных языков. В этом году конференция проходила с 7 по 11 декабря в Абу-Даби. Из кучи статьей, представленных на конференции, я хотел бы выделить три, которые привлекли моё внимание. Эти статьи не самые полезные или известные, но они точно достойны упоминания. Две статьи были представлены в виде постеров, у третьей было полноценное выступление на конференции. Моя любимая из этих трех статей — PoeLM, статья про генерацию стихов на испанском языке с формальными ограничениями.

Поехали!

artkulakov 29 дек 2022 в 13:04

Делаем фронт на React, а ChatGPT будет нашим Redux редьюсером

6 мин

12K

Python * Big Data * ReactJS * Natural Language Processing * Data Engineering *

Туториал

Перевод

Приложение React/Redux представляет собой односторонний цикл потока данных. Пользователь взаимодействует с пользовательским интерфейсом, который производит действия Redux, которые отправляются в функции reducer, которые обновляют объект состояния приложения, который передается обратно в React для повторного отображения пользовательского интерфейса.

Разговор с ChatGPT также представляет собой односторонний цикл. Человек посылает запрос (действие), который передается языковой модели (редуктор), которая обновляет разговор (состояние) своим ответом.

Можем ли мы использовать последнюю модель ChatGPT для этих целей? Спойлер: да, можем!

aarmaageedoon 28 дек 2022 в 16:09

I never asked for this. Как понять, на что способен аугментатор текстов

6 мин

1.8K

Блог компании MWS AINatural Language Processing * Машинное обучение *

Туториал

Привет, я Буянов Игорь. Разработчик в команде разметки MTS AI. Сегодня я вам расскажу о способе понять, на что способен ваш аугментатор текста и в каких случаях его лучше использовать.

История создания этой методики началась с задачи текстовой генерации, в которой разметчики должны писать тексты под определенный класс. Такой отчаянный способ создания данных, когда их нет совсем. В раздумьях о том, как облегчить труд разметчиков, мне пришла идея:
что если разметчики будут писать не весь объем текстов, а, скажем, только некоторую часть, пусть и большую, а меньшую добивать с помощью аугментаторов. Однако, как убедиться, что тексты, полученные от аугментатора, хотя бы соответствуют тематике класса? Ко всем ли текстам можно применять аугментатор и ожидать, что все будет работать как надо? Другими словами, надо получить характеристику аугментатора, чтобы знать, чего от него можно ожидать.

В этой небольшой заметке я покажу простую и довольно быструю, хоть и ручную, методику оценки текстовых аугментаторов.

Читать дальше →

1 2 ...

33 34

36 37 ...

58 59

Natural Language Processing *

Bag of tricks для разметки текстовых данных: Часть 1. Четыре способа размечать меньше

Как сделать своего “Марка”? Обучение

О «раздутом пузыре» нейросетей

Обработка естественного языка (NLP). Личный опыт — мой первый запуск BERT

Пошаговый гайд: как мы ВКонтакте делаем собственный переводчик

Пишем умный поиск по коду с Open AI

Тестим Марка: как происходит генерация новостей

Почему Chat GPT говорит по-русски с нейронным акцентом? Специфика токенизации кириллицы нейронной сетью от Open AI

Краткая история NLP — Natural Language Processing

ChatGPT как инструмент для поиска: решаем основную проблему

Real AI семантический анализатор. Онлайн-демо – овощи, фрукты и их свойства

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

MedBench: NLP-задачи в медицине, модели и методы их решения

Ближайшие события

Важные исследования в области AI в 2022 г

О когезии и когерентности

Мы в город изумрудный идем дорогой трудной. Ваш компас в мир NLP

Разбираемся, как измерять разнообразие слов

Стихи, цветы и драконы на EMNLP 2022

Делаем фронт на React, а ChatGPT будет нашим Redux редьюсером

I never asked for this. Как понять, на что способен аугментатор текстов

Вклад авторов