Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

Razant 8 янв 2022 в 14:45

GPT для чайников: от токенизации до файнтюнинга

13 мин

147K

Семантические сети * Программирование * Машинное обучение * Natural Language Processing *

Туториал

Технотекст 2022

К моему удивлению, в открытом доступе оказалось не так уж много подробных и понятных объяснений того как работает модель GPT от OpenAI. Поэтому я решил всё взять в свои руки и написать этот туториал.

+27

Mitridat1974 2 янв 2022 в 22:51

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 2: Не тупик, но болото нюансов

13 мин

8.4K

Изучение языковNatural Language Processing *

Текст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде). Иллюстрации взяты из открытых источников - если не указано иное, из Википедии.

В предыдущей статье речь шла о том, как не имея параллельных текстов, методом структурно-логического анализа удалось дешифровать тексты Линейным письмом В бронзового века с острова Крит и материковой Греции. Косвенную помощь оказала и дешифровка надписей острова Кипр. Обе этих письменности – дальние родственницы, разделённые во времени несколькими сотнями лет – передавали тексты на греческом языке. Но Линейное письмо В было забыто вскоре после гибели дворцов микенского периода, а кипрское так и прозябало на периферии, пока не исчезло – место обоих занял со временем известный нам нынче греческий алфавит.

Однако дешифровка оказалась лишь верхушкой айсберга неразрешённых проблем. Во-первых, до сих пор непонятны догреческие надписи Крита и Кипра. Во-вторых, в Линейном В тоже не всё было просто.

+59

Mitridat1974 2 янв 2022 в 05:25

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 1: Прорыв

14 мин

13K

Изучение языковNatural Language Processing *

В этой статье будет немного про компьютерные методы, чуть побольше – про комбинаторику, но в основном – про то, что оба подхода не всесильны и у обоих есть свои ограничения.

Это хорошо видно на примере изучения древних письменностей острова Крит, из которых была дешифрована только одна – наиболее позднее Линейное письмо В (и то не до конца). Что же касается более ранних надписей, то тут есть многочисленные нюансы…

+71

Mitridat1974 31 дек 2021 в 11:10

Универсальная кириллица: возможна ли такая клавиатура?

7 мин

15K

Natural Language Processing *

Из песочницы

Текст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде)

За пару дней до Рождества на Хабре появился пост про транслитерацию польского языка кириллицей. Хотя идея на первый взгляд выглядит всего лишь как занимательное развлечение, на практике с задачами подобного рода периодически сталкиваются лингвисты. Когда лингвисту необходимо сравнить лексику родственных языков (особенно когда речь идёт о массовом сравнении в рамках корпусной лингвистики), сравниваемые языки нужно для начала «привести к общему знаменателю», то есть передать в единой графике, чаще всего латинице, чтобы облегчить сравнение. Даже с учётом неизбежных расхождений между орфографией и произношением (как в английском и французском языках) единая система письма сильно упрощает задачу сравнения. И не только сравнения, но и изучения. Скажем, если Вы начали учить язык с совершенно незнакомой системой письма (корейский, китайский, санскрит и т.п.), наверняка первые изученные Вами слова и фразы будут записаны в транслитерации латиницей (а то и кириллицей).

Ни кириллица, ни латиница не является единой унифицированной системой письма. В каждом языке, использующем кириллицу или латиницу, есть свои правила произношения того или иного знака, весьма отличные друг от друга. Но кроме того, существуют многочисленные дополнительные знаки для звуков, присутствующих в одном языке, но отсутствующих в другом. К примеру, звук «ш» существует во многих европейских языках, но создать единую букву для него в латинице так и не сподобились. Где-то обходятся сочетаниями (sh в английском и албанском, sch в немецком, ch во французском, sz в польском, sc в итальянском, sj в шведском, si или se – в ирландском), где-то под этот звук «переопределили» базовые буквы латиницы (x в португальском, старая знакомая s – в венгерском), где-то изобрели новые буквы путём добавления надстрочных или подстрочных значков к старым (š в чешском, словацком и балтийских, ş в турецком, ș в румынском – приглядевшись под микроскопом, увидите, что знак немного отличается от турецкого; и даже в искусственном языке эсперанто придумали свой знак ŝ). Некоторым языкам повезло – в них этого звука вообще нет, как не было его в латыни (отчего, собственно, и возникли эти проблемы с изобретением дополнительного символа).

+19

29 декабря 2021

Лёгкий способ написать статью на Хабр, или Привет от SmartSpeech

Привет! Меня зовут Филипенко Владимир и я не писал эту статью. Я её надиктовал. Поправок в этом тексте потребовали только термины, с которыми SmartSpeech ожидаемо не знаком. В остальном оставляю всё как есть.

В материале мы познакомимся с передовым сервисом синтеза и распознавания речи SmartSpeech от Сбера, обсудим его внутренности и разберемся, как этот сервис может облегчить и даже украсить жизнь рядового хабраавтора.

Поехали!

+20

Digital_Design 24 дек 2021 в 10:26

Автоматическая генерация протоколов совещаний

10 мин

20K

Блог компании Digital DesignNatural Language Processing * Искусственный интеллектМашинное обучение *

Привет! Меня зовут Максим Бондарев, я работаю младшим разработчиком в компании Digital Design и заканчиваю обучение на математико-механическом факультете СПбГУ. В рамках своей исследовательской работы я занимался решением задачи по автоматической генерации протоколов совещаний в составе команды научной лаборатории (aka Конструкторское Бюро) под руководством Максима Панькова. Что из этого получилось, и над чем еще предстоит поработать, расскажу в этой статье.

4p4 23 дек 2021 в 22:00

Цемна стронэ Моцы

8 мин

20K

JavaScript * Научно-популярноеЛайфхаки для гиковИзучение языковNatural Language Processing *

Початково рыцер Еди, под вплывем Дартха Сидиоуса прешедл на цемна стронэ Моцы и прыял тытул „Дартх Вадер”.

Вы поняли что-то из предыдущего предложения? Это польский язык. Это не перевод, не какой-то интернет-сленг, это польский язык как он есть, просто записаный кириллицей. Вчера, я случайно оказался на польском сайте, там всё было написано по-польски, ничего не понятно, и мне вдруг стало любопытно, что если конвертировать польский текст в кириллицу, смогу ли я, внезапно, понимать его? Ну хоть на сколько-то понимать. Готового такого конвертера я нигде не нашел, ни на гитхабе ни в переводчиках типа Гугла. Пришлось написать самому.

+102

150

moshemm 23 дек 2021 в 09:46

Как мы проводим соревнования по NLP в рамках Dialogue Evaluation

13 мин

1.8K

Блог компании Content AIМашинное обучение * Искусственный интеллектNatural Language Processing *

Близится Новый год, а это значит, что работа над конференцией по компьютерной лингвистике, NLP и интеллектуальным технологиям «Диалог» уже в разгаре. О том, что это такое и почему ABBYY его основной организатор, можно прочитать тут.

Одно из важнейших событий для NLP-комьюнити в рамках «Диалога» — проведение shared tasks на Dialogue Evaluation (DE), или «соревнований», посвященных разным практическим задачам из области NLP для русского языка. И это уже тринадцатый сезон DE! Совсем скоро мы объявим задания для участников следующего года.

Мы стараемся регулярно писать про итоги DE, но еще никогда не рассказывали о том, как все устроено изнутри: кто придумывает задания, как готовятся «соревнования», кто и как их проводит, сколько нужно времени, чтобы подготовить одно соревнование (спойлер: это дело не быстрое), и многое-многое другое. Обо всем об этом и многом другом расскажем в нашем новом посте. Добро пожаловать под кат!

Takagi 21 дек 2021 в 07:31

Секреты генерирующего реферирования текстов

11 мин

15K

Natural Language Processing * Python * Искусственный интеллектМашинное обучение * Программирование *

Эта статья посвящена основным современным моделям для генерирующего реферирования и генерации текста в целом: BertSumAbs, GPT, BART, T5 и PEGASUS, и их использованию для русского языка.

В отличие от извлекающих моделей, которые рассмотрены в предыдущих двух статьях, эти модели создают новые тексты, а не только выделяют предложения из оригинального документа. Из-за этого они могут нетривиально изменять исходный текст: удалять слова или заменять их на синонимы, сливать и упрощать предложения, а значит делать ровно то, что делают люди при составлении рефератов.

Ещё десять лет назад методы из этой категории казались фантастикой. Развитие систем нейросетевого машинного перевода сделало генерирующее автоматическое реферирование намного более лёгкой задачей.

Серьёзные методы оценки качества реферирования будут в следующих частях цикла. Сейчас же для наглядности мы испытаем алгоритмы на одной конкретной новости про секвенирование РНК клеток коры головного мозга. Это свежая новость, то есть модели заведомо не могли её видеть. К тому же она довольно сложная: 5.7 баллов по шкале N+1.

Кстати говоря, заголовок к этой статье написан одной из описываемых моделей.

Читать дальше →

+15

honyaki 17 дек 2021 в 18:14

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

7 мин

4.3K

Блог компании SkillfactoryNatural Language Processing * Машинное обучение * Big Data * SQL *

Перевод

Статья написана по мотивам работы "Forecasting SQL Query Cost at Twitter", 2021 («Прогнозирование стоимости SQL-запросов в Twitter»), представленной на IX Международной конференции IEEE по облачной инженерии (IC2E). Подробностями делимся, пока у нас начинается курс по Machine Learning и Deep Learning.

konodyuk 17 дек 2021 в 07:00

Управляем генерацией ruGPT-3: библиотека ruPrompts

7 мин

14K

Блог компании SberDevicesNatural Language Processing * Искусственный интеллектМашинное обучение * Python *

Наше семейство моделей ruGPT-3 уже нашло множество применений у сообщества: кто-то генерирует гороскопы, кто-то — факты о лягушках, статьи нейроуголовного кодекса, нейроновости и прочее. Модели накопили в себе массу знаний о нашем мире и способны подстроиться практически под любую задачу. Тем не менее, в данный момент подобная подгонка (fine-tuning) часто требует значительных вычислительных затрат, что не всегда позволяет использовать достаточно большие модели. В этом посте мы предлагаем сообществу новый инструмент для того, чтобы дообучать ruGPT-3 под свои нужды и делиться своими результатами с другими.

+22

Takagi 16 дек 2021 в 13:58

Извлекающие методы автоматического реферирования

5 мин

6.5K

Natural Language Processing * Искусственный интеллектМашинное обучение *

И снова всем привет!

На этот раз рассмотрим извлекающие методы, которым нужны эталонные рефераты для обучения. При этом эти методы всё ещё могут лишь выбирать предложения из оригинального текста. К методам этой группы и относятся описываемые ниже SummaRuNNer и BertSumExt.

Статьи цикла:
1) Постановка задачи автоматического реферирования и методы без учителя
2) Извлекающие методы автоматического реферирования ⬅️
3) Секреты генерирующего реферирования текстов

Читать дальше →

Kasynya 16 дек 2021 в 08:30

Итоги хакатона по реабилитации пациентов с помощью ИИ

4 мин

1.3K

Блог компании НаносемантикаNatural Language Processing * Искусственный интеллектХакатоныПрограммирование *

Всем привет!

ФГАУ «Ресурсный центр универсального дизайна и реабилитационных технологий» и наша компания «Наносемантика» 7–9 декабря 2021 провели всероссийский хакатон по разработке решений с использованием искусственного интеллекта в сфере медицины. За три дня участники разработали программы-тренажёры для пациентов с нарушениями речи. За подробностями – добро пожаловать под кат.

Takagi 14 дек 2021 в 14:32

Постановка задачи автоматического реферирования и методы без учителя

8 мин

11K

Natural Language Processing * Искусственный интеллектМашинное обучение *

Всем привет!

Для написания кандидатской диссертации я недавно составил обзор различных методов автоматического реферирования, суммаризации. Обзор получился субъективно хорошим, поэтому я публикую его и здесь. Он очень объёмный, и я разбил его на несколько частей, которые и буду постепенно выкладывать. По мере публикации ниже будут появляться ссылки на остальные части цикла.

Статьи цикла:
1) Постановка задачи автоматического реферирования и методы без учителя ⬅️
2) Извлекающие методы автоматического реферирования
3) Секреты генерирующего реферирования текстов

Это первая статья цикла, посвящённая самой задаче и методам без учителя, которым не нужен эталонный корпус рефератов: методу Луна, TextRank, LexRank, LSA и MMR.

Читать дальше →

+11

evrrn 9 дек 2021 в 17:06

Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах

5 мин

8.6K

Машинное обучение * Python * Natural Language Processing * Big Data *

После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.

В целом, архитектура и датасеты остались прежними. Что изменилось:

обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча

Читать дальше →

+20

Metod12 7 дек 2021 в 13:03

Реверс-инжиниринг английской грамматики: математика? Равномерно темперированный строй?

6 мин

Natural Language Processing * Изучение языковРеверс-инжиниринг * Учебный процесс в ITСемантические сети *

В процессе создания курса английской грамматики для “продвинутых” уровней я не могла избавиться от смутного ощущения, что английская видовременная система (то, что в обиходе называют английскими “временами”) базируется на несложной математике.

О том, что меня заставило прийти к этому выводу, затем комбинаторика, механика, математика и немного про музыку.

Я рассматриваю английскую видовременную систему как систему, состоящую из четырёх подъязыков в составе одного.

На когнитивном уровне английский язык распознаёт четыре аспекта (грани, феномена) реальности. Для описания каждого аспекта реальности выделен свой подъязык:

Simple (S),

Progressive (P),

Perfect Simple (PS), и

Perfect Progressive (PP).

Каждый подъязык является полноценным и описывает определённый аспект с помощью базовой формулы:

S = to X

P = to be X_ing

PS = to have X_ed / Х₃

PP = to have been X_ing ,

где X X_ing X_ed Х₃ - известные формы английских глаголов.

На 4 базовые формулы “накручиваются” маркеры настоящего, прошедшего и будущего времени, образуя тем самым полный грамматический набор из 12 видовременных форм.

Каждая из формул несёт в себе определенную смысловую информацию, которая сохраняется неизменной независимо от лексики. По несложному формальному рассчёту смысловая нагрузка на грамматическую формулу может достигать 60% от общего смысла фразы.

Эту информацию, заключённую в грамматической формуле помимо слов, я назвала “метасмысл”. Четыре выделенных мною метасмысла:

-5

161

data_reporting 4 дек 2021 в 16:15

Как мы учили машину распознавать посты противников вакцинации

9 мин

8.2K

Natural Language Processing * Искусственный интеллектМашинное обучение * Социальные сети

Из песочницы

В Тинькофф—журнале вышла статья «Что и зачем пишут в интернете противники вакцинации», в которой мы рассказали о результатах исследования почти трёх миллионов постов и комментариев из ВКонтакте на тему вакцинации. Самая сложная часть работы — определить, как авторы сообщений относятся к прививкам. В этой статье мы хотим рассказать о том, как мы это делали.

MaoDarin 2 дек 2021 в 16:57

Пишем чат-бот на Python + PostgreSQL и Telegram

8 мин

78K

Natural Language Processing * Машинное обучение * Data Mining * PostgreSQL * Python *

Из песочницы

Пошаговое руководство написания чат-бота на языке Python.

Установим Python и библиотеки на Debian, подключим PostgreSQL, получим вопросы и ответы, подключим морфологию и нормализуем слова, запустим чат-бота в Telegram.

Голая практика и полный листинг с комментариями.

Смотрим далее

stanislav_as 1 дек 2021 в 11:08

Хакатон по медицинскому ИИ 2021

3 мин

2.4K

Блог компании НаносемантикаПрограммирование * ХакатоныИскусственный интеллектNatural Language Processing *

Всем привет! ФГАУ «Ресурсный центр универсального дизайна и реабилитационных технологий» и компания «Наносемантика» приглашают всех желающих 7-9 декабря 2021 года принять участие во всероссийском хакатоне по медицинскому искусственному интеллекту, который мы помогаем организовать.

Разработчики смогут посоревноваться в разработке технологически полезного решения – тренажёра для пациентов с дизартрией – и получить ценные призы.

Под катом – задача, правила, ссылка на регистрацию и расписание хакатона.

SergeyBPshenichnikov 29 ноя 2021 в 18:09

Конкордантность смысла

16 мин

2.9K

Поисковые технологии * Семантические сети * Алгоритмы * Natural Language Processing *

В [1, 2, 3] тексты (знаковые последовательности с повторами) с помощью матричных единиц, как образов слов, превращались (координатизировались) в алгебраические системы. Координатизация — необходимое условие алгебраизации любой предметной области...

1 2 ...

41 42

44 45 ...

58 59

Natural Language Processing *

GPT для чайников: от токенизации до файнтюнинга

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 2: Не тупик, но болото нюансов

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 1: Прорыв

Универсальная кириллица: возможна ли такая клавиатура?

Лёгкий способ написать статью на Хабр, или Привет от SmartSpeech

Автоматическая генерация протоколов совещаний

Цемна стронэ Моцы

Как мы проводим соревнования по NLP в рамках Dialogue Evaluation

Секреты генерирующего реферирования текстов

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

Управляем генерацией ruGPT-3: библиотека ruPrompts

Извлекающие методы автоматического реферирования

Итоги хакатона по реабилитации пациентов с помощью ИИ

Ближайшие события

Постановка задачи автоматического реферирования и методы без учителя

Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах

Реверс-инжиниринг английской грамматики: математика? Равномерно темперированный строй?

Как мы учили машину распознавать посты противников вакцинации

Пишем чат-бот на Python + PostgreSQL и Telegram

Хакатон по медицинскому ИИ 2021

Конкордантность смысла

Вклад авторов