Comments / Profile of elingur / Habr

User

DeepMind утверждает, что ее языковая модель на 280 млрд параметров превосходит аналоги в 25 раз крупнее

elingur Dec 13 2021 at 06:46

Да-да, переводчику следовало бы ознакомится с терминологией в предметной области :) Речь идет, конечно, о трансформерах .

Look

Извлекаем суть новости. Опыт Яндекса

elingur Nov 3 2021 at 06:54

Фильтруем в кластерах предложения с местоимениями,

А почему бы не прикрутить анафору. На таких объемах тормозить не должно, а выглядеть будет куда читабельнее.

Look

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

elingur Oct 7 2021 at 10:43

Может я что-тоупустил, но из статьи не понятно, какой алгоритм и архитектуру построения модели вы используете. Что значит бертоподобная? Почему, скажем, не elmo или gpt-подобная?

Look

Нейрозапятые, или как мы оставили своих редакторов без работы (ну почти)

elingur Jun 23 2021 at 07:15

Мне кажется, в данной задаче разумнее использовать генеративные модели (типа GPT), т.е. не классифицировать, как я понял, каждый токен на «с запятой» или «без запятой» (у вас же нет токена "," в словаре), а предсказывать на основе генерации последующего токена.

Look

Суммаризация текста: подходы, алгоритмы, рекомендации и перспективы

elingur Aug 12 2020 at 07:53

Модель присваивает каждому слову случайные вектора и далее на каждом шаге обучения, «изучая контекст», корректирует их значения.

Это жутко медленно. Можно использовать быстрый вариант: разбить w2v на классы (параметр при обучении), каждому слову присвоить класс (число — int), тогда пространство признаков сильно сокращается и сравнение (даже по косинусу) происходит быстро. А если разбивать на классы не встроенным в w2v алгоритмом (k-means), а написать свой, то можно получить пересекающиеся классы, что уже интереснее, и, ес-но, точнее работает.

Но помимо этого есть методы суммаризации, основанные на эмотивных характеристиках текста, что особенно важно в соц. медиа (да и в СМИ неплохо работает). Учитывается сила сентимента, агрессивность и пр. Получаются неплохие результаты.

А вот с бредогенераторами текста (даже на трансформерах) пока ничего толкового не видел…

Look

Трансформеры как графовые нейронные сети

elingur Mar 13 2020 at 13:40

Не очень понятно, зачем городить такой огород, если с лингвистическими задачами типа PoS-tagging, NER и пр. прекрасно справляются обычные графовые алгоритмы типа CRF?

Look

Как Яндекс научил искусственный интеллект находить ошибки в новостях

elingur Dec 24 2019 at 09:38

Спасибо за интересный материал. Скажите, а моделью с трансформера не планируете поделиться с обществом?

Look

Профессиональный лексический анализ на регулярных выражениях

elingur Aug 8 2019 at 10:23

дело в том, что регекспы охватывают большой диапазон вариантов, из которых для решения задачи, как правило, нужна лишь небольшая и конкретная часть. Поэтому самописные решения на низкоуровневых языках под конкретную задачу (например, токанизацию) работают на один-два порядков быстрее, чем регекспы.

Look

Профессиональный лексический анализ на регулярных выражениях

elingur Aug 8 2019 at 06:41

я бы добавил сюда (и даже поставил на первое место) очень низкую скорость работы регекспов, — их разумно использовать только на этапе исследования, а в «боевом» коде регулярки лучше избегать.

Look

Финтех-дайджест: блокчейн-смартфон от HTC, определение платежеспособности по марке телефона и регулирование ICO в России

elingur May 18 2018 at 06:12

Вот-вот. Это как посчитать: если в штатах у каждого второго iPhone, то и статистика будет «работать» на них просто потому что их больше.

Look

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

elingur Apr 5 2018 at 17:31

объясняем ее предсказания

— а не могли бы поподробнее, какие предсказания на дискриминационных моделях можно делать?

Look

Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Знаки

elingur Apr 2 2018 at 17:51

под анализом текста понимается главным образом две совершенно практические задачи, связанные либо с извлечением какого-либо контекста, либо перевод текста с одного языка на другой.

Еще есть отдельная задача генерации текста, которая включает в себя анализ — всякие там боты и пр.

Является ли эмоция самостоятельным сигналом?

Я бы сказал больше: эмоции — это то, что служит основой для знаков. Или способствуют порождению знаков.
Вообще эмоциям уделяется неоправданно мало внимания. То что вы тут приводите — классическое семиотическое описание коммуникации. Теория, ес-но, не нова. Но, к сожалению, до сих пор полезна разве что для умозрительных построений, практически мало осуществимых. Поэтому, как мне кажется, нужна какая-то другая идея. Конечно, можно работать в рамках динамически меняющегося во времени денотата. То есть можно, скажем, построить Марковскую сеть всех знаков (связанный сложный граф) и для каких-то случаев это хорошо заработает. Но связи в языке не статичны, а находятся в постоянной конкуренции друг с другом. И эту динамику как раз и задают эмоции. Как это смоделировать в ИИ — пока не знаю. Да, и понятно, что это в равной степени касается как генерации, так и анализа текста.

Look

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

elingur Mar 15 2018 at 09:38

Если у вас приоритет в скорости обработки, то нет смысла использовать нормализацию (даже больше: морфологию). Т.е. работать с плоским текстом. Нормализация почти не дает выигрыша. Ну а если качество — то да, лучше использовать. Иначе согласование и агрегацию одинаковых сущностей будет сделать сложно.

Look

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

elingur Mar 15 2018 at 09:35

Тогда вам есть куда расти. Нужно снимать частиречную омонимию (система должна понимать, что «маша» это noun, а не verb) и проверять по словарю имен собственных для работы с регистром (потому, как, например, «Путина» в начале предложения может быть и имя (в род. или вин. падеже) и слово нарицательное (в именительном)) — и таких примеров много. Хорошо бы еще снимать омонимию по морфо признакам. Но это уже чуть сложнее.

Look

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

elingur Mar 15 2018 at 07:54

Зачем «людей с трехбуквенными именами»? Это легко лечится правилами на пост обработке.

Look

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

elingur Mar 15 2018 at 07:52

Хорошая работа. Правда, на счет

Для текстов с русскими именами качество получается ~0.95

— сомневаюсь. Скажем, «Маша мыла Раму» — ничего не находит. Пока есть проблемы со именами собственными, совпадающие с нарицательными.
А зачем вам нормализация? Она повышает точность не более чем на 1%, а скорость съедает довольно существенно. Нормализация нужна на пост обработке: при согласовании, агрегации, кореференци.

Look

Предвыборная гонка глазами поисковых роботов

elingur Mar 14 2018 at 10:46

Поток — это все, что генериться, например, за сутки: вся текстовая информация в интернете. Не важно это паблишеры или юзеры. Тем более, что в современных реалиях они не различимы: у юзера может быть многотысячная аудитория. Разница только в том, что одни открыты, а другие закрыты для скачивания без регистрации.

Look

Предвыборная гонка глазами поисковых роботов

elingur Mar 14 2018 at 10:10

Вы спрашивали о словах: ~100,000,000 в срезе.

— примерно такой ежедневный поток (в словах) генерируемых только в русскоязычном секторе. В англоговорящем — на несколько порядков выше. У вас нет распознавания языка: putin практически во всех индо-европейских языках пишется одинаково. Поэтому ваша статистика только с официальных открытых сайтов, типа СМИ — средств массовой информации, причем разделенная не по языку, а только по алфавиту. Вы же не майните твитер, фейсбук, вконтакте и пр. — а соц.сети это до 95% новой информации. Я про это говорил.

Look

Предвыборная гонка глазами поисковых роботов

elingur Mar 14 2018 at 08:58

М — это миллион, миллиард или мегабайт? У вас исследование на русском языке (или нет? вы не указали, какие языки используете). Нет ни слова ни об объеме, ни о презентабельности выборки. Что вы собираете: только СМИ или только соц.медиа. Учитывая, что сбор соц. медиа — задача не из тривиальных, то выборка по русскоязычным СМИ — это не более 5% от общего потока русскоязычных сообщений. Поэтому это либо плохо написанная статья, либо дешевый пиар под выборы.

Look

Предвыборная гонка глазами поисковых роботов

elingur Mar 14 2018 at 07:43

А каков у вас объем выборки (в словах или байтах) и кол-во источников (скажем, за сутки)?

Look

2 3 ...

8 9

Information

Specialization