Pull to refresh
12
0
Send message

Да-да, переводчику следовало бы ознакомится с терминологией в предметной области :) Речь идет, конечно, о трансформерах .

Фильтруем в кластерах предложения с местоимениями,

А почему бы не прикрутить анафору. На таких объемах тормозить не должно, а выглядеть будет куда читабельнее.

Может я что-тоупустил, но из статьи не понятно, какой алгоритм и архитектуру построения модели вы используете. Что значит бертоподобная? Почему, скажем, не elmo или gpt-подобная?

Мне кажется, в данной задаче разумнее использовать генеративные модели (типа GPT), т.е. не классифицировать, как я понял, каждый токен на «с запятой» или «без запятой» (у вас же нет токена "," в словаре), а предсказывать на основе генерации последующего токена.
Модель присваивает каждому слову случайные вектора и далее на каждом шаге обучения, «изучая контекст», корректирует их значения.

Это жутко медленно. Можно использовать быстрый вариант: разбить w2v на классы (параметр при обучении), каждому слову присвоить класс (число — int), тогда пространство признаков сильно сокращается и сравнение (даже по косинусу) происходит быстро. А если разбивать на классы не встроенным в w2v алгоритмом (k-means), а написать свой, то можно получить пересекающиеся классы, что уже интереснее, и, ес-но, точнее работает.

Но помимо этого есть методы суммаризации, основанные на эмотивных характеристиках текста, что особенно важно в соц. медиа (да и в СМИ неплохо работает). Учитывается сила сентимента, агрессивность и пр. Получаются неплохие результаты.

А вот с бредогенераторами текста (даже на трансформерах) пока ничего толкового не видел…
Не очень понятно, зачем городить такой огород, если с лингвистическими задачами типа PoS-tagging, NER и пр. прекрасно справляются обычные графовые алгоритмы типа CRF?
Спасибо за интересный материал. Скажите, а моделью с трансформера не планируете поделиться с обществом?
дело в том, что регекспы охватывают большой диапазон вариантов, из которых для решения задачи, как правило, нужна лишь небольшая и конкретная часть. Поэтому самописные решения на низкоуровневых языках под конкретную задачу (например, токанизацию) работают на один-два порядков быстрее, чем регекспы.
я бы добавил сюда (и даже поставил на первое место) очень низкую скорость работы регекспов, — их разумно использовать только на этапе исследования, а в «боевом» коде регулярки лучше избегать.

Давайте так: варенье отдельно, мухи отдельно. Вы определите, что такое мышление, и что такое с смысл. И рамках этих определений будете утверждать: это возможно, а это нет. Если говорить о мышлении, как о корковых процессах, то рано или поздно их удастся симулировать. Если говорить о смысле, как о нечеткой категоризации, то это уже реализовано. А вот если мы подключаем эмоции — это уже другой разговор. Эмоции это основа смыслообразования, движок мышления. И чтобы их повторить, нужно что-то типа биоробота, а это уже совсем другая песня. Знаки- это вторичная система, и описывать ими первичную (я про эмоции) нелогично.

Вот-вот. Это как посчитать: если в штатах у каждого второго iPhone, то и статистика будет «работать» на них просто потому что их больше.
объясняем ее предсказания

— а не могли бы поподробнее, какие предсказания на дискриминационных моделях можно делать?
под анализом текста понимается главным образом две совершенно практические задачи, связанные либо с извлечением какого-либо контекста, либо перевод текста с одного языка на другой.

Еще есть отдельная задача генерации текста, которая включает в себя анализ — всякие там боты и пр.
Является ли эмоция самостоятельным сигналом?

Я бы сказал больше: эмоции — это то, что служит основой для знаков. Или способствуют порождению знаков.
Вообще эмоциям уделяется неоправданно мало внимания. То что вы тут приводите — классическое семиотическое описание коммуникации. Теория, ес-но, не нова. Но, к сожалению, до сих пор полезна разве что для умозрительных построений, практически мало осуществимых. Поэтому, как мне кажется, нужна какая-то другая идея. Конечно, можно работать в рамках динамически меняющегося во времени денотата. То есть можно, скажем, построить Марковскую сеть всех знаков (связанный сложный граф) и для каких-то случаев это хорошо заработает. Но связи в языке не статичны, а находятся в постоянной конкуренции друг с другом. И эту динамику как раз и задают эмоции. Как это смоделировать в ИИ — пока не знаю. Да, и понятно, что это в равной степени касается как генерации, так и анализа текста.
Если у вас приоритет в скорости обработки, то нет смысла использовать нормализацию (даже больше: морфологию). Т.е. работать с плоским текстом. Нормализация почти не дает выигрыша. Ну а если качество — то да, лучше использовать. Иначе согласование и агрегацию одинаковых сущностей будет сделать сложно.
Тогда вам есть куда расти. Нужно снимать частиречную омонимию (система должна понимать, что «маша» это noun, а не verb) и проверять по словарю имен собственных для работы с регистром (потому, как, например, «Путина» в начале предложения может быть и имя (в род. или вин. падеже) и слово нарицательное (в именительном)) — и таких примеров много. Хорошо бы еще снимать омонимию по морфо признакам. Но это уже чуть сложнее.
Зачем «людей с трехбуквенными именами»? Это легко лечится правилами на пост обработке.
Хорошая работа. Правда, на счет
Для текстов с русскими именами качество получается ~0.95
— сомневаюсь. Скажем, «Маша мыла Раму» — ничего не находит. Пока есть проблемы со именами собственными, совпадающие с нарицательными.
А зачем вам нормализация? Она повышает точность не более чем на 1%, а скорость съедает довольно существенно. Нормализация нужна на пост обработке: при согласовании, агрегации, кореференци.
Поток — это все, что генериться, например, за сутки: вся текстовая информация в интернете. Не важно это паблишеры или юзеры. Тем более, что в современных реалиях они не различимы: у юзера может быть многотысячная аудитория. Разница только в том, что одни открыты, а другие закрыты для скачивания без регистрации.
Вы спрашивали о словах: ~100,000,000 в срезе.

— примерно такой ежедневный поток (в словах) генерируемых только в русскоязычном секторе. В англоговорящем — на несколько порядков выше. У вас нет распознавания языка: putin практически во всех индо-европейских языках пишется одинаково. Поэтому ваша статистика только с официальных открытых сайтов, типа СМИ — средств массовой информации, причем разделенная не по языку, а только по алфавиту. Вы же не майните твитер, фейсбук, вконтакте и пр. — а соц.сети это до 95% новой информации. Я про это говорил.
М — это миллион, миллиард или мегабайт? У вас исследование на русском языке (или нет? вы не указали, какие языки используете). Нет ни слова ни об объеме, ни о презентабельности выборки. Что вы собираете: только СМИ или только соц.медиа. Учитывая, что сбор соц. медиа — задача не из тривиальных, то выборка по русскоязычным СМИ — это не более 5% от общего потока русскоязычных сообщений. Поэтому это либо плохо написанная статья, либо дешевый пиар под выборы.
1
23 ...

Information

Rating
Does not participate
Registered
Activity