Pull to refresh
12
0
Сергей Пономарёв @ServPonomarev

Пользователь

Send message

Повышаем качество классификации текстов подключив Википедию

Reading time7 min
Views1.7K
Используем большой структурированный источник мультиязычных текстов – Википедию для улучшения качества классификации текстов. Подход хорош высокой степенью автоматизма и независимостью от того, какая именно задача классификации решается. Наибольший эффект, однако, ожидается на задачах определения тематики.
Читать дальше →
Total votes 5: ↑4 and ↓1+3
Comments6

Технологический стек классификации текстов на естественных языках

Reading time15 min
Views18K
В данном посте мы рассмотрим современные подходы, применяемые для классификации текстов на естественном языке по их тематикам. Выбранные методы работы с документами определены общей сложной спецификой задачи – зашумлёнными обучающими выборками, выборками недостаточного размера или вообще отсутствующими выборками, сильным перекосом размеров классов и так далее. В общем – реальные практические задачи. Прошу под кат.
Читать дальше →
Total votes 17: ↑17 and ↓0+17
Comments22

Word2Vec: классификация текстовых документов

Reading time5 min
Views28K
Известная утилита дистрибутивной семантики Word2Vec демонстрирует удивительные результаты и стабильно обеспечивает использующих её специалистов призовыми местами на конкурсах машинной лингвистики. Преимущество утилиты, как впрочем, и её аналогов – Glove и AdaGram, состоит в дешевизне процесса обучения и подготовки обучающих текстов. Но есть и недостатки – представление слов в виде векторов хорошо работает на словах, удовлетворительно на словосочетаниях, так-себе на фразах и вообще никак – на длинных текстах.

В данной статье предлагается к обсуждению подход, позволяющий представить текст любой длины в виде вектора, позволяющий проводить с текстами операции сравнения (вычисления дистанции), сложения и вычитания.
Читать дальше →
Total votes 8: ↑5 and ↓3+2
Comments4

Любительский подход к компьютерной лингвистике

Reading time5 min
Views19K
Этим постом я хочу привлечь внимание к интересной области прикладного программирования, бурно развивающейся в последние годы — компьютерной лингвистике. А именно — системам, способным к разбору и пониманию текста на русском языке. Но основной фокус внимания я хочу сместить с академических и промышленных систем, в которые вложены десятки и тысячи человеко-часов, к описанию тех способов, какими успехов на этом поприще могут добиться любители.
Читать дальше →
Total votes 48: ↑45 and ↓3+42
Comments26

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity