Articles / Profile of ServPonomarev / Habr

Сергей Пономарёв @ServPonomarev

Пользователь

Profile Publications 5Comments 484Bookmarks 5

ServPonomarev Apr 1 2019 at 10:38

Повышаем качество классификации текстов подключив Википедию

7 min

1.7K

Machine learning*

Используем большой структурированный источник мультиязычных текстов – Википедию для улучшения качества классификации текстов. Подход хорош высокой степенью автоматизма и независимостью от того, какая именно задача классификации решается. Наибольший эффект, однако, ожидается на задачах определения тематики.

Читать дальше →

ServPonomarev Mar 23 2017 at 14:35

Технологический стек классификации текстов на естественных языках

15 min

18K

Semantics*Machine learning*

В данном посте мы рассмотрим современные подходы, применяемые для классификации текстов на естественном языке по их тематикам. Выбранные методы работы с документами определены общей сложной спецификой задачи – зашумлёнными обучающими выборками, выборками недостаточного размера или вообще отсутствующими выборками, сильным перекосом размеров классов и так далее. В общем – реальные практические задачи. Прошу под кат.

Читать дальше →

+17

ServPonomarev Feb 19 2016 at 15:20

Word2Vec: классификация текстовых документов

5 min

28K

Search engines*Semantics*Data Mining*

Известная утилита дистрибутивной семантики Word2Vec демонстрирует удивительные результаты и стабильно обеспечивает использующих её специалистов призовыми местами на конкурсах машинной лингвистики. Преимущество утилиты, как впрочем, и её аналогов – Glove и AdaGram, состоит в дешевизне процесса обучения и подготовки обучающих текстов. Но есть и недостатки – представление слов в виде векторов хорошо работает на словах, удовлетворительно на словосочетаниях, так-себе на фразах и вообще никак – на длинных текстах.

В данной статье предлагается к обсуждению подход, позволяющий представить текст любой длины в виде вектора, позволяющий проводить с текстами операции сравнения (вычисления дистанции), сложения и вычитания.

Читать дальше →

ServPonomarev Jan 29 2015 at 16:38

Word2Vec в примерах

5 min

93K

Search engines*Semantics*Data Mining*

Recovery Mode

Волею судеб в мои руки попал обученный на поисковых запросах Word2Vec. Под катом даны примеры использования с пояснениями.

Читать дальше →

+11

ServPonomarev Jul 10 2014 at 15:35

Любительский подход к компьютерной лингвистике

5 min

19K

Semantics*Programming*

Tutorial

From sandbox

Этим постом я хочу привлечь внимание к интересной области прикладного программирования, бурно развивающейся в последние годы — компьютерной лингвистике. А именно — системам, способным к разбору и пониманию текста на русском языке. Но основной фокус внимания я хочу сместить с академических и промышленных систем, в которые вложены десятки и тысячи человеко-часов, к описанию тех способов, какими успехов на этом поприще могут добиться любители.

Читать дальше →

+42