vradchenko Sep 24 2018 at 09:54

Просто и качественно определяем язык сообщений

6 min

8.5K

Self Promo

Tutorial

+14

Comments 7

DmitryKogan Sep 24 2018 at 10:11

Спасибо, пригодится. Еще по стоп-словам неплохо определяется, но стоп-листы приходится собирать по библиотекам

vradchenko Sep 24 2018 at 10:14

Да, это уже зависит от вашей доменной области. Мы тоже не используем в чистом виде, потому что данные соц. сетей очень специфические, а эти решения была натренированы на почти идеальных данных википедии и почищенных данных Tatoeba/SETimes.

berez Sep 24 2018 at 14:32

Вот вы метод н-грамм охаяли, а он, между прочим, дает очень даже неплохую точность (ЕМНИП, до 98% на текстах длиной около 1000 символов). Он не учитывает контекст? Это да, согласен. Но в ваших тестах двух библиотек я как-то тоже не наблюдаю указания контекста.

В общем, было бы неплохо для сравнения привести и результаты работы классификатора по н-граммам. Благо в нем кода — раз-два и обчелся.

vradchenko Sep 24 2018 at 14:44

Ну так cld2 и есть метод на н-граммах и точность вы сами можете увидеть в таблице, что они близки к вашим 98%, тем более что тексты достаточно короткие в датасете.
В принципе, fasttext тоже на н-граммах, но там сложнее модель внутри.
Насколько мне известно, у гугла модель полностью на нейронных сетях.

berez Sep 24 2018 at 15:37

Ну так cld2 и есть метод на н-граммах

Мне кажется, наивный байесовский классификатор — это сильно шире, чем н-граммы. По крайней мере, разбиение текста на токены у Байеса идет обычно по словам, а не на группы символов заданной длины.

vradchenko Sep 24 2018 at 15:45

Classification & Scoring. CLD2 is a Naïve Bayesian classifier, using one of three different token algorithms. For Unicode scripts such as Greek and Thai that map one-to-one to detected languages, the script defines the result. For the 80,000+ character Han script and its CJK combination with Hiragana, Katakana, and Hangul scripts, single letters (unigrams) are scored. For all other scripts, sequences of four letters (quadgrams) are scored.

Вот такое они пишут у себя на гитхабе. Тем более nb достаточно простой алгоритм, поэтому можно cld2 отнести к «олдскульным» подходам, по моему мнению.

kmike Sep 25 2018 at 10:36

А глазами ошибки-противоречия между разными подходами не смотрели? Просто cld2 — библиотека от гугла, и размеченные данные — автоматическая разметка от гугла. Даже если там подходы разные, тренировочные данные могут быть похожие, какие-то решения могут быть похожие и т.д., короче, смещение можно словить, одинаковые ошибки.