Comments 7
Спасибо, пригодится. Еще по стоп-словам неплохо определяется, но стоп-листы приходится собирать по библиотекам
Вот вы метод н-грамм охаяли, а он, между прочим, дает очень даже неплохую точность (ЕМНИП, до 98% на текстах длиной около 1000 символов). Он не учитывает контекст? Это да, согласен. Но в ваших тестах двух библиотек я как-то тоже не наблюдаю указания контекста.
В общем, было бы неплохо для сравнения привести и результаты работы классификатора по н-граммам. Благо в нем кода — раз-два и обчелся.
В общем, было бы неплохо для сравнения привести и результаты работы классификатора по н-граммам. Благо в нем кода — раз-два и обчелся.
Ну так cld2 и есть метод на н-граммах и точность вы сами можете увидеть в таблице, что они близки к вашим 98%, тем более что тексты достаточно короткие в датасете.
В принципе, fasttext тоже на н-граммах, но там сложнее модель внутри.
Насколько мне известно, у гугла модель полностью на нейронных сетях.
В принципе, fasttext тоже на н-граммах, но там сложнее модель внутри.
Насколько мне известно, у гугла модель полностью на нейронных сетях.
Ну так cld2 и есть метод на н-граммах
Мне кажется, наивный байесовский классификатор — это сильно шире, чем н-граммы. По крайней мере, разбиение текста на токены у Байеса идет обычно по словам, а не на группы символов заданной длины.
Classification & Scoring. CLD2 is a Naïve Bayesian classifier, using one of three different token algorithms. For Unicode scripts such as Greek and Thai that map one-to-one to detected languages, the script defines the result. For the 80,000+ character Han script and its CJK combination with Hiragana, Katakana, and Hangul scripts, single letters (unigrams) are scored. For all other scripts, sequences of four letters (quadgrams) are scored.
Вот такое они пишут у себя на гитхабе. Тем более nb достаточно простой алгоритм, поэтому можно cld2 отнести к «олдскульным» подходам, по моему мнению.
А глазами ошибки-противоречия между разными подходами не смотрели? Просто cld2 — библиотека от гугла, и размеченные данные — автоматическая разметка от гугла. Даже если там подходы разные, тренировочные данные могут быть похожие, какие-то решения могут быть похожие и т.д., короче, смещение можно словить, одинаковые ошибки.
Sign up to leave a comment.
Просто и качественно определяем язык сообщений