Comments / Profile of vradchenko / Habr

Виталий Радченко@vradchenko

Пользователь

Subscribers

Просто и качественно определяем язык сообщений

vradchenko Sep 24 2018 at 15:45

Classification & Scoring. CLD2 is a Naïve Bayesian classifier, using one of three different token algorithms. For Unicode scripts such as Greek and Thai that map one-to-one to detected languages, the script defines the result. For the 80,000+ character Han script and its CJK combination with Hiragana, Katakana, and Hangul scripts, single letters (unigrams) are scored. For all other scripts, sequences of four letters (quadgrams) are scored.

Вот такое они пишут у себя на гитхабе. Тем более nb достаточно простой алгоритм, поэтому можно cld2 отнести к «олдскульным» подходам, по моему мнению.

Просто и качественно определяем язык сообщений

vradchenko Sep 24 2018 at 14:44

Ну так cld2 и есть метод на н-граммах и точность вы сами можете увидеть в таблице, что они близки к вашим 98%, тем более что тексты достаточно короткие в датасете.
В принципе, fasttext тоже на н-граммах, но там сложнее модель внутри.
Насколько мне известно, у гугла модель полностью на нейронных сетях.

Просто и качественно определяем язык сообщений

vradchenko Sep 24 2018 at 10:14

Да, это уже зависит от вашей доменной области. Мы тоже не используем в чистом виде, потому что данные соц. сетей очень специфические, а эти решения была натренированы на почти идеальных данных википедии и почищенных данных Tatoeba/SETimes.

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

vradchenko Apr 1 2017 at 14:36

После дедлайна мы добавили бы пояснение. Это должно было простимулировать людей на «подумать», либо на «погуглить». Эти действия стимулируют к лучшему пониманию метода, а не простой подстановки чисел в формулу.

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

vradchenko Mar 30 2017 at 21:32

Это во всех статьях на хабре сейчас такое, какой-то внутренний глюк сайта. Вы можете посмотреть данную статью со всеми формулами в jupyter notebooks в нашем репозитории https://github.com/Yorko/mlcourse_open/tree/master/jupyter_notebooks

Предсказываем будущее с помощью библиотеки Facebook Prophet

vradchenko Mar 23 2017 at 21:53

Тут наверное имелось ввиду коммулятивные затраты: написание кода, подумать, трансформации, подбор параметров, построение графиков. А в Профете всего лишь 10 строк и задача по сути решена :)

Предсказываем будущее с помощью библиотеки Facebook Prophet

vradchenko Mar 23 2017 at 21:27

В Eviews не так просто загрузить данные и сделать что-то гибкое и кастомное))
И суть статьи наверное в том, что бы быстро получить результат при минимальных усилиях. Для Аримы все-таки нужно немного подумать, придумать интерпретацию и зафитить параметры. Prophet еще можно использовать как бейслайн.
Например, приходишь к начальнику и говоришь: «Я делаю лучше прогноз, чем библиотека от самого фейсбука! » И сразу поднимаешься в глазах руководства :)

Предсказываем будущее с помощью библиотеки Facebook Prophet

vradchenko Mar 23 2017 at 11:12

А в Prophet есть возможность включать дополнительные признаки?