Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
In addition, the Devanagari script is used
to write the following languages: Awadhi, Bagheli, Bhatneri, Bhili, Bihari, Braj Bhasha,
Chhattisgarhi, Garhwali, Gondi (Betul, Chhindwara, and Mandla dialects), Harauti, Ho,
Jaipuri, Kachchhi, Kanauji, Konkani, Kului, Kumaoni, Kurku, Kurukh, Marwari, Mundari,
Newari, Palpa, and Santali.
Живой пример, который сказал, что эта статья написана на турецком.
В полиграммной модели со степенью n и основанием M текст представляется вектором {fi}, i = 1..Mn, где fi – частота встречаемости i-ой n-граммы в тексте.n-грамма является последовательностью подряд идущих n – символов вида a1…an-1an…Ну и процентное соотношение посчитать.
Чтобы сработали статистические методы, нужно много данных.Абсолютно верно, но кто вам сказал, что нужно много входных данных? Можно либо построить маленькую табличку, которая будет уверенно определять язык статей в сотни килобайт, либо табличку с сотнями миллионов чисел, которая работает на фразах буквально в 2-3 слова. Я думаю у Гугла просто второй вариант — вот и всё.
В каждом языке есть свои падежи и характерные им окончания.
Как определить язык текста?