Pull to refresh

Comments 1

Понятно, что все претензии к оригиналу статьи, но всё-таки. Местами код странноват, либо комментарии к нему. Например, там где написано "Убираем все пробелы", на самом деле удаляют только повторяющиеся пробелы. Т.е. вместо нескольких пробелов делают один пробел. Ещё там оставляют только английские буквы, все остальные удаляют, ну и дальше там много где привязка к тому, что используется английский словарь. Можно было это как-то подчеркнуть где-то. Хотя лучше было бы "локализовать" код, ну да ладно, это всего лишь перевод.
В целом текст полезный, основные этапы обработки текстов представлены. Метод удаления "шаблонных фраз" интересный, ранее мне такого не встречалось. Интересно было бы посмотреть, насколько он реально полезен "в деле", как он влияет на метрики модели машинного обучения, в которую это всё потом скармливается. В принципе, похожие вопросы решает применение метода TF/IDF, и практика показывает, что для современных сложных моделе, например бустингов, TF/IDF даёт мало пользы, вот для простых моделей грамотный препроцессинг очень важен и чем его больше, тем лучше.
В общем слово "идеальный" в названии статьи, мне кажется, лишнее. Такие заявления нужно подкреплять какими-то метриками хотя бы. Сравнением нескольких пайплайнов, какие они дадут скоры, причём, для разных моделей. А тут даже на одной модели эти подготовленные данные не попробовали. :)
P.S. А, так в оригинале написано "ultimate", а не "perfect". Я бы перевёл "ultimate" как "завершённый" или, возможно, "[наиболее] полный", а не "идеальный" в данном случае. ))

Sign up to leave a comment.

Articles