Как стать автором
Обновить

Комментарии 11

НЛО прилетело и опубликовало эту надпись здесь
Да, учитывается, поэтому и были взяты в качестве источников новости от условных «демократов» и «республиканцев». В нашем случае можно сказать, что это РИА и FB, и да в нашем случае действительно выяснилось, что есть темы где и те и другие позитивно воспринимают новость. А есть темы, где взгляды расходятся — собственно по такому принципу и формируется выборка для обучения.
А почему не использовали spaCy-Stanza для работы с русскоязычной моделью?
Для каких целей? У нас фактически несколько задач NLP решается в целом и для них эти самые модели нужно с заведомой регулярностью тюнить – в проблеме 1 и проблеме 2 ровно об этом и написано.
А почему всё на нейронках? Почему не ансамбль случайного леса? Реже потребовалось бы переобучать.
Возможно реже, но не исключило бы переобучения совсем. И при таком подходе получаем — внедрять сложнее(меньше компетенции и готовых инструментов), а поддерживать примерно — также – все равно надо готовить инфраструктуру для переобучения и имплементации актуализированных моделей. В чем выгода тогда?
Я, конечно, не знаю вашей организации труда. Но, обычно, реже — это больше времени на другие задачи, либо на более качественную подготовку к следующей итерации. К тому же, некоторые модели леса не переобучают, а дообучают, что приводит к ещё большим интервалам между учебными сеансами.
Благодарю за описание проекта.
Я новичок в NLP. Для своего проекта использовал готовые модели Summarizer, NER и Sentiment.
Summarizer (transformers, facebook-bart) вытаскивает суть довольно аккуратно, пользователи довольны.
А вот NER (spacy en_core_web_sm) и Sentiment (transformers, twitter roberta) требуют работы.
Постепенно пытаюсь разобраться, как натренировать NER и Sentiment. Ваш проект крайне полезен.

На самом деле тренировать spacy просто, достаточно почитать официальную документацию, причём там описано много способов. По опыту — я бы рекомендовал идти путём подготовки датасетов и учить или тюнинговать модели с помощью CLI.

Благодарю. В выходные поиграюсь.
Я наверное что-то упустил…
А когда это сентимент анализ и рекомендации перешли в категорию «понимать»?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации