theioberry4 фев 2021 в 10:25

Как мы ИИ учили новости понимать

11 мин

10K

Natural Language Processing * Машинное обучение *

Из песочницы

+12

Комментарии 11

НЛО прилетело и опубликовало эту надпись здесь

theioberry 4 фев 2021 в 14:16

Да, учитывается, поэтому и были взяты в качестве источников новости от условных «демократов» и «республиканцев». В нашем случае можно сказать, что это РИА и FB, и да в нашем случае действительно выяснилось, что есть темы где и те и другие позитивно воспринимают новость. А есть темы, где взгляды расходятся — собственно по такому принципу и формируется выборка для обучения.

AlexeySlw 4 фев 2021 в 14:16

А почему не использовали spaCy-Stanza для работы с русскоязычной моделью?

theioberry 4 фев 2021 в 14:18

Для каких целей? У нас фактически несколько задач NLP решается в целом и для них эти самые модели нужно с заведомой регулярностью тюнить – в проблеме 1 и проблеме 2 ровно об этом и написано.

tvant 4 фев 2021 в 14:44

А почему всё на нейронках? Почему не ансамбль случайного леса? Реже потребовалось бы переобучать.

theioberry 5 фев 2021 в 11:07

Возможно реже, но не исключило бы переобучения совсем. И при таком подходе получаем — внедрять сложнее(меньше компетенции и готовых инструментов), а поддерживать примерно — также – все равно надо готовить инфраструктуру для переобучения и имплементации актуализированных моделей. В чем выгода тогда?

tvant 9 фев 2021 в 09:49

Я, конечно, не знаю вашей организации труда. Но, обычно, реже — это больше времени на другие задачи, либо на более качественную подготовку к следующей итерации. К тому же, некоторые модели леса не переобучают, а дообучают, что приводит к ещё большим интервалам между учебными сеансами.

vagon333 5 фев 2021 в 14:48

Благодарю за описание проекта.
Я новичок в NLP. Для своего проекта использовал готовые модели Summarizer, NER и Sentiment.
Summarizer (transformers, facebook-bart) вытаскивает суть довольно аккуратно, пользователи довольны.
А вот NER (spacy en_core_web_sm) и Sentiment (transformers, twitter roberta) требуют работы.
Постепенно пытаюсь разобраться, как натренировать NER и Sentiment. Ваш проект крайне полезен.

theioberry 5 фев 2021 в 17:58

На самом деле тренировать spacy просто, достаточно почитать официальную документацию, причём там описано много способов. По опыту — я бы рекомендовал идти путём подготовки датасетов и учить или тюнинговать модели с помощью CLI.

vagon333 5 фев 2021 в 18:03

Благодарю. В выходные поиграюсь.

ai_expert 11 фев 2021 в 02:41

Я наверное что-то упустил…
А когда это сентимент анализ и рекомендации перешли в категорию «понимать»?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий