Комментарии 9
Нет, к сожалению, BERT не пробовал.
Насчёт момента с невозможностью вывода несловарных слов. Имеется в виду, что абстрактные модели составляют заголовок только из слов, взятых из заранее заданного множества (собственно, словаря). Если в исходном тексте будет важное слово, которого не будет в словаре, то абстрактная модель его подставить в заголовок его не сможет. Это касается и тренировочных данных, и тестовых.
Словарь я готовил отдельно, он не зависит от данных, на которых проходит обучение.
Если быть точнее, то для своих экспериментов я просто находил какие-нибудь предобученные эмбеддинги (например, отсюда http://docs.deeppavlov.ai/en/master/features/pretrained_vectors.html), смотрел для каких слов они были составлены, брал первые 100k (можно больше, но от этого усложняется модель). Сами предобученные эмбеддинги, кстати, не использовал.
Судя по происхождению файла с эмбеддингами, откуда я брал слова, можно сказать, что я составил словарь из 100k самых частотных слов Википедии и корпуса Ленты, расположенных в порядке частотности.
А можно ли этот алгоритм прикрутить к форуму? Чтобы все комментарии просеивались через такую "сетку", а на выходе иметь, например, 3 уровня детализации: "сокращённо", "средне", "подробно". Чтобы не было необходимости перечитывать всю ленту. Чтобы можно было сразу увидеть тезисно основные мысли озвученные комментаторами. Чтобы повторяющиеся и близкие по содержанию комментарии группировались. К чтобы наиболее важные, уникальное и интересные мысли поднимались вверх, в начало текста, а глупые и неинтересные опускались вниз ленты или удалялись. Думаю это значительно приблизило бы нас к краудсорсинговым социальным сетям. Будущее за коллективным мышлением онлайн усиленным искусственным интеллектом.
У форума структура сложная, там в общем случае, нет какого-то одного повествования, а куча разных мнений. Не говоря уже о том, что в одном форуме может одновременно вестись несколько разговоров параллельно между несколькими группами людей, а также могут быть просто высказывания в пустоту — короче, хаос. Чтобы такое сокращать, нужно заранее определять, какие сообщения к чему и к кому относятся (для чего нужна отдельная программа, а по-хорошему тоже нейросеть — только как её сделать?), затем сложить из этих сообщений что-то похожее на пьесу в нескольких явлениях (одно явление — общение между определённой группой людей), а затем попробовать пройтись описанным в статье алгоритмом. Либо сразу обучать генератор заголовков (можно описанный, а можно на трансформерах, используя BERT) на форумном тексте (желательно, чтобы в нём до подачи на сеть особым образом выделялись лица разговора, цитирования и прочие форумные штуки).
Для каждого уровня обобщения нужно найти соответствующую обучающую выборку на 100k+ текстов (может, и меньше, я не проводил экспериментов, как ухудшается качество от размера обучающей выборки) и попробовать запустить сетку.
В этом ещё одна проблема. Нужны не просто тексты форумов, а также сокращения текстов форумов, которые я, например, никогда не видел. Значит, их придётся составлять самому, что очень дорого.
В частности для огромных веток комментов на самом хабре.
Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»