stasyarkin Nov 10 2022 at 09:00

Summarization is all you need

10 min

5.1K

hh.ru corporate blogMachine learning*Data Engineering*

Comments 5

VPryadchenko Nov 10 2022 at 09:16

Привет, меня зовут Василий, я тоже дата-саентист, и на hh.ru на мое резюме мне как-то рекомендовалась вакансия: помощник бурильщика %) Я так-то без претензии, довольно забавно было)
(кажется, года три назад)

PavelCTI Nov 10 2022 at 11:18

Есть несколько вопросов по статье:

Как предобрабатывали текст(использовали ли лимматизацию, стемминг)
Почему оставили в тексте пунктуацию
Пробовали ли абстрактную суммаризацию?(сейчас точно не вспомню модель, но вроде недавно выложили неплохую модель абстракной суммаризации для англ. языка, наверное можно попытаться сделать аналогичную для русского)

PS: Механизм внимания(attention) в статье очень напоминает само-внимание(self attention)

stasyarkin Nov 10 2022 at 11:46

Тект чистим от html тегов, разбиваем на предложения с помощью библиотеки razdel, кодируем с помощью BPE, который мы заранее предобучаем на нашем корпусе.
Так как мы используем BPE в этом нет непосредственной необходимости, проще было ее оставить, плюс видно, что она дает дополнительную информации про структуры вакансии / резюме.
Это интересная задача, но слишком сложная в данном контексте, возможно, в будущем к ней вернемся.
self-attention и cross-attention это все же про трансформеры, в описанной модели трансформеров пока нет.

PavelCTI Nov 10 2022 at 15:04

А пробовали выделять сущности из вакансий и резюме и далее смотреть близость вакансии к резюме(или наоборот) исходя из выделенных сущностей? Интересно, такой подход должен работать, тк мы сразу можем сравнивать искомые сущности.

stasyarkin Nov 14 2022 at 11:19

Для NER опять же нужна хорошая разметка. Хотим попробовать, начиная с выделения сущностей из заголовка вакансии, но пока не добрались.