Comments 5
Привет, меня зовут Василий, я тоже дата-саентист, и на hh.ru на мое резюме мне как-то рекомендовалась вакансия: помощник бурильщика %) Я так-то без претензии, довольно забавно было)
(кажется, года три назад)
Есть несколько вопросов по статье:
Как предобрабатывали текст(использовали ли лимматизацию, стемминг)
Почему оставили в тексте пунктуацию
Пробовали ли абстрактную суммаризацию?(сейчас точно не вспомню модель, но вроде недавно выложили неплохую модель абстракной суммаризации для англ. языка, наверное можно попытаться сделать аналогичную для русского)
PS: Механизм внимания(attention) в статье очень напоминает само-внимание(self attention)
Тект чистим от html тегов, разбиваем на предложения с помощью библиотеки razdel, кодируем с помощью BPE, который мы заранее предобучаем на нашем корпусе.
Так как мы используем BPE в этом нет непосредственной необходимости, проще было ее оставить, плюс видно, что она дает дополнительную информации про структуры вакансии / резюме.
Это интересная задача, но слишком сложная в данном контексте, возможно, в будущем к ней вернемся.
self-attention и cross-attention это все же про трансформеры, в описанной модели трансформеров пока нет.
А пробовали выделять сущности из вакансий и резюме и далее смотреть близость вакансии к резюме(или наоборот) исходя из выделенных сущностей? Интересно, такой подход должен работать, тк мы сразу можем сравнивать искомые сущности.
Summarization is all you need