Как стать автором
Обновить

Комментарии 5

Привет, меня зовут Василий, я тоже дата-саентист, и на hh.ru на мое резюме мне как-то рекомендовалась вакансия: помощник бурильщика %) Я так-то без претензии, довольно забавно было)
(кажется, года три назад)

Есть несколько вопросов по статье:

  1. Как предобрабатывали текст(использовали ли лимматизацию, стемминг)

  2. Почему оставили в тексте пунктуацию

  3. Пробовали ли абстрактную суммаризацию?(сейчас точно не вспомню модель, но вроде недавно выложили неплохую модель абстракной суммаризации для англ. языка, наверное можно попытаться сделать аналогичную для русского)

PS: Механизм внимания(attention) в статье очень напоминает само-внимание(self attention)

  1. Тект чистим от html тегов, разбиваем на предложения с помощью библиотеки razdel, кодируем с помощью BPE, который мы заранее предобучаем на нашем корпусе.

  2. Так как мы используем BPE в этом нет непосредственной необходимости, проще было ее оставить, плюс видно, что она дает дополнительную информации про структуры вакансии / резюме.

  3. Это интересная задача, но слишком сложная в данном контексте, возможно, в будущем к ней вернемся.

  4. self-attention и cross-attention это все же про трансформеры, в описанной модели трансформеров пока нет.

А пробовали выделять сущности из вакансий и резюме и далее смотреть близость вакансии к резюме(или наоборот) исходя из выделенных сущностей? Интересно, такой подход должен работать, тк мы сразу можем сравнивать искомые сущности.

Для NER опять же нужна хорошая разметка. Хотим попробовать, начиная с выделения сущностей из заголовка вакансии, но пока не добрались.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий