Summarization is all you need

Привет! Меня зовут Станислав, я — дата-сайентист из команды Поиска в hh.ru. У нас в компании дата-сайентисты занимаются главным образом работой над рекомендательными системами. Если у вас есть резюме на hh.ru, то скорее всего вы хотя бы раз просматривали список подходящих вам вакансий. И вот то, насколько они действительно вам подошли, и является нашей зоной ответственности.
Вакансии и резюме пишут на естественном языке, поэтому обработка текстовой информации является важнейшей частью наших моделей. Один из способов такой обработки — это построение краткого содержания текста или проще говоря суммаризация. Особенно это может быть полезно если текст документа очень громоздкий и явно содержит много лишнего. В этой статье я расскажу о том, как мы применили модель суммаризации, чтобы улучшить наши модели матчинга.