Comments 7
- Расшифруйте что значит 98% точности и 93% полноты. Иногда выкидывались не дубли?
- В случае дубля кого оставлять, а кого выкидывать?
Точность (precision) и полнота(recall) — стандартные метрики оценки качества. Precision= TruePositive/(TruePositive+FalsePositive), Recall = TruePositive/(TruePositive+FalseNegative)
- Точность — это отношение числа правильно классифицированных офферов к общему числу объектов. То есть в 98% случаев пара, помеченная алгоритмом как дубликат, действительно является таковой. Отвечая на следующий вопрос — да, примерно в 2% случаев алгоритм ошибался, называя пару квартир одинаковыми, хотя они таковыми не являлись. Полнота здесь — это доля офферов, классифицированных правильно, деленная на размер всего класса дубликатов, то есть это число, показывающее насколько большую часть дубликатов алгоритм способен находить. Более формально можно почитать тут.
- Дубликаты не удаляются, просто с помощью некоторых эвристик объединяются в один оффер.
При чем тут хаб "учебный процесс в IT"?
Мы анализировали такие же объявления из других источников, и что могу сказать:
— зачастую данные не заполнены. В нашем случае, например, этаж зачастую можно было извлечь только из текстового комментария, что является само по себе нетривиальной задачей NLP
— даже если заполнены, то например, наличие двух и более одинаковых объектов, со всеми совпадающими параметрами, является вполне возможным вариантом. Например, две квартиры одинакового метража в одном доме, на одном этаже, два офисных помещения в одном офисном центре. При этом нет буквально никаких признаков, которые позволяли бы считать эти объявления дублями, или же нет. Точнее, есть — номер квартиры или офиса, например. Но его почти никогда не бывает в объявлении (потому что опубликуй его — и посредники в виде сайта уже и не нужны).
— идентичные по всем параметрам объекты могут все еще сильно отличаться по цене, в лучшем случае причина для такого отличия описана в тексте (и тогда снова NLP, да и то задача плохо формализуется, потому что описание ремонта, оно такое...), а в худшем — не описана вообще нигде. Типовой пример — торговые площади в ТЦ, где размещение на этаже является одним из показателей, влияющих на ставку аренды.
— некоторые параметры вполне можно додумать или валидировать, если мы знаем характеристики здания, например, то же число этажей в нем, или класс офиса, или проект дома — на основе этого можно вычислить многое, а зная адрес, теоретически можно понять вообще все.
— и тем не менее, даже если вы знаете, что в таком-то ТЦ сдаются две торговые площади с одинаковыми параметрами, а у вас имеется три объявления, вряд ли что-то вам позволит понять, два тут дубля или же один.
А то, как задача тут описана, на мой взгляд вообще пока ни о чем.
— зачастую данные не заполнены. В нашем случае, например, этаж зачастую можно было извлечь только из текстового комментария, что является само по себе нетривиальной задачей NLP
— даже если заполнены, то например, наличие двух и более одинаковых объектов, со всеми совпадающими параметрами, является вполне возможным вариантом. Например, две квартиры одинакового метража в одном доме, на одном этаже, два офисных помещения в одном офисном центре. При этом нет буквально никаких признаков, которые позволяли бы считать эти объявления дублями, или же нет. Точнее, есть — номер квартиры или офиса, например. Но его почти никогда не бывает в объявлении (потому что опубликуй его — и посредники в виде сайта уже и не нужны).
— идентичные по всем параметрам объекты могут все еще сильно отличаться по цене, в лучшем случае причина для такого отличия описана в тексте (и тогда снова NLP, да и то задача плохо формализуется, потому что описание ремонта, оно такое...), а в худшем — не описана вообще нигде. Типовой пример — торговые площади в ТЦ, где размещение на этаже является одним из показателей, влияющих на ставку аренды.
— некоторые параметры вполне можно додумать или валидировать, если мы знаем характеристики здания, например, то же число этажей в нем, или класс офиса, или проект дома — на основе этого можно вычислить многое, а зная адрес, теоретически можно понять вообще все.
— и тем не менее, даже если вы знаете, что в таком-то ТЦ сдаются две торговые площади с одинаковыми параметрами, а у вас имеется три объявления, вряд ли что-то вам позволит понять, два тут дубля или же один.
А то, как задача тут описана, на мой взгляд вообще пока ни о чем.
Sign up to leave a comment.
Дедупликация объявлений на Яндекс.Недвижимости