Более того, в поиске рассчитываются тысячи факторов, но если выключить их все и оставить только новую модель, то качество ранжирования по основной офлайн-метрике упадёт лишь на 4-5%!
Насколько я понимаю, катбуст выстраивает сплиты в дереве по значимости фактора для ранжирования. Более значимые — выше.
Вопросы:
1) Раз новый метод показывает такую высокую эффективность, то он должен быть высоко в решающем дереве. То есть, можно ли говорить о том, что новый метод используется для практически всего объема запросов к яндексу?
Скажем, в гугле про берт говорили про около 10% запросов.
2) Сократился ли размер решающего дерева (кол-во сплитов) после внедрения нового метода?
3) Как бы вы оценили влияние нового метода в ранжировании коммерческих запросов? Там же нет больших текстов, а те, что есть, достаточно насыщены ключами.
И немного не понял про определение куска текста, наиболее важного для ранжирования.
Сначала, вы пишите, что у Палеха и Королева есть проблемы с релевантностью на сложных документах, потому что не умеет выделять зоны.
А потом:
Сложнее всего оказалось выделить хорошие фрагменты текста документа.
уже про берт.
Хотя, как я понял, берт должен это уметь сам.
Тамбов (в мск будет чуть дороже).
Цельноламельный ясень 1600х800 мм = 7800 руб.
Металлические листы 10 мм + сварка + покраска = 8000 руб.
Масло для столешницы = 2500 руб. по 6 слоев сверху и 4 снизу.
Вес: 80 кг (40 щит, по 20 ножки)
Прикручено на 8 саморезов.
К ножкам снизу приклеен войлок (25 руб за лист а4 в любом магазине ткани х2)
Стулья из ашана.
Насколько я понимаю, катбуст выстраивает сплиты в дереве по значимости фактора для ранжирования. Более значимые — выше.
Вопросы:
1) Раз новый метод показывает такую высокую эффективность, то он должен быть высоко в решающем дереве. То есть, можно ли говорить о том, что новый метод используется для практически всего объема запросов к яндексу?
Скажем, в гугле про берт говорили про около 10% запросов.
2) Сократился ли размер решающего дерева (кол-во сплитов) после внедрения нового метода?
3) Как бы вы оценили влияние нового метода в ранжировании коммерческих запросов? Там же нет больших текстов, а те, что есть, достаточно насыщены ключами.
И немного не понял про определение куска текста, наиболее важного для ранжирования.
Сначала, вы пишите, что у Палеха и Королева есть проблемы с релевантностью на сложных документах, потому что не умеет выделять зоны.
А потом:
уже про берт.
Хотя, как я понял, берт должен это уметь сам.
Тамбов (в мск будет чуть дороже).
Цельноламельный ясень 1600х800 мм = 7800 руб.
Металлические листы 10 мм + сварка + покраска = 8000 руб.
Масло для столешницы = 2500 руб. по 6 слоев сверху и 4 снизу.
Вес: 80 кг (40 щит, по 20 ножки)
Прикручено на 8 саморезов.
К ножкам снизу приклеен войлок (25 руб за лист а4 в любом магазине ткани х2)
Стулья из ашана.