Да, действительно раньше использовали технологии SoundHound — и совсем недавно перешли на собственное решение в мобильном приложении Яндекс.Музыка (и на iOS, и на Android). Причин перехода несколько:
1) нам удобнее самим контролировать качество продукта и развивать его в тех направлениях, которые важны для наших пользователей
2) так появляется больше возможности применять наши наработки к смежным областям (классификация жанров, склейка дублей и т.п.)
Спасибо, интересный вопрос, такое исследование мы пока не проводили. На первый взгляд, оно потребует некоторой ручной работы по разметке жанра для нераспознанных треков.
Пока мы не очень её продвигали, ей попробовали воспользоваться порядка 20% пользователей мобильного приложения Яндекс.Музыка.
Со временем планируем сделать её более заметной — это тоже должно повлиять на популярность этой функции.
Получается, что сначала пишется сравнительно быстрый расчет фактора, а после одобрения экспертным советом еще «вылизывается» до последнего такта и байта?
Не совсем. Сначала делается «грязная» реализация, демонстрирующая только прирост в качестве — безотносительно вычислительных ресурсов. Если она не вызывает содержательных возражений у экспертов, дальше реализуется «чистая» версия, которая да, предельно оптимизируется по тактам и байтам :-)
Любая классификация (в том числе определение заспамленности или «взрослости» контента) — вероятностная задача, в которой есть полнота и точность (которые никогда не достигают точных 100%).
Поэтому ситуации вроде ошибочной пессимизации или пропадания были и будут всегда. Мы следим за цифрами в среднем по всему множеству сайтов, и в случае значительных ухудшений ситуации в целом — откатываем алгоритм к предыдущей версии. Заниматься ручным исправлением ситуации с отдельными сайтами по жалобам — с точки зрения пользовательского счастья менее эффективно, чем решать более общую проблему, приведшую к жалобе. А мы работаем прежде всего на пользовательское счастье.
Цифры, разумеется, условные — лишь показывают разницу порядков на разных этапах.
Если же углубляться в смысл картинки:
— где 10^12 — подразумевались скорее известные УРЛы
— где 10^8 — грубая прикидка документов, найденных по короткому, простому запросу
1) нам удобнее самим контролировать качество продукта и развивать его в тех направлениях, которые важны для наших пользователей
2) так появляется больше возможности применять наши наработки к смежным областям (классификация жанров, склейка дублей и т.п.)
Со временем планируем сделать её более заметной — это тоже должно повлиять на популярность этой функции.
Не совсем. Сначала делается «грязная» реализация, демонстрирующая только прирост в качестве — безотносительно вычислительных ресурсов. Если она не вызывает содержательных возражений у экспертов, дальше реализуется «чистая» версия, которая да, предельно оптимизируется по тактам и байтам :-)
Поэтому ситуации вроде ошибочной пессимизации или пропадания были и будут всегда. Мы следим за цифрами в среднем по всему множеству сайтов, и в случае значительных ухудшений ситуации в целом — откатываем алгоритм к предыдущей версии. Заниматься ручным исправлением ситуации с отдельными сайтами по жалобам — с точки зрения пользовательского счастья менее эффективно, чем решать более общую проблему, приведшую к жалобе. А мы работаем прежде всего на пользовательское счастье.
Выпускать в опенсорс не планируем.
В процентах, разумеется, это ничтожная доля — потому что уникальных запросов пользователи задают несопоставимо больше.
Вот как он изменился даже за несколько месяцев — сравниваем выдачу сегодня и в сентябре-2012:
1 suzuki.drom.ru/grand_vitara/ www.suzuki-motor.ru/auto/new/grand-vitara/about/
2 www.grand-vitara.com/ suzuki.drom.ru/grand_vitara/
3 www.auto-creditline.ru/sell_cat.php?cid=352 www.club-vitara.ru/
4 www.suzukiauto.com/grand_vitara/ ru.wikipedia.org/wiki/Suzuki_Grand_Vitara
5 www.carexpert.ru/aresp.php?idmodel=suzkv www.drive2.ru/cars/suzuki/grand_vitara/
6 www.suzuki-motor.ru/auto/new/grand-vitara/about/ www.carexpert.ru/aresp.php?idmodel=suzkv
7 newmpv.ru/sites/95 www.vitara-club.ru/
8 www.r93.ru/suzuki/grand_vitara/ www.vitara-club.ru/
9 newmpv.ru/sites/95 www.grand-vitara.com/
10 www.yuginform.ru/auto/krd/suzuki/grandvitara www.cardriver.ru/catalogue/new/Suzuki/Grand_Vitara.html?comments=1
Что уж говорить про более длинные промежутки…
Если же углубляться в смысл картинки:
— где 10^12 — подразумевались скорее известные УРЛы
— где 10^8 — грубая прикидка документов, найденных по короткому, простому запросу