Pull to refresh
8K+
342
Alexander Veysov@snakers4

Machine Learning / Data Science

439
Subscribers
Send message

Добавили в v5_3_ru, с фиксами микробагов.

Добрый день!

Английского языка нет в списке поддерживаемых.

Для иных языков, вставка нескольких слов на "иностранном" работает почти нативно, то есть автопереключение не имеет смысла, так как модель и так априори говорит на всех языках, а на паре иностранных слов обычно примеры обычно звучат нормально.

Добавили в v5_2_ru, где убраны `numpy` и scipy из зависимостей торч-пакета.

По сравнению с 95% выдачи Хабра, статья вроде хорошая, видно, что решали реальную задачу, за это спасибо. Но отсутствие ответов от автора статьи на горящие вопросы конечно выдаёт PR-слоп. Пиарщики сделали текст и забыли, народ поднял важные вопросы - но ответов конечно не будет.

Цифры подтвердили гипотезу. После включения фич на базе offer_id для новых товаров мы увидели заметный рост:

заказы новинок: +5%

Но если дать так сказать benefit of doubt статье, то вот главный вывод выглядит очень неубедительно.

Понятно, что грести против течения сложно, но если проблема холодного старта это "месяцы" простоя, то продажи какой-то новой когорты новых товаров должны вырасти, ну не знаю, на 30-50%. Грубо говоря было 2 продажи, стало 22. А в среднем, учитывая, что есть и плохие товары, стало +30% (на низкой базе, было 10 товаров по 1 продаже, а стало там 50 продаже на 10 товаров).

Что касается самого Озона, тот тут на вас озорливо смотрят не просто слоны, а библейские бегемоты в комнате, без решения которых решение это задачи выглядит скорее как "сахарная пилюля":

  • "Наследование" выдач. Кто-то раскрутил карточку с зелеными квадратами - а потом продаёт там синие круги. Отзывы можно вроде сортировать, но вся информация зачастую перепутана, продавцу глубоко плевать, что там есть 10 моделей и он по сути дезинформирует покупателей;

  • 95% отзывов это или бред "ставлю оценку но не открывал товар" или заказуха. Ну сделайте как в стиме - что чтобы сделать отзыв надо купить товар (как-то жулики обходят всё, по сути отзывы без видео бесполезны);

  • Ужасный каталогизатор. Ну украдите у яндекс-маркета фильтры или его клонов (до 2022 был е-каталог, для электроники есть просто ритейлеры типа регард или никсов). По сути я вынужден выбирать на 2-3 экранах лишнего, потому что нет фильтров. Просто поднимайте выше в выдаче заполненные карточки. Дайте кнопку юзерам - карточка указана неверно, как-то мотивируйте нормально, а не левыми баллами;

  • Поиск вроде работает (он не ужасный), но подмешивает какую-то хрень всегда, даже когда я указываю всё вплоть до бренда и фасовки. А фильтров таких просто не существует.

А где и как протестировать?

Модели доступны для скачивания в указанном репозитории

А какой голос вы использовали?

Вообще вашей тематике подходит голос overmind, т.е. сверхразум Зегов из Старкрафта. У него в OG-игре аватарка это похожий на ваш звонок адский глаз.

Тоже обратил на это внимание. На этом моменте потерял нить повествования. Наверное такое лучше делать в виде видео по типу 3B1B.

Интересно, мне было не очевидно, что данных так мало. Тогда логично.

А почему не остановились на простой линейной регрессии с дамми-признаками?

Тренд, дамми-переменные на месяц-квартал, какие-то внешние переменные типа числа SKU в категории или числа работающих магазинов (чтобы убрать всплески от открытия новых). Сезонность это просто к-т регрессии.

В зависимости от формы регрессии он имеет прямую и понятную интерпретацию, без синусов.

А как автору напрямую задонатить за игру, минуя посредников и не занимаясь обходом санкций? Искал на страничках - не нашёл.

Внесли следующие правки и перезалили пакеты для моделей языков РФ и СНГ:

  • Исправили конвертацию двухсимвольных ключей с латиницы на кириллицу для узбекского;

  • Добавили недостающие символы: 'ı' в азербайджанский и 'և' в армянский;

  • Избавились от лишних зависимостей scipy и numpy в пакетах самих моделей (numpy всё равно осталась в списке библиотек для pip-пакета, т.к. пользователи могут делать .numpy());

Спасибо за упоминание нашего синтеза в вашей статье!

Тут есть одна нестыковочка только:

Это аудио длительностью примерно 10–15 секунд.

Silero (v5_ru)

Latency (CPU), сек

2.62

То есть если я верно понял, 10-15 секунд аудио у вас синтезируется около 2+ секунд на CPU. Скорее всего это первый запуск модели. В реальности синтез такой фразы должен занимать где-то 100ms после прогрева модели. Обратите внимание, что также нужно выставить оптимальное количество потоков CPU - 4 штуки.

Также обращаю внимание на пару вещей ещё:

Спасибо!

Балаболка по идее должа числа уметь нормализовать

Ну будто бы на x64 систему надо ставить x64 либу. У нас из 5 человек это нужно было у 1 при тестировании. Почему так - никто не знает.

Спасибо, что не заленились написать follow-up комментарий. Вообще не думал, что нужна какая-то конкретная версия, кроме последней.

В планах есть поддержка языков Кавказа в рамках отдельной модели.

Ещё в таких тредах принято советовать Sunlust =)

1
23 ...

Information

Rating
6,144-th
Registered
Activity