Комментарии / Профиль ieBoytsov / Хабр

Илья Бойцов@ieBoytsov

NLP Lead @Wayfair, YSDA lecturer, PhD Candidate

Подписчики

ПрофильСтатьи4ПостыНовостиКомментарии12

Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам

ieBoytsov 26 авг 2022 в 18:13

Один из мотоциклистов в Яндексе - это я :) (в прошлом правда)

Разделяю боль, передам коллегам пожелания)

Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам

ieBoytsov 17 авг 2022 в 12:59

Спасибо большое за обратную связь! Подумаем над улучшением качества поиска в контуре нелегковой и коммерческой техники! И про фильтр по модели двигателя тоже интересное предложение!

Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам

ieBoytsov 17 авг 2022 в 12:44

Действительно, есть статистические критерии и подходы к a/b тестированию, когда не нужно фиксировать диапазон и можно динамически принимать решение. Такие подходы хороши, но иногда они требуют более тонких настроек и бОльших знаний о природе и распределении данных, чтобы с достаточной надежностью оценивать результаты экспериментов. Исходя из особенностей наших экспериментов нам удобно использовать фиксированный горизонт, который берется из расчета примерного объема наблюдений, необходимых для получения статистически-значимых результатов.

Как стать хорошим техлидом

ieBoytsov 2 июн 2022 в 10:03

Ну и зря не дочитали, статья хорошая!

Дата Кампус: можно ли освоить машинное обучение за 10 дней?

ieBoytsov 23 сен 2021 в 08:12

Я согласен с вами, что демонстративное обучение - это плохо. Мне жаль, что вы поставили Кампус в один ряд с такими проектами. По поводу "освоения" выше я отвечал, что вопрос риторический. Возможно, об этом стоило более явно сказать. Приму к сведению на будущее.

Отвечу так - когда я только начинал карьеру, подобных проектов не существовало вовсе и не у всех была возможность получить знания. Сейчас я смотрю на это со стороны, вижу обратную связь учеников и понимаю как мне в моей юности не хватало такого рода проектов.

Во-многом поэтому мне хочется заниматься такими инициативами как Кампус, чтобы хоть отчасти закрывать потребности учащихся. И я не понимаю как такие стремления и существование таких проектов как Кампус может вызывать негативные эмоции.

Дата Кампус: можно ли освоить машинное обучение за 10 дней?

ieBoytsov 18 сен 2021 в 08:45

Вы правы. Вопрос в заголовке больше риторический. В тексте статьи мы ставим акцент на том, что за такой срок можно получить только базовое представление о профессии.

Как показывает опыт, такой формат погружения очень полезен для новичков, так как он помогает им сформировать отношение к профессии и оценить свою готовность встать на путь дальнейшего профессионального освоения :)

Дата Кампус: можно ли освоить машинное обучение за 10 дней?

ieBoytsov 16 сен 2021 в 09:52

Привет. Конечно чаще пользуемся библиотеками, попутно объяснив что там под капотом с точки зрения математики. Важно, чтобы за время Кампуса у участников сформировалось общее представление о том как решать задачу. А фундаментальные навыки реализации алгоритмов подтянутся позже. Например, в универе. Еще есть случаи, когда после Кампуса участники продолжают развивать свои проекты и глубже погружаются в детали.

В случае нейронных сетей пишем в основном на библиотеке keras - она довольно высокоуровневая, в то же время в ней есть пространство для творчества (создать свою архитектуру, попробовать разные функции активации, написать какие-то операции с нуля) - так или иначе нужно понимать, что делаешь, чтобы получилось что-то осмысленное.

Иногда бывает, что задача решается без машинного обучения каким-нибудь эвристическим алгоритмом, тогда участники пишут с нуля определенную математическую логику.

+ мы проводим консультации с участниками, делаем мастер классы, где с нуля пишем примеры пайплайнов работы с данными и проводим код ревью.

Как с помощью нейросети определить лучшую дату отправки email и повысить доход рассылки в 8,5 раз

ieBoytsov 10 апр 2021 в 07:32

Привет. Спасибо за статью. Интересный подход. В тэге к статье увидел Big Data, было бы интересно послушать про инженерные детали, связанные с выводом этого дела в суровый прод, тк сеточки в бигдате это боль как известно. Несколько вопросов:

1) Сколько пользователей в сутки вы обрабатываете?
2) Как часто переобучаете модель?
3) Пробовали дообучать модель в рантайме?
4) Как применяете модель: в рантайме на каждое действие пользователя или скорите, скажем, раз в сутки всех пользователей?
5) пайплайн, включая сбор данных и применение модели, полностью на питоне?

Эмбеддинги пользователя в DMP. Эксперименты, оптимизация, внедрение

ieBoytsov 17 мар 2021 в 09:48

спасибо:)
трансформеры — моя любимая тема! Надеюсь, мы дойдем до применения их в проде. На текущий момент сложновато с точки зрения ресурсов и нагрузки, но мы уже немного фантазируем и прорабатываем эту историю.

Эмбеддинги пользователя в DMP. Эксперименты, оптимизация, внедрение

ieBoytsov 17 мар 2021 в 08:39

Привет! Спасибо за содержательный комментарий!

1) Идея представления пользователей в виде векторов(user2vec) действительно старая, и мы сами занимаемся этим очень давно. В этой статье захотели рассказать о новой для нас технологии построения профиля пользователя на основе нейросетевых эмбеддингов. Формально, мы решаем все ту же задачу, но более перспективной технологией, которая не только улучшает качество, но и, как ни странно, позволяет (в перспективе) упрощать инфраструктуру.

2) Предикт следующего события напрямую мы никак не используем. Действительно, у нас (пока) нет бизнес задач «предсказать следующее событие пользователя». Мы оптимизировали предикт след. событий для универсальной цели — научить модель понимать смысл в данных. Идею взяли из статьи Representation Learning with Contrastive Predictive Coding. Адаптировав подход к нашим задачам, мы заметили, что если научить модель отличать логи следующих событий, сделанные одним и тем же пользователем, от событий других пользователей, то модель эффективно учит закономерности в данных, и позволяет построить универсальное представление пользователя, которое хорошо заходит в разных downstream задачах.

3) Downstream задачи. Имея представление каждого пользователя, мы можем использовать его как признаковое описание для решения ряда задач классификации и регрессии. Например, предсказание сегментов пола, возраста, дохода. А так же поиск похожих пользователей как верно ты подметил. Далее эти сегменты используются для персонализации рекламы.

4) Пресс-релиз. Помимо статьи мы выпустили еще пресс-релиз, где чуть больше о бизнес-составляющей проекта.

Если остались вопросы, буду рад ответить!

Где порешать реальные задачи для кандидатов в Яндекc: тренировка на Codeforces и разбор

ieBoytsov 14 окт 2020 в 10:25

Вот мне интересно постановка реальных задач на работе в Яндексе выглядит так же запутанно как постановка данных задач? Без пол литра не разберешься чего от тебя хотят, а пока дочитаешь условие до конца, забудешь, что было в начале. Так и задумано? Вы какие навыки хотите проверить?

Понятно, что алгоритмы — это полезная здоровая вещь, и я поддерживаю, что их нужно спрашивать на собеседованиях, но Ваш формат конкретно в данном примере — это оверкилл. На мой взгляд, составителям задач стоит подумать о том насколько понятно и лаконично они пишут описания к задачам и в целом продумывают задачи. Хорошие примеры можно посмотреть на leetcode top 100 liked questions

Тёмные и светлые стороны работы в Яндекс

ieBoytsov 9 июн 2020 в 10:22

Я глазам своим не верю. Нет, правда.

Если бы речь в статье шла о какой-нибудь неизвестной мелкой компании или может, наоборот, о какой-нибудь крупной гос. компании, то я бы еще мог представить, чтобы сотрудник оттуда написал такую бессмысленную и непрофессиональную ответку другому бывшему сотруднику.

Но тут речь о Яндексе, и это сбивает меня с толку. Я теперь не знаю как это развидеть.

Ваша статья, уважаемый, прекрасное подтверждение многих слов из той статьи, которой вы безуспешно пытаетесь оппонировать. Настолько безапелляционные и плоские контраргументы, что просто нет слов.

Вы точно представитель «темной стороны» в рассказах о работе в Яндексе. Как ни странно, присоединяюсь к благодарностям за этот пост и честную правду о том как у вас внутри все работает. Браво!