Спасибо большое за обратную связь! Подумаем над улучшением качества поиска в контуре нелегковой и коммерческой техники! И про фильтр по модели двигателя тоже интересное предложение!
Действительно, есть статистические критерии и подходы к a/b тестированию, когда не нужно фиксировать диапазон и можно динамически принимать решение. Такие подходы хороши, но иногда они требуют более тонких настроек и бОльших знаний о природе и распределении данных, чтобы с достаточной надежностью оценивать результаты экспериментов. Исходя из особенностей наших экспериментов нам удобно использовать фиксированный горизонт, который берется из расчета примерного объема наблюдений, необходимых для получения статистически-значимых результатов.
Я согласен с вами, что демонстративное обучение - это плохо. Мне жаль, что вы поставили Кампус в один ряд с такими проектами. По поводу "освоения" выше я отвечал, что вопрос риторический. Возможно, об этом стоило более явно сказать. Приму к сведению на будущее.
Отвечу так - когда я только начинал карьеру, подобных проектов не существовало вовсе и не у всех была возможность получить знания. Сейчас я смотрю на это со стороны, вижу обратную связь учеников и понимаю как мне в моей юности не хватало такого рода проектов.
Во-многом поэтому мне хочется заниматься такими инициативами как Кампус, чтобы хоть отчасти закрывать потребности учащихся. И я не понимаю как такие стремления и существование таких проектов как Кампус может вызывать негативные эмоции.
Вы правы. Вопрос в заголовке больше риторический. В тексте статьи мы ставим акцент на том, что за такой срок можно получить только базовое представление о профессии.
Как показывает опыт, такой формат погружения очень полезен для новичков, так как он помогает им сформировать отношение к профессии и оценить свою готовность встать на путь дальнейшего профессионального освоения :)
Привет. Конечно чаще пользуемся библиотеками, попутно объяснив что там под капотом с точки зрения математики. Важно, чтобы за время Кампуса у участников сформировалось общее представление о том как решать задачу. А фундаментальные навыки реализации алгоритмов подтянутся позже. Например, в универе. Еще есть случаи, когда после Кампуса участники продолжают развивать свои проекты и глубже погружаются в детали.
В случае нейронных сетей пишем в основном на библиотеке keras - она довольно высокоуровневая, в то же время в ней есть пространство для творчества (создать свою архитектуру, попробовать разные функции активации, написать какие-то операции с нуля) - так или иначе нужно понимать, что делаешь, чтобы получилось что-то осмысленное.
Иногда бывает, что задача решается без машинного обучения каким-нибудь эвристическим алгоритмом, тогда участники пишут с нуля определенную математическую логику.
+ мы проводим консультации с участниками, делаем мастер классы, где с нуля пишем примеры пайплайнов работы с данными и проводим код ревью.
Привет. Спасибо за статью. Интересный подход. В тэге к статье увидел Big Data, было бы интересно послушать про инженерные детали, связанные с выводом этого дела в суровый прод, тк сеточки в бигдате это боль как известно. Несколько вопросов:
1) Сколько пользователей в сутки вы обрабатываете?
2) Как часто переобучаете модель?
3) Пробовали дообучать модель в рантайме?
4) Как применяете модель: в рантайме на каждое действие пользователя или скорите, скажем, раз в сутки всех пользователей?
5) пайплайн, включая сбор данных и применение модели, полностью на питоне?
спасибо:)
трансформеры — моя любимая тема! Надеюсь, мы дойдем до применения их в проде. На текущий момент сложновато с точки зрения ресурсов и нагрузки, но мы уже немного фантазируем и прорабатываем эту историю.
1) Идея представления пользователей в виде векторов(user2vec) действительно старая, и мы сами занимаемся этим очень давно. В этой статье захотели рассказать о новой для нас технологии построения профиля пользователя на основе нейросетевых эмбеддингов. Формально, мы решаем все ту же задачу, но более перспективной технологией, которая не только улучшает качество, но и, как ни странно, позволяет (в перспективе) упрощать инфраструктуру.
2) Предикт следующего события напрямую мы никак не используем. Действительно, у нас (пока) нет бизнес задач «предсказать следующее событие пользователя». Мы оптимизировали предикт след. событий для универсальной цели — научить модель понимать смысл в данных. Идею взяли из статьи Representation Learning with Contrastive Predictive Coding. Адаптировав подход к нашим задачам, мы заметили, что если научить модель отличать логи следующих событий, сделанные одним и тем же пользователем, от событий других пользователей, то модель эффективно учит закономерности в данных, и позволяет построить универсальное представление пользователя, которое хорошо заходит в разных downstream задачах.
3) Downstream задачи. Имея представление каждого пользователя, мы можем использовать его как признаковое описание для решения ряда задач классификации и регрессии. Например, предсказание сегментов пола, возраста, дохода. А так же поиск похожих пользователей как верно ты подметил. Далее эти сегменты используются для персонализации рекламы.
4) Пресс-релиз. Помимо статьи мы выпустили еще пресс-релиз, где чуть больше о бизнес-составляющей проекта.
Вот мне интересно постановка реальных задач на работе в Яндексе выглядит так же запутанно как постановка данных задач? Без пол литра не разберешься чего от тебя хотят, а пока дочитаешь условие до конца, забудешь, что было в начале. Так и задумано? Вы какие навыки хотите проверить?
Понятно, что алгоритмы — это полезная здоровая вещь, и я поддерживаю, что их нужно спрашивать на собеседованиях, но Ваш формат конкретно в данном примере — это оверкилл. На мой взгляд, составителям задач стоит подумать о том насколько понятно и лаконично они пишут описания к задачам и в целом продумывают задачи. Хорошие примеры можно посмотреть на leetcode top 100 liked questions
Если бы речь в статье шла о какой-нибудь неизвестной мелкой компании или может, наоборот, о какой-нибудь крупной гос. компании, то я бы еще мог представить, чтобы сотрудник оттуда написал такую бессмысленную и непрофессиональную ответку другому бывшему сотруднику.
Но тут речь о Яндексе, и это сбивает меня с толку. Я теперь не знаю как это развидеть.
Ваша статья, уважаемый, прекрасное подтверждение многих слов из той статьи, которой вы безуспешно пытаетесь оппонировать. Настолько безапелляционные и плоские контраргументы, что просто нет слов.
Вы точно представитель «темной стороны» в рассказах о работе в Яндексе. Как ни странно, присоединяюсь к благодарностям за этот пост и честную правду о том как у вас внутри все работает. Браво!
Один из мотоциклистов в Яндексе - это я :) (в прошлом правда)
Разделяю боль, передам коллегам пожелания)
Спасибо большое за обратную связь! Подумаем над улучшением качества поиска в контуре нелегковой и коммерческой техники! И про фильтр по модели двигателя тоже интересное предложение!
Действительно, есть статистические критерии и подходы к a/b тестированию, когда не нужно фиксировать диапазон и можно динамически принимать решение. Такие подходы хороши, но иногда они требуют более тонких настроек и бОльших знаний о природе и распределении данных, чтобы с достаточной надежностью оценивать результаты экспериментов. Исходя из особенностей наших экспериментов нам удобно использовать фиксированный горизонт, который берется из расчета примерного объема наблюдений, необходимых для получения статистически-значимых результатов.
Ну и зря не дочитали, статья хорошая!
Я согласен с вами, что демонстративное обучение - это плохо. Мне жаль, что вы поставили Кампус в один ряд с такими проектами. По поводу "освоения" выше я отвечал, что вопрос риторический. Возможно, об этом стоило более явно сказать. Приму к сведению на будущее.
Отвечу так - когда я только начинал карьеру, подобных проектов не существовало вовсе и не у всех была возможность получить знания. Сейчас я смотрю на это со стороны, вижу обратную связь учеников и понимаю как мне в моей юности не хватало такого рода проектов.
Во-многом поэтому мне хочется заниматься такими инициативами как Кампус, чтобы хоть отчасти закрывать потребности учащихся. И я не понимаю как такие стремления и существование таких проектов как Кампус может вызывать негативные эмоции.
Вы правы. Вопрос в заголовке больше риторический. В тексте статьи мы ставим акцент на том, что за такой срок можно получить только базовое представление о профессии.
Как показывает опыт, такой формат погружения очень полезен для новичков, так как он помогает им сформировать отношение к профессии и оценить свою готовность встать на путь дальнейшего профессионального освоения :)
Привет. Конечно чаще пользуемся библиотеками, попутно объяснив что там под капотом с точки зрения математики. Важно, чтобы за время Кампуса у участников сформировалось общее представление о том как решать задачу. А фундаментальные навыки реализации алгоритмов подтянутся позже. Например, в универе. Еще есть случаи, когда после Кампуса участники продолжают развивать свои проекты и глубже погружаются в детали.
В случае нейронных сетей пишем в основном на библиотеке keras - она довольно высокоуровневая, в то же время в ней есть пространство для творчества (создать свою архитектуру, попробовать разные функции активации, написать какие-то операции с нуля) - так или иначе нужно понимать, что делаешь, чтобы получилось что-то осмысленное.
Иногда бывает, что задача решается без машинного обучения каким-нибудь эвристическим алгоритмом, тогда участники пишут с нуля определенную математическую логику.
+ мы проводим консультации с участниками, делаем мастер классы, где с нуля пишем примеры пайплайнов работы с данными и проводим код ревью.
1) Сколько пользователей в сутки вы обрабатываете?
2) Как часто переобучаете модель?
3) Пробовали дообучать модель в рантайме?
4) Как применяете модель: в рантайме на каждое действие пользователя или скорите, скажем, раз в сутки всех пользователей?
5) пайплайн, включая сбор данных и применение модели, полностью на питоне?
трансформеры — моя любимая тема! Надеюсь, мы дойдем до применения их в проде. На текущий момент сложновато с точки зрения ресурсов и нагрузки, но мы уже немного фантазируем и прорабатываем эту историю.
1) Идея представления пользователей в виде векторов(user2vec) действительно старая, и мы сами занимаемся этим очень давно. В этой статье захотели рассказать о новой для нас технологии построения профиля пользователя на основе нейросетевых эмбеддингов. Формально, мы решаем все ту же задачу, но более перспективной технологией, которая не только улучшает качество, но и, как ни странно, позволяет (в перспективе) упрощать инфраструктуру.
2) Предикт следующего события напрямую мы никак не используем. Действительно, у нас (пока) нет бизнес задач «предсказать следующее событие пользователя». Мы оптимизировали предикт след. событий для универсальной цели — научить модель понимать смысл в данных. Идею взяли из статьи Representation Learning with Contrastive Predictive Coding. Адаптировав подход к нашим задачам, мы заметили, что если научить модель отличать логи следующих событий, сделанные одним и тем же пользователем, от событий других пользователей, то модель эффективно учит закономерности в данных, и позволяет построить универсальное представление пользователя, которое хорошо заходит в разных downstream задачах.
3) Downstream задачи. Имея представление каждого пользователя, мы можем использовать его как признаковое описание для решения ряда задач классификации и регрессии. Например, предсказание сегментов пола, возраста, дохода. А так же поиск похожих пользователей как верно ты подметил. Далее эти сегменты используются для персонализации рекламы.
4) Пресс-релиз. Помимо статьи мы выпустили еще пресс-релиз, где чуть больше о бизнес-составляющей проекта.
Если остались вопросы, буду рад ответить!
Понятно, что алгоритмы — это полезная здоровая вещь, и я поддерживаю, что их нужно спрашивать на собеседованиях, но Ваш формат конкретно в данном примере — это оверкилл. На мой взгляд, составителям задач стоит подумать о том насколько понятно и лаконично они пишут описания к задачам и в целом продумывают задачи. Хорошие примеры можно посмотреть на leetcode top 100 liked questions
Если бы речь в статье шла о какой-нибудь неизвестной мелкой компании или может, наоборот, о какой-нибудь крупной гос. компании, то я бы еще мог представить, чтобы сотрудник оттуда написал такую бессмысленную и непрофессиональную ответку другому бывшему сотруднику.
Но тут речь о Яндексе, и это сбивает меня с толку. Я теперь не знаю как это развидеть.
Ваша статья, уважаемый, прекрасное подтверждение многих слов из той статьи, которой вы безуспешно пытаетесь оппонировать. Настолько безапелляционные и плоские контраргументы, что просто нет слов.
Вы точно представитель «темной стороны» в рассказах о работе в Яндексе. Как ни странно, присоединяюсь к благодарностям за этот пост и честную правду о том как у вас внутри все работает. Браво!