Pull to refresh
1
0
Send message

Разбор статей конференции RecSys 2021

Reading time21 min
Views3.9K

Привет, Хабр! Прошедший год был богат на интересные научные результаты в области рекомендательных систем. Крупнейшая конференция по рекомендательным системам RecSys 2021 в этом году приняла рекордные 49 статей в основную программу, 3 – в трек воспроизводимости и 23 исследования – в late breaking results.

В традиционном разборе RecSys в Одноклассниках в этом году приняли участие коллеги из других проектов VK. Вместе мы выбрали 10 самых интересных на наш взгляд статей и сделали их конспекты, а теперь как и в прошлом году, делимся ими с вами.

Вперед к статьям
Total votes 14: ↑13 and ↓1+14
Comments4

Отчёт с конференции Data Fest

Reading time3 min
Views11K
image

В начале марта в офисе Mail.Ru Group прошла двухдневная конференция Data Fest2, посвящённая всевозможным актуальным вопросам в сфере анализа данных, как практическим, так и теоретическим. Кроме того, в рамках конференции прошёл хакатон, участники которого пытались как можно точнее предсказать результаты турнира по Dota 2, а также питч-постер сессия для исследователей, на которой были представлены различные разработки и исследовательские проекты. Предлагаем вашему вниманию видеозаписи всех выступлений на Data Fest2.
Читать дальше →
Total votes 22: ↑18 and ↓4+14
Comments0

Как я победил в конкурсе BigData от Beeline

Reading time7 min
Views88K
image

Все уже много раз слышали про конкурс по машинному обучению от Билайн и даже читали статьи (раз, два). Теперь конкурс закончился, и так вышло, что первое место досталось мне. И хотя от предыдущих участников меня и отделяли всего сотые доли процента, я все же хотел бы рассказать, что же такого особенного сделал. На самом деле — ничего невероятного.
Читать дальше →
Total votes 100: ↑92 and ↓8+84
Comments32

Что не так с перезапуском «Кинопоиска»

Reading time9 min
Views119K
Если долго писать о ребутах — однажды ребут придёт за тобой. Киношный термин, означающий перезапуск какой-нибудь серии фильмов новой командой и с новыми актёрами, теперь можно использовать для описания судьбы «Кинопоиска»: прикупивший его «Яндекс» перезапустил «Кинопоиск» с новым дизайном и новыми приоритетами.


Инженеры Яндекса разговаривают с эталонным пользователем

И два года после покупки спустя, без предупреждения, объявления войны, возможности откатить дизайн и хотя бы временно посидеть в старом интерфейсе, «Яндекс» превратил «Кинопоиск» в гигантский онлайн-кинотеатр для, по всей видимости, очень странных людей (в чём их странность — расскажу дальше).

Update: Старый «Кинопоиск» ещё вернётся ненадолго
Update 2: На kinopoisk.ru вернули прежний «Кинопоиск»
P.S. «Яндекс» уволил остатки старой команды «Кинопоиска» за разглашение информации
Читать дальше →
Total votes 223: ↑214 and ↓9+205
Comments392

Big Data и Machine Learning? Вам на HighLoad++

Reading time8 min
Views15K


Вопреки названию и первому впечатлению, которое возникает у большинства обывателей — «Big Data» не является просто «большими данными» и даже не объединяет под собой все массивы с неограниченными (или постоянно обновляющимися и расширяющимися) данными.

На самом деле «Big Data» — это в первую очередь подходы, инструменты и методы обработки непосредственно данных. Которые, в свою очередь, чаще всего не структурированы, многообразны и разнородны.

И, что наиболее важно, «Big Data» — это новая секция 2015 года в рамках программы HighLoad++, впервые предложенная, к слову, именно на встрече докладчиков. Первые, единичные, доклады, появились еще в прошлых годах:


Читать дальше →
Total votes 17: ↑15 and ↓2+13
Comments9

Как Spotify масштабирует Apache Storm

Reading time4 min
Views11K
Spotify — шведский сервис потокового воспроизведения музыки с которым сотрудничают такие компании как Sony, EMI, Warner, и Universal. Сервис Spotify был запущен в октябре 2008 года, сейчас он предоставляет более 30 млн композиций. Многие считают его попыткой повторить успех Napster и легализовать его модель. Шведам все это удалось едва ли не лучше всех в мире.

Сам сервис работает следующим образом (общее описание): алгоритм анализирует плейлисты пользователей с учетом точечной классификации по жанрам и сравнивает полученные «профили предпочтений» с миллионами других плейлистов. В результате — вы получаете песни, которые подходят вашим вкусам и не воспроизводились ранее.


/ фото Sunil Soundarapandian CC
Читать дальше →
Total votes 21: ↑16 and ↓5+11
Comments3

Аппаратное обеспечение для глубокого обучения

Reading time3 min
Views18K
Глубокое обучение — процесс, требующий больших вычислительных мощностей. Конечно, нет ничего хорошего в том, чтобы тратить деньги на покупку аппаратного обеспечения с обложки журнала, которое потом полетит на помойку. Нужно подходить к этому делу с умом.

Попробуем взглянуть на примеры аппаратных решений, связанные с работой по осваиванию темы deep learning'а. Ну и затронем немного теории.

Читать дальше →
Total votes 25: ↑25 and ↓0+25
Comments2

Стабилизация таймлапс-видео на калькуляторе (IPython+OpenCV)

Reading time6 min
Views13K
Подобно многим стихийным и сезонным любителям астрофотографии, в этом августе я ловил ночью Персеиды. Улов небольшой есть, но сейчас не о нём, а о том, что побочным результатом такого лова стала серия фотографий, которые напрашивались на то, чтобы сделать из них таймлапс. Но вот незадача: установка камеры оказалась не столь уж жесткой, как хотелось бы, и между кадрами появилось небольшое смещение. Попытался исправить его плагином дешейкинга в VirtualDub, но результаты не порадовали. Тогда было решено сделать свой велосипед: подробнее о результатах и том как они получены — под катом.
Читать дальше →
Total votes 20: ↑20 and ↓0+20
Comments0

«Всезнайки» от бизнеса – как большие данные меняют облик компаний

Reading time5 min
Views13K
image

Помните, в школе всегда были этакие «всезнайки»? Каким-то образом, вне зависимости от предмета, им удавалось увязывать в голове разрозненные блоки информации и приходить к пониманию вопроса.

Я привел этот пример потому, что, по-моему, он хорошо отражает будущее компаний: им приходится становиться «всезнайками» от бизнеса. Сейчас, благодаря Hadoop и другим технологиям так называемых Больших данных, компании могут рассматривать до недавнего времени разрозненную информацию как единое целое. Вообразите, что это может означать. Авиалинии будут знать, когда ценный для них клиент сталкивался с неприятностями в момент вылета, и, благодаря этому, постараются улучшить обслуживание во время обратного полета. Медики смогут увязывать разрозненные виды информации, такие как результаты МРТ, показатели давления, данные о фибрилляции предсердий для предсказания возможности инфаркта или инсульта.

Речь идет не только об объемах данных – а именно это приходит в голову большинству при упоминании о Больших данных. Напротив, главное в том, что между этими данными – вне зависимости от их типа и источника – скрыты крайне важные взаимосвязи, как, например, между информацией из колл-центра, данными по пользованию веб-сайтом и показателями продаж. Для меня разница в этих подходах существенна. Проще говоря, размер тут не имеет значения.
Читать дальше →
Total votes 16: ↑11 and ↓5+6
Comments11

Глубокое обучение на R, тренируем word2vec

Reading time10 min
Views23K
Word2vec является практически единственным алгоритмом deep learning, который сравнительно легко можно запустить на обычном ПК (а не на видеокартах) и который строит распределенное представление слов за приемлемое время, по крайней мере так считают на Kaggle. Прочитав здесь про то, какие фокусы можно делать с тренированной моделью, я понял, что такую штуку просто обязан попробовать. Проблема только одна, я преимущественно работаю на языке R, а вот официальную реализацию word2vec под R мне найти не удалось, думаю её просто нет.
Читать дальше →
Total votes 14: ↑14 and ↓0+14
Comments15

«Под капотом» Netflix: Анализ мирового кинематографа

Reading time3 min
Views34K


/ фото Brian Cantoni CC

Ранее в нашем блоге мы уже рассказывали о том, как большие данные меняют облик компаний и обсуждали интересные способы использования облачных сервисов. Сегодня мы поговорим о том, как изменился кинематографический ландшафт с приходом на рынок сервисов вроде Netflix.
Читать дальше →
Total votes 43: ↑42 and ↓1+41
Comments10

Сравнительный обзор премиальных наушников

Reading time5 min
Views15K


В этом обзоре рассмотрены четыре модели топовых проводных наушников Audio-Technica ATH-MSR7, Bowers & Wilkins P7, OPPO PM-3 и Sony MDR-Z7. Все они рассчитаны на не только использование в домашних условиях, но и на ходу, с портативными устройствами.
Читать дальше →
Total votes 26: ↑19 and ↓7+12
Comments27

Лекции Техносферы. 2 семестр. Методы распределенной обработки больших объемов данных в Hadoop

Reading time5 min
Views35K
Предлагаем вашему вниманию новый курс лекций Техносферы. Он представляет собой введение в Hadoop, фокусируясь на проектировании и реализации распределенных алгоритмов, которые могут применяться в различных сферах: обработка текстов, графов, связанных данных и т.п. Также рассматриваются различные компоненты платформы Hadoop и программные модели. Целью курса является знакомство студентов со стеком технологий Hadoop, применяемых для хранения, доступа и обработки больших объемов данных. Преподаватели курса: Алексей Романенко, Михаил Фирулик, Николай Анохин.

Лекция 1. Введение в Big Data и MapReduce


Что такое «большие данные». История возникновения этого явления. Необходимые знания и навыки для работы с большими данными. Что такое Hadoop, где он применяется. Что такое «облачные вычисления», история возникновения и развития технологии. Web 2.0. Вычисление как услуга (utility computing). Виртуализация. Инфраструктура как сервис (IaaS). Вопросы параллелизма. Управление множеством воркеров. Дата-центры и масштабируемость. Типичные задачи Big Data. MapReduce: что это такое, примеры. Распределённая файловая система. Google File System. HDFS как клон GFS, его архитектура.


Читать дальше →
Total votes 34: ↑34 and ↓0+34
Comments3

RapidMiner – Data Mining и BigData у вас дома, быстро и без подготовки (почти)

Reading time8 min
Views46K


Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.

Закачка, установка и получение первых результатов — минут 20 максимум.

Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.
Читать дальше →
Total votes 30: ↑26 and ↓4+22
Comments22

Лекции Техносферы. 1 семестр. Методы использования СУБД в интернет-приложениях

Reading time4 min
Views31K


Сегодня мы предлагаем вашему вниманию очередную публикацию в рамках постоянной рубрики «Лекции Техносферы». В этот раз вы можете изучить материалы по курсу «Методы использования СУБД в интернет-приложениях». Цель курса — изучение топологии, многообразия и основных принципов функционирования систем хранения данных, а также алгоритмов, заложенных в основу как централизованных, так и распределённых систем, демонстрация фундаментальных компромиссов присущих тем или иным решениям. Преподаватели курса: Константин Осипов kostja, Евгений Блих bigbes, Роман Цисык.
Читать дальше →
Total votes 36: ↑32 and ↓4+28
Comments2

DataTalks #2: Визуализация данных

Reading time2 min
Views20K
Вторая встреча сообщества DataTalks была посвящена визуализации данных – одному из самых важных и сильных инструментов в руках аналитиков. Ведь именно от того, как представлены результаты исследовательской работы, зависят решения и выводы заказчика. Помимо этого, визуализация помогает проводить предварительный анализ данных и быстро находить новые взаимосвязи.
Под катом вы найдете записи выступлений представителей компаний Wargaming, Ambitious Suits Consulting, Targetprocess, А2 Консалтинг и интернет-портала TUT.BY. Докладчики поделились опытом наглядного и информативного представления данных.
Сама встреча традиционно прошла «под танком», в главном офисе компании СООО «Гейм Стрим», минского офиса разработки Wargaming.
image
Читать дальше →
Total votes 15: ↑11 and ↓4+7
Comments7

AI, BigData & HPC дайджест #0. Пилотный выпуск

Reading time2 min
Views10K
Привет, Хабр!
Меня зовут Дмитрий Сподарец. Я основатель проекта FlyElephant, который предоставляет научным сотрудникам и инженерам среду для выполнения вычислительных программ. В нашей команде мы активно следим за тремя направлениями: искусственный интеллект, большие данные и высокопроизводительные вычисления. Нам постоянно попадаются интересные материалы, с которыми мы будем знакомить вас в рамках этого дайджеста.


Читать дальше →
Total votes 17: ↑16 and ↓1+15
Comments7

Записки на полях Big Data Week Moscow

Reading time4 min
Views9.6K


В продолжение к нашему предыдущему посту с презентациями с Big Data Week Moscow, мы собрали несколько заявлений российских и международных спикеров, которые нам особенно запомнились и показались заслуживающими внимания.
Читать дальше →
Total votes 14: ↑13 and ↓1+12
Comments4

Лекции Техносферы. 2 семестр. Современные методы и средства построения систем информационного поиска

Reading time6 min
Views21K


Снова в эфире наша образовательная рубрика. На этот раз предлагаем ознакомиться с очередным курсом Техносферы, посвящённым информационному поиску. Цель курса — рассказать об основных методах, применяемых при создании поисковых систем. Некоторые из них представляют собой хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат. Преподаватели курса: Алексей Воропаев, Владимир Гулин, Дмитрий Соловьев, Игорь Андреев, Алексей Романенко, Ян Кисель.
Читать дальше →
Total votes 21: ↑21 and ↓0+21
Comments0

Рекомендательные системы: LDA

Reading time3 min
Views31K
В прошлый раз я рассказывал о теореме Байеса и приводил простой пример – наивный байесовский классификатор. В этот раз мы перейдём к более сложной теме, которая развивает и продолжает дело наивного байеса: мы научимся выделять темы при помощи модели LDA (latent Dirichlet allocation), а также применим это к рекомендательным системам.


Читать дальше →
Total votes 14: ↑13 and ↓1+12
Comments7
1
23 ...

Information

Rating
Does not participate
Location
Химки, Москва и Московская обл., Россия
Works in
Registered
Activity