Как стать автором
Обновить
1
0

Пользователь

Отправить сообщение

Разбор статей конференции RecSys 2021

Время на прочтение21 мин
Количество просмотров3.9K

Привет, Хабр! Прошедший год был богат на интересные научные результаты в области рекомендательных систем. Крупнейшая конференция по рекомендательным системам RecSys 2021 в этом году приняла рекордные 49 статей в основную программу, 3 – в трек воспроизводимости и 23 исследования – в late breaking results.

В традиционном разборе RecSys в Одноклассниках в этом году приняли участие коллеги из других проектов VK. Вместе мы выбрали 10 самых интересных на наш взгляд статей и сделали их конспекты, а теперь как и в прошлом году, делимся ими с вами.

Вперед к статьям
Всего голосов 14: ↑13 и ↓1+14
Комментарии4

Отчёт с конференции Data Fest

Время на прочтение3 мин
Количество просмотров12K
image

В начале марта в офисе Mail.Ru Group прошла двухдневная конференция Data Fest2, посвящённая всевозможным актуальным вопросам в сфере анализа данных, как практическим, так и теоретическим. Кроме того, в рамках конференции прошёл хакатон, участники которого пытались как можно точнее предсказать результаты турнира по Dota 2, а также питч-постер сессия для исследователей, на которой были представлены различные разработки и исследовательские проекты. Предлагаем вашему вниманию видеозаписи всех выступлений на Data Fest2.
Читать дальше →
Всего голосов 22: ↑18 и ↓4+14
Комментарии0

Как я победил в конкурсе BigData от Beeline

Время на прочтение7 мин
Количество просмотров88K
image

Все уже много раз слышали про конкурс по машинному обучению от Билайн и даже читали статьи (раз, два). Теперь конкурс закончился, и так вышло, что первое место досталось мне. И хотя от предыдущих участников меня и отделяли всего сотые доли процента, я все же хотел бы рассказать, что же такого особенного сделал. На самом деле — ничего невероятного.
Читать дальше →
Всего голосов 100: ↑92 и ↓8+84
Комментарии32

Что не так с перезапуском «Кинопоиска»

Время на прочтение9 мин
Количество просмотров119K
Если долго писать о ребутах — однажды ребут придёт за тобой. Киношный термин, означающий перезапуск какой-нибудь серии фильмов новой командой и с новыми актёрами, теперь можно использовать для описания судьбы «Кинопоиска»: прикупивший его «Яндекс» перезапустил «Кинопоиск» с новым дизайном и новыми приоритетами.


Инженеры Яндекса разговаривают с эталонным пользователем

И два года после покупки спустя, без предупреждения, объявления войны, возможности откатить дизайн и хотя бы временно посидеть в старом интерфейсе, «Яндекс» превратил «Кинопоиск» в гигантский онлайн-кинотеатр для, по всей видимости, очень странных людей (в чём их странность — расскажу дальше).

Update: Старый «Кинопоиск» ещё вернётся ненадолго
Update 2: На kinopoisk.ru вернули прежний «Кинопоиск»
P.S. «Яндекс» уволил остатки старой команды «Кинопоиска» за разглашение информации
Читать дальше →
Всего голосов 223: ↑214 и ↓9+205
Комментарии392

Big Data и Machine Learning? Вам на HighLoad++

Время на прочтение8 мин
Количество просмотров15K


Вопреки названию и первому впечатлению, которое возникает у большинства обывателей — «Big Data» не является просто «большими данными» и даже не объединяет под собой все массивы с неограниченными (или постоянно обновляющимися и расширяющимися) данными.

На самом деле «Big Data» — это в первую очередь подходы, инструменты и методы обработки непосредственно данных. Которые, в свою очередь, чаще всего не структурированы, многообразны и разнородны.

И, что наиболее важно, «Big Data» — это новая секция 2015 года в рамках программы HighLoad++, впервые предложенная, к слову, именно на встрече докладчиков. Первые, единичные, доклады, появились еще в прошлых годах:


Читать дальше →
Всего голосов 17: ↑15 и ↓2+13
Комментарии9

Как Spotify масштабирует Apache Storm

Время на прочтение4 мин
Количество просмотров11K
Spotify — шведский сервис потокового воспроизведения музыки с которым сотрудничают такие компании как Sony, EMI, Warner, и Universal. Сервис Spotify был запущен в октябре 2008 года, сейчас он предоставляет более 30 млн композиций. Многие считают его попыткой повторить успех Napster и легализовать его модель. Шведам все это удалось едва ли не лучше всех в мире.

Сам сервис работает следующим образом (общее описание): алгоритм анализирует плейлисты пользователей с учетом точечной классификации по жанрам и сравнивает полученные «профили предпочтений» с миллионами других плейлистов. В результате — вы получаете песни, которые подходят вашим вкусам и не воспроизводились ранее.


/ фото Sunil Soundarapandian CC
Читать дальше →
Всего голосов 21: ↑16 и ↓5+11
Комментарии3

Аппаратное обеспечение для глубокого обучения

Время на прочтение3 мин
Количество просмотров18K
Глубокое обучение — процесс, требующий больших вычислительных мощностей. Конечно, нет ничего хорошего в том, чтобы тратить деньги на покупку аппаратного обеспечения с обложки журнала, которое потом полетит на помойку. Нужно подходить к этому делу с умом.

Попробуем взглянуть на примеры аппаратных решений, связанные с работой по осваиванию темы deep learning'а. Ну и затронем немного теории.

Читать дальше →
Всего голосов 25: ↑25 и ↓0+25
Комментарии2

Стабилизация таймлапс-видео на калькуляторе (IPython+OpenCV)

Время на прочтение6 мин
Количество просмотров13K
Подобно многим стихийным и сезонным любителям астрофотографии, в этом августе я ловил ночью Персеиды. Улов небольшой есть, но сейчас не о нём, а о том, что побочным результатом такого лова стала серия фотографий, которые напрашивались на то, чтобы сделать из них таймлапс. Но вот незадача: установка камеры оказалась не столь уж жесткой, как хотелось бы, и между кадрами появилось небольшое смещение. Попытался исправить его плагином дешейкинга в VirtualDub, но результаты не порадовали. Тогда было решено сделать свой велосипед: подробнее о результатах и том как они получены — под катом.
Читать дальше →
Всего голосов 20: ↑20 и ↓0+20
Комментарии0

«Всезнайки» от бизнеса – как большие данные меняют облик компаний

Время на прочтение5 мин
Количество просмотров14K
image

Помните, в школе всегда были этакие «всезнайки»? Каким-то образом, вне зависимости от предмета, им удавалось увязывать в голове разрозненные блоки информации и приходить к пониманию вопроса.

Я привел этот пример потому, что, по-моему, он хорошо отражает будущее компаний: им приходится становиться «всезнайками» от бизнеса. Сейчас, благодаря Hadoop и другим технологиям так называемых Больших данных, компании могут рассматривать до недавнего времени разрозненную информацию как единое целое. Вообразите, что это может означать. Авиалинии будут знать, когда ценный для них клиент сталкивался с неприятностями в момент вылета, и, благодаря этому, постараются улучшить обслуживание во время обратного полета. Медики смогут увязывать разрозненные виды информации, такие как результаты МРТ, показатели давления, данные о фибрилляции предсердий для предсказания возможности инфаркта или инсульта.

Речь идет не только об объемах данных – а именно это приходит в голову большинству при упоминании о Больших данных. Напротив, главное в том, что между этими данными – вне зависимости от их типа и источника – скрыты крайне важные взаимосвязи, как, например, между информацией из колл-центра, данными по пользованию веб-сайтом и показателями продаж. Для меня разница в этих подходах существенна. Проще говоря, размер тут не имеет значения.
Читать дальше →
Всего голосов 16: ↑11 и ↓5+6
Комментарии11

Глубокое обучение на R, тренируем word2vec

Время на прочтение10 мин
Количество просмотров23K
Word2vec является практически единственным алгоритмом deep learning, который сравнительно легко можно запустить на обычном ПК (а не на видеокартах) и который строит распределенное представление слов за приемлемое время, по крайней мере так считают на Kaggle. Прочитав здесь про то, какие фокусы можно делать с тренированной моделью, я понял, что такую штуку просто обязан попробовать. Проблема только одна, я преимущественно работаю на языке R, а вот официальную реализацию word2vec под R мне найти не удалось, думаю её просто нет.
Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Комментарии15

«Под капотом» Netflix: Анализ мирового кинематографа

Время на прочтение3 мин
Количество просмотров34K


/ фото Brian Cantoni CC

Ранее в нашем блоге мы уже рассказывали о том, как большие данные меняют облик компаний и обсуждали интересные способы использования облачных сервисов. Сегодня мы поговорим о том, как изменился кинематографический ландшафт с приходом на рынок сервисов вроде Netflix.
Читать дальше →
Всего голосов 43: ↑42 и ↓1+41
Комментарии10

Сравнительный обзор премиальных наушников

Время на прочтение5 мин
Количество просмотров15K


В этом обзоре рассмотрены четыре модели топовых проводных наушников Audio-Technica ATH-MSR7, Bowers & Wilkins P7, OPPO PM-3 и Sony MDR-Z7. Все они рассчитаны на не только использование в домашних условиях, но и на ходу, с портативными устройствами.
Читать дальше →
Всего голосов 26: ↑19 и ↓7+12
Комментарии27

Лекции Техносферы. 2 семестр. Методы распределенной обработки больших объемов данных в Hadoop

Время на прочтение5 мин
Количество просмотров35K
Предлагаем вашему вниманию новый курс лекций Техносферы. Он представляет собой введение в Hadoop, фокусируясь на проектировании и реализации распределенных алгоритмов, которые могут применяться в различных сферах: обработка текстов, графов, связанных данных и т.п. Также рассматриваются различные компоненты платформы Hadoop и программные модели. Целью курса является знакомство студентов со стеком технологий Hadoop, применяемых для хранения, доступа и обработки больших объемов данных. Преподаватели курса: Алексей Романенко, Михаил Фирулик, Николай Анохин.

Лекция 1. Введение в Big Data и MapReduce


Что такое «большие данные». История возникновения этого явления. Необходимые знания и навыки для работы с большими данными. Что такое Hadoop, где он применяется. Что такое «облачные вычисления», история возникновения и развития технологии. Web 2.0. Вычисление как услуга (utility computing). Виртуализация. Инфраструктура как сервис (IaaS). Вопросы параллелизма. Управление множеством воркеров. Дата-центры и масштабируемость. Типичные задачи Big Data. MapReduce: что это такое, примеры. Распределённая файловая система. Google File System. HDFS как клон GFS, его архитектура.


Читать дальше →
Всего голосов 34: ↑34 и ↓0+34
Комментарии3

RapidMiner – Data Mining и BigData у вас дома, быстро и без подготовки (почти)

Время на прочтение8 мин
Количество просмотров46K


Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.

Закачка, установка и получение первых результатов — минут 20 максимум.

Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.
Читать дальше →
Всего голосов 30: ↑26 и ↓4+22
Комментарии22

Лекции Техносферы. 1 семестр. Методы использования СУБД в интернет-приложениях

Время на прочтение4 мин
Количество просмотров31K


Сегодня мы предлагаем вашему вниманию очередную публикацию в рамках постоянной рубрики «Лекции Техносферы». В этот раз вы можете изучить материалы по курсу «Методы использования СУБД в интернет-приложениях». Цель курса — изучение топологии, многообразия и основных принципов функционирования систем хранения данных, а также алгоритмов, заложенных в основу как централизованных, так и распределённых систем, демонстрация фундаментальных компромиссов присущих тем или иным решениям. Преподаватели курса: Константин Осипов kostja, Евгений Блих bigbes, Роман Цисык.
Читать дальше →
Всего голосов 36: ↑32 и ↓4+28
Комментарии2

DataTalks #2: Визуализация данных

Время на прочтение2 мин
Количество просмотров20K
Вторая встреча сообщества DataTalks была посвящена визуализации данных – одному из самых важных и сильных инструментов в руках аналитиков. Ведь именно от того, как представлены результаты исследовательской работы, зависят решения и выводы заказчика. Помимо этого, визуализация помогает проводить предварительный анализ данных и быстро находить новые взаимосвязи.
Под катом вы найдете записи выступлений представителей компаний Wargaming, Ambitious Suits Consulting, Targetprocess, А2 Консалтинг и интернет-портала TUT.BY. Докладчики поделились опытом наглядного и информативного представления данных.
Сама встреча традиционно прошла «под танком», в главном офисе компании СООО «Гейм Стрим», минского офиса разработки Wargaming.
image
Читать дальше →
Всего голосов 15: ↑11 и ↓4+7
Комментарии7

AI, BigData & HPC дайджест #0. Пилотный выпуск

Время на прочтение2 мин
Количество просмотров10K
Привет, Хабр!
Меня зовут Дмитрий Сподарец. Я основатель проекта FlyElephant, который предоставляет научным сотрудникам и инженерам среду для выполнения вычислительных программ. В нашей команде мы активно следим за тремя направлениями: искусственный интеллект, большие данные и высокопроизводительные вычисления. Нам постоянно попадаются интересные материалы, с которыми мы будем знакомить вас в рамках этого дайджеста.


Читать дальше →
Всего голосов 17: ↑16 и ↓1+15
Комментарии7

Записки на полях Big Data Week Moscow

Время на прочтение4 мин
Количество просмотров9.6K


В продолжение к нашему предыдущему посту с презентациями с Big Data Week Moscow, мы собрали несколько заявлений российских и международных спикеров, которые нам особенно запомнились и показались заслуживающими внимания.
Читать дальше →
Всего голосов 14: ↑13 и ↓1+12
Комментарии4

Лекции Техносферы. 2 семестр. Современные методы и средства построения систем информационного поиска

Время на прочтение6 мин
Количество просмотров21K


Снова в эфире наша образовательная рубрика. На этот раз предлагаем ознакомиться с очередным курсом Техносферы, посвящённым информационному поиску. Цель курса — рассказать об основных методах, применяемых при создании поисковых систем. Некоторые из них представляют собой хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат. Преподаватели курса: Алексей Воропаев, Владимир Гулин, Дмитрий Соловьев, Игорь Андреев, Алексей Романенко, Ян Кисель.
Читать дальше →
Всего голосов 21: ↑21 и ↓0+21
Комментарии0

Рекомендательные системы: LDA

Время на прочтение3 мин
Количество просмотров31K
В прошлый раз я рассказывал о теореме Байеса и приводил простой пример – наивный байесовский классификатор. В этот раз мы перейдём к более сложной теме, которая развивает и продолжает дело наивного байеса: мы научимся выделять темы при помощи модели LDA (latent Dirichlet allocation), а также применим это к рекомендательным системам.


Читать дальше →
Всего голосов 14: ↑13 и ↓1+12
Комментарии7
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Химки, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность