Articles / Bookmarks / Profile of Nord786 / Habr

How to become an author

User

Profile Publications Comments 2Bookmarks 452

netcitizen Nov 16 2021 at 16:17

Разбор статей конференции RecSys 2021

21 min

3.9K

ОК corporate blogMachine learning*

Привет, Хабр! Прошедший год был богат на интересные научные результаты в области рекомендательных систем. Крупнейшая конференция по рекомендательным системам RecSys 2021 в этом году приняла рекордные 49 статей в основную программу, 3 – в трек воспроизводимости и 23 исследования – в late breaking results.

В традиционном разборе RecSys в Одноклассниках в этом году приняли участие коллеги из других проектов VK. Вместе мы выбрали 10 самых интересных на наш взгляд статей и сделали их конспекты, а теперь как и в прошлом году, делимся ими с вами.

Вперед к статьям

+14

pkruglov Mar 21 2016 at 16:54

Отчёт с конференции Data Fest

3 min

11K

VK corporate blogMachine learning*Algorithms*Data Mining*

В начале марта в офисе Mail.Ru Group прошла двухдневная конференция Data Fest², посвящённая всевозможным актуальным вопросам в сфере анализа данных, как практическим, так и теоретическим. Кроме того, в рамках конференции прошёл хакатон, участники которого пытались как можно точнее предсказать результаты турнира по Dota 2, а также питч-постер сессия для исследователей, на которой были представлены различные разработки и исследовательские проекты. Предлагаем вашему вниманию видеозаписи всех выступлений на Data Fest².

Читать дальше →

+14

nurumaik Nov 7 2015 at 09:11

Как я победил в конкурсе BigData от Beeline

7 min

88K

Machine learning*

Все уже много раз слышали про конкурс по машинному обучению от Билайн и даже читали статьи (раз, два). Теперь конкурс закончился, и так вышло, что первое место досталось мне. И хотя от предыдущих участников меня и отделяли всего сотые доли процента, я все же хотел бы рассказать, что же такого особенного сделал. На самом деле — ничего невероятного.

Читать дальше →

+84

EgorKotkin Oct 9 2015 at 01:45

Что не так с перезапуском «Кинопоиска»

9 min

119K

DesignE-commerce management*IT-companies

Если долго писать о ребутах — однажды ребут придёт за тобой. Киношный термин, означающий перезапуск какой-нибудь серии фильмов новой командой и с новыми актёрами, теперь можно использовать для описания судьбы «Кинопоиска»: прикупивший его «Яндекс» перезапустил «Кинопоиск» с новым дизайном и новыми приоритетами.

Инженеры Яндекса разговаривают с эталонным пользователем

И два года после покупки спустя, без предупреждения, объявления войны, возможности откатить дизайн и хотя бы временно посидеть в старом интерфейсе, «Яндекс» превратил «Кинопоиск» в гигантский онлайн-кинотеатр для, по всей видимости, очень странных людей (в чём их странность — расскажу дальше).

Update: Старый «Кинопоиск» ещё вернётся ненадолго
Update 2: На kinopoisk.ru вернули прежний «Кинопоиск»
P.S. «Яндекс» уволил остатки старой команды «Кинопоиска» за разглашение информации

Читать дальше →

+205

oleg_bunin Sep 22 2015 at 13:17

Big Data и Machine Learning? Вам на HighLoad++

8 min

15K

Конференции Олега Бунина (Онтико) corporate blogMachine learning*Algorithms*Data Mining*Big Data*

Вопреки названию и первому впечатлению, которое возникает у большинства обывателей — «Big Data» не является просто «большими данными» и даже не объединяет под собой все массивы с неограниченными (или постоянно обновляющимися и расширяющимися) данными.

На самом деле «Big Data» — это в первую очередь подходы, инструменты и методы обработки непосредственно данных. Которые, в свою очередь, чаще всего не структурированы, многообразны и разнородны.

И, что наиболее важно, «Big Data» — это новая секция 2015 года в рамках программы HighLoad++, впервые предложенная, к слову, именно на встрече докладчиков. Первые, единичные, доклады, появились еще в прошлых годах:

Читать дальше →

+13

it_man Aug 11 2015 at 15:37

Как Spotify масштабирует Apache Storm

4 min

11K

MWS corporate blogDevelopment for e-commerce*Development of mobile applications*Website development*System Analysis and Design*

Spotify — шведский сервис потокового воспроизведения музыки с которым сотрудничают такие компании как Sony, EMI, Warner, и Universal. Сервис Spotify был запущен в октябре 2008 года, сейчас он предоставляет более 30 млн композиций. Многие считают его попыткой повторить успех Napster и легализовать его модель. Шведам все это удалось едва ли не лучше всех в мире.

Сам сервис работает следующим образом (общее описание): алгоритм анализирует плейлисты пользователей с учетом точечной классификации по жанрам и сравнивает полученные «профили предпочтений» с миллионами других плейлистов. В результате — вы получаете песни, которые подходят вашим вкусам и не воспроизводились ранее.

/ фото Sunil Soundarapandian CC

Читать дальше →

+11

it_man Aug 20 2015 at 13:45

Аппаратное обеспечение для глубокого обучения

3 min

18K

MWS corporate blogSystem Analysis and Design*High performance*Machine learning*Programming*

Глубокое обучение — процесс, требующий больших вычислительных мощностей. Конечно, нет ничего хорошего в том, чтобы тратить деньги на покупку аппаратного обеспечения с обложки журнала, которое потом полетит на помойку. Нужно подходить к этому делу с умом.

Попробуем взглянуть на примеры аппаратных решений, связанные с работой по осваиванию темы deep learning'а. Ну и затронем немного теории.

Читать дальше →

+25

master_Nemo Aug 20 2015 at 12:25

Стабилизация таймлапс-видео на калькуляторе (IPython+OpenCV)

6 min

13K

Python*Abnormal programming*Image processing*

Подобно многим стихийным и сезонным любителям астрофотографии, в этом августе я ловил ночью Персеиды. Улов небольшой есть, но сейчас не о нём, а о том, что побочным результатом такого лова стала серия фотографий, которые напрашивались на то, чтобы сделать из них таймлапс. Но вот незадача: установка камеры оказалась не столь уж жесткой, как хотелось бы, и между кадрами появилось небольшое смещение. Попытался исправить его плагином дешейкинга в VirtualDub, но результаты не порадовали. Тогда было решено сделать свой велосипед: подробнее о результатах и том как они получены — под катом.

Читать дальше →

+20

1cloud Sep 25 2014 at 15:11

«Всезнайки» от бизнеса – как большие данные меняют облик компаний

5 min

13K

1cloud.ru corporate blogBig Data*

Translation

Помните, в школе всегда были этакие «всезнайки»? Каким-то образом, вне зависимости от предмета, им удавалось увязывать в голове разрозненные блоки информации и приходить к пониманию вопроса.

Я привел этот пример потому, что, по-моему, он хорошо отражает будущее компаний: им приходится становиться «всезнайками» от бизнеса. Сейчас, благодаря Hadoop и другим технологиям так называемых Больших данных, компании могут рассматривать до недавнего времени разрозненную информацию как единое целое. Вообразите, что это может означать. Авиалинии будут знать, когда ценный для них клиент сталкивался с неприятностями в момент вылета, и, благодаря этому, постараются улучшить обслуживание во время обратного полета. Медики смогут увязывать разрозненные виды информации, такие как результаты МРТ, показатели давления, данные о фибрилляции предсердий для предсказания возможности инфаркта или инсульта.

Речь идет не только об объемах данных – а именно это приходит в голову большинству при упоминании о Больших данных. Напротив, главное в том, что между этими данными – вне зависимости от их типа и источника – скрыты крайне важные взаимосвязи, как, например, между информацией из колл-центра, данными по пользованию веб-сайтом и показателями продаж. Для меня разница в этих подходах существенна. Проще говоря, размер тут не имеет значения.

Читать дальше →

+6

khmelkoff May 29 2015 at 10:04

Глубокое обучение на R, тренируем word2vec

10 min

23K

Data Mining*R*Machine learning*

Word2vec является практически единственным алгоритмом deep learning, который сравнительно легко можно запустить на обычном ПК (а не на видеокартах) и который строит распределенное представление слов за приемлемое время, по крайней мере так считают на Kaggle. Прочитав здесь про то, какие фокусы можно делать с тренированной моделью, я понял, что такую штуку просто обязан попробовать. Проблема только одна, я преимущественно работаю на языке R, а вот официальную реализацию word2vec под R мне найти не удалось, думаю её просто нет.

Читать дальше →

+14

1cloud May 25 2015 at 21:57

«Под капотом» Netflix: Анализ мирового кинематографа

3 min

34K

1cloud.ru corporate blogBig Data*Machine learning*Website development*

/ фото Brian Cantoni CC

Ранее в нашем блоге мы уже рассказывали о том, как большие данные меняют облик компаний и обсуждали интересные способы использования облачных сервисов. Сегодня мы поговорим о том, как изменился кинематографический ландшафт с приходом на рынок сервисов вроде Netflix.

Читать дальше →

+41

Hitechmailru May 29 2015 at 15:01

Сравнительный обзор премиальных наушников

5 min

15K

VK corporate blogGadgetsSound

В этом обзоре рассмотрены четыре модели топовых проводных наушников Audio-Technica ATH-MSR7, Bowers & Wilkins P7, OPPO PM-3 и Sony MDR-Z7. Все они рассчитаны на не только использование в домашних условиях, но и на ходу, с портативными устройствами.

Читать дальше →

+12

Dmitry21 May 17 2015 at 18:09

Лекции Техносферы. 2 семестр. Методы распределенной обработки больших объемов данных в Hadoop

5 min

35K

VK corporate blogMathematics*High performance*Hadoop*Big Data*

Tutorial

Предлагаем вашему вниманию новый курс лекций Техносферы. Он представляет собой введение в Hadoop, фокусируясь на проектировании и реализации распределенных алгоритмов, которые могут применяться в различных сферах: обработка текстов, графов, связанных данных и т.п. Также рассматриваются различные компоненты платформы Hadoop и программные модели. Целью курса является знакомство студентов со стеком технологий Hadoop, применяемых для хранения, доступа и обработки больших объемов данных. Преподаватели курса: Алексей Романенко, Михаил Фирулик, Николай Анохин.

Лекция 1. Введение в Big Data и MapReduce

Что такое «большие данные». История возникновения этого явления. Необходимые знания и навыки для работы с большими данными. Что такое Hadoop, где он применяется. Что такое «облачные вычисления», история возникновения и развития технологии. Web 2.0. Вычисление как услуга (utility computing). Виртуализация. Инфраструктура как сервис (IaaS). Вопросы параллелизма. Управление множеством воркеров. Дата-центры и масштабируемость. Типичные задачи Big Data. MapReduce: что это такое, примеры. Распределённая файловая система. Google File System. HDFS как клон GFS, его архитектура.

Читать дальше →

+34

convex Mar 31 2015 at 16:32

RapidMiner – Data Mining и BigData у вас дома, быстро и без подготовки (почти)

8 min

46K

КРОК corporate blogSystem Analysis and Design*Open source*Data Mining*Big Data*

Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.

Закачка, установка и получение первых результатов — минут 20 максимум.

Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.

Читать дальше →

+22

Dmitry21 Apr 19 2015 at 16:08

Лекции Техносферы. 1 семестр. Методы использования СУБД в интернет-приложениях

4 min

31K

VK corporate blogBig Data*Algorithms*

Tutorial

Сегодня мы предлагаем вашему вниманию очередную публикацию в рамках постоянной рубрики «Лекции Техносферы». В этот раз вы можете изучить материалы по курсу «Методы использования СУБД в интернет-приложениях». Цель курса — изучение топологии, многообразия и основных принципов функционирования систем хранения данных, а также алгоритмов, заложенных в основу как централизованных, так и распределённых систем, демонстрация фундаментальных компромиссов присущих тем или иным решениям. Преподаватели курса: Константин Осипов kostja, Евгений Блих bigbes, Роман Цисык.

Читать дальше →

+28

Wargaming Apr 25 2015 at 11:45

DataTalks #2: Визуализация данных

2 min

20K

ex-Wargaming corporate blogData visualization*Big Data*

Вторая встреча сообщества DataTalks была посвящена визуализации данных – одному из самых важных и сильных инструментов в руках аналитиков. Ведь именно от того, как представлены результаты исследовательской работы, зависят решения и выводы заказчика. Помимо этого, визуализация помогает проводить предварительный анализ данных и быстро находить новые взаимосвязи.
Под катом вы найдете записи выступлений представителей компаний Wargaming, Ambitious Suits Consulting, Targetprocess, А2 Консалтинг и интернет-портала TUT.BY. Докладчики поделились опытом наглядного и информативного представления данных.
Сама встреча традиционно прошла «под танком», в главном офисе компании СООО «Гейм Стрим», минского офиса разработки Wargaming.

Читать дальше →

+7

m31 May 7 2015 at 11:42

AI, BigData & HPC дайджест #0. Пилотный выпуск

2 min

10K

FlyElephant corporate blogHigh performance*R*Data Mining*Big Data*

Привет, Хабр!
Меня зовут Дмитрий Сподарец. Я основатель проекта FlyElephant, который предоставляет научным сотрудникам и инженерам среду для выполнения вычислительных программ. В нашей команде мы активно следим за тремя направлениями: искусственный интеллект, большие данные и высокопроизводительные вычисления. Нам постоянно попадаются интересные материалы, с которыми мы будем знакомить вас в рамках этого дайджеста.

Читать дальше →

+15

Olga_Volodko May 7 2015 at 16:42

Записки на полях Big Data Week Moscow

4 min

9.6K

New Professions Lab corporate blogMachine learning*Data Mining*Big Data*

В продолжение к нашему предыдущему посту с презентациями с Big Data Week Moscow, мы собрали несколько заявлений российских и международных спикеров, которые нам особенно запомнились и показались заслуживающими внимания.

Читать дальше →

+12

Dmitry21 May 5 2015 at 12:58

Лекции Техносферы. 2 семестр. Современные методы и средства построения систем информационного поиска

6 min

21K

VK corporate blogAlgorithms*Mathematics*Search engines*

Tutorial

Снова в эфире наша образовательная рубрика. На этот раз предлагаем ознакомиться с очередным курсом Техносферы, посвящённым информационному поиску. Цель курса — рассказать об основных методах, применяемых при создании поисковых систем. Некоторые из них представляют собой хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат. Преподаватели курса: Алексей Воропаев, Владимир Гулин, Дмитрий Соловьев, Игорь Андреев, Алексей Романенко, Ян Кисель.

Читать дальше →

+21

snikolenko Aug 31 2012 at 18:45

Рекомендательные системы: LDA

3 min

31K

Surfingbird corporate blog

Tutorial

В прошлый раз я рассказывал о теореме Байеса и приводил простой пример – наивный байесовский классификатор. В этот раз мы перейдём к более сложной теме, которая развивает и продолжает дело наивного байеса: мы научимся выделять темы при помощи модели LDA (latent Dirichlet allocation), а также применим это к рекомендательным системам.

Читать дальше →

+12

1

2 3 ...