Статьи / Закладки / Профиль Nord786 / Хабр

Как стать автором

Пользователь

Профиль Публикации Комментарии 2Закладки 452

netcitizen 16 ноя 2021 в 16:17

Разбор статей конференции RecSys 2021

21 мин

3.9K

Блог компании ОКМашинное обучение*

Привет, Хабр! Прошедший год был богат на интересные научные результаты в области рекомендательных систем. Крупнейшая конференция по рекомендательным системам RecSys 2021 в этом году приняла рекордные 49 статей в основную программу, 3 – в трек воспроизводимости и 23 исследования – в late breaking results.

В традиционном разборе RecSys в Одноклассниках в этом году приняли участие коллеги из других проектов VK. Вместе мы выбрали 10 самых интересных на наш взгляд статей и сделали их конспекты, а теперь как и в прошлом году, делимся ими с вами.

Вперед к статьям

+14

pkruglov 21 мар 2016 в 16:54

Отчёт с конференции Data Fest

3 мин

12K

Блог компании VKData Mining*Машинное обучение*Алгоритмы*

В начале марта в офисе Mail.Ru Group прошла двухдневная конференция Data Fest², посвящённая всевозможным актуальным вопросам в сфере анализа данных, как практическим, так и теоретическим. Кроме того, в рамках конференции прошёл хакатон, участники которого пытались как можно точнее предсказать результаты турнира по Dota 2, а также питч-постер сессия для исследователей, на которой были представлены различные разработки и исследовательские проекты. Предлагаем вашему вниманию видеозаписи всех выступлений на Data Fest².

Читать дальше →

+14

nurumaik 7 ноя 2015 в 09:11

Как я победил в конкурсе BigData от Beeline

7 мин

88K

Машинное обучение*

Из песочницы

Все уже много раз слышали про конкурс по машинному обучению от Билайн и даже читали статьи (раз, два). Теперь конкурс закончился, и так вышло, что первое место досталось мне. И хотя от предыдущих участников меня и отделяли всего сотые доли процента, я все же хотел бы рассказать, что же такого особенного сделал. На самом деле — ничего невероятного.

Читать дальше →

+84

EgorKotkin 9 окт 2015 в 01:45

Что не так с перезапуском «Кинопоиска»

9 мин

119K

IT-компанииУправление e-commerce*Дизайн

Если долго писать о ребутах — однажды ребут придёт за тобой. Киношный термин, означающий перезапуск какой-нибудь серии фильмов новой командой и с новыми актёрами, теперь можно использовать для описания судьбы «Кинопоиска»: прикупивший его «Яндекс» перезапустил «Кинопоиск» с новым дизайном и новыми приоритетами.

Инженеры Яндекса разговаривают с эталонным пользователем

И два года после покупки спустя, без предупреждения, объявления войны, возможности откатить дизайн и хотя бы временно посидеть в старом интерфейсе, «Яндекс» превратил «Кинопоиск» в гигантский онлайн-кинотеатр для, по всей видимости, очень странных людей (в чём их странность — расскажу дальше).

Update: Старый «Кинопоиск» ещё вернётся ненадолго
Update 2: На kinopoisk.ru вернули прежний «Кинопоиск»
P.S. «Яндекс» уволил остатки старой команды «Кинопоиска» за разглашение информации

Читать дальше →

+205

oleg_bunin 22 сен 2015 в 13:17

Big Data и Machine Learning? Вам на HighLoad++

8 мин

15K

Блог компании Конференции Олега Бунина (Онтико)Big Data*Data Mining*Алгоритмы*Машинное обучение*

Вопреки названию и первому впечатлению, которое возникает у большинства обывателей — «Big Data» не является просто «большими данными» и даже не объединяет под собой все массивы с неограниченными (или постоянно обновляющимися и расширяющимися) данными.

На самом деле «Big Data» — это в первую очередь подходы, инструменты и методы обработки непосредственно данных. Которые, в свою очередь, чаще всего не структурированы, многообразны и разнородны.

И, что наиболее важно, «Big Data» — это новая секция 2015 года в рамках программы HighLoad++, впервые предложенная, к слову, именно на встрече докладчиков. Первые, единичные, доклады, появились еще в прошлых годах:

Читать дальше →

+13

it_man 11 авг 2015 в 15:37

Как Spotify масштабирует Apache Storm

4 мин

11K

Блог компании MWSРазработка под e-commerce*Разработка мобильных приложений*Веб-разработка*Анализ и проектирование систем*

Spotify — шведский сервис потокового воспроизведения музыки с которым сотрудничают такие компании как Sony, EMI, Warner, и Universal. Сервис Spotify был запущен в октябре 2008 года, сейчас он предоставляет более 30 млн композиций. Многие считают его попыткой повторить успех Napster и легализовать его модель. Шведам все это удалось едва ли не лучше всех в мире.

Сам сервис работает следующим образом (общее описание): алгоритм анализирует плейлисты пользователей с учетом точечной классификации по жанрам и сравнивает полученные «профили предпочтений» с миллионами других плейлистов. В результате — вы получаете песни, которые подходят вашим вкусам и не воспроизводились ранее.

/ фото Sunil Soundarapandian CC

Читать дальше →

+11

it_man 20 авг 2015 в 13:45

Аппаратное обеспечение для глубокого обучения

3 мин

18K

Блог компании MWSАнализ и проектирование систем*Высокая производительность*Машинное обучение*Программирование*

Глубокое обучение — процесс, требующий больших вычислительных мощностей. Конечно, нет ничего хорошего в том, чтобы тратить деньги на покупку аппаратного обеспечения с обложки журнала, которое потом полетит на помойку. Нужно подходить к этому делу с умом.

Попробуем взглянуть на примеры аппаратных решений, связанные с работой по осваиванию темы deep learning'а. Ну и затронем немного теории.

Читать дальше →

+25

master_Nemo 20 авг 2015 в 12:25

Стабилизация таймлапс-видео на калькуляторе (IPython+OpenCV)

6 мин

13K

Python*Ненормальное программирование*Обработка изображений*

Из песочницы

Подобно многим стихийным и сезонным любителям астрофотографии, в этом августе я ловил ночью Персеиды. Улов небольшой есть, но сейчас не о нём, а о том, что побочным результатом такого лова стала серия фотографий, которые напрашивались на то, чтобы сделать из них таймлапс. Но вот незадача: установка камеры оказалась не столь уж жесткой, как хотелось бы, и между кадрами появилось небольшое смещение. Попытался исправить его плагином дешейкинга в VirtualDub, но результаты не порадовали. Тогда было решено сделать свой велосипед: подробнее о результатах и том как они получены — под катом.

Читать дальше →

+20

1cloud 25 сен 2014 в 15:11

«Всезнайки» от бизнеса – как большие данные меняют облик компаний

5 мин

14K

Блог компании 1cloud.ruBig Data*

Перевод

Помните, в школе всегда были этакие «всезнайки»? Каким-то образом, вне зависимости от предмета, им удавалось увязывать в голове разрозненные блоки информации и приходить к пониманию вопроса.

Я привел этот пример потому, что, по-моему, он хорошо отражает будущее компаний: им приходится становиться «всезнайками» от бизнеса. Сейчас, благодаря Hadoop и другим технологиям так называемых Больших данных, компании могут рассматривать до недавнего времени разрозненную информацию как единое целое. Вообразите, что это может означать. Авиалинии будут знать, когда ценный для них клиент сталкивался с неприятностями в момент вылета, и, благодаря этому, постараются улучшить обслуживание во время обратного полета. Медики смогут увязывать разрозненные виды информации, такие как результаты МРТ, показатели давления, данные о фибрилляции предсердий для предсказания возможности инфаркта или инсульта.

Речь идет не только об объемах данных – а именно это приходит в голову большинству при упоминании о Больших данных. Напротив, главное в том, что между этими данными – вне зависимости от их типа и источника – скрыты крайне важные взаимосвязи, как, например, между информацией из колл-центра, данными по пользованию веб-сайтом и показателями продаж. Для меня разница в этих подходах существенна. Проще говоря, размер тут не имеет значения.

Читать дальше →

+6

khmelkoff 29 мая 2015 в 10:04

Глубокое обучение на R, тренируем word2vec

10 мин

23K

Data Mining*R*Машинное обучение*

Word2vec является практически единственным алгоритмом deep learning, который сравнительно легко можно запустить на обычном ПК (а не на видеокартах) и который строит распределенное представление слов за приемлемое время, по крайней мере так считают на Kaggle. Прочитав здесь про то, какие фокусы можно делать с тренированной моделью, я понял, что такую штуку просто обязан попробовать. Проблема только одна, я преимущественно работаю на языке R, а вот официальную реализацию word2vec под R мне найти не удалось, думаю её просто нет.

Читать дальше →

+14

1cloud 25 мая 2015 в 21:57

«Под капотом» Netflix: Анализ мирового кинематографа

3 мин

34K

Блог компании 1cloud.ruВеб-разработка*Машинное обучение*Big Data*

/ фото Brian Cantoni CC

Ранее в нашем блоге мы уже рассказывали о том, как большие данные меняют облик компаний и обсуждали интересные способы использования облачных сервисов. Сегодня мы поговорим о том, как изменился кинематографический ландшафт с приходом на рынок сервисов вроде Netflix.

Читать дальше →

+41

Hitechmailru 29 мая 2015 в 15:01

Сравнительный обзор премиальных наушников

5 мин

15K

Блог компании VKЗвукГаджеты

В этом обзоре рассмотрены четыре модели топовых проводных наушников Audio-Technica ATH-MSR7, Bowers & Wilkins P7, OPPO PM-3 и Sony MDR-Z7. Все они рассчитаны на не только использование в домашних условиях, но и на ходу, с портативными устройствами.

Читать дальше →

+12

Dmitry21 17 мая 2015 в 18:09

Лекции Техносферы. 2 семестр. Методы распределенной обработки больших объемов данных в Hadoop

5 мин

35K

Блог компании VKBig Data*Hadoop*Высокая производительность*Математика*

Туториал

Предлагаем вашему вниманию новый курс лекций Техносферы. Он представляет собой введение в Hadoop, фокусируясь на проектировании и реализации распределенных алгоритмов, которые могут применяться в различных сферах: обработка текстов, графов, связанных данных и т.п. Также рассматриваются различные компоненты платформы Hadoop и программные модели. Целью курса является знакомство студентов со стеком технологий Hadoop, применяемых для хранения, доступа и обработки больших объемов данных. Преподаватели курса: Алексей Романенко, Михаил Фирулик, Николай Анохин.

Лекция 1. Введение в Big Data и MapReduce

Что такое «большие данные». История возникновения этого явления. Необходимые знания и навыки для работы с большими данными. Что такое Hadoop, где он применяется. Что такое «облачные вычисления», история возникновения и развития технологии. Web 2.0. Вычисление как услуга (utility computing). Виртуализация. Инфраструктура как сервис (IaaS). Вопросы параллелизма. Управление множеством воркеров. Дата-центры и масштабируемость. Типичные задачи Big Data. MapReduce: что это такое, примеры. Распределённая файловая система. Google File System. HDFS как клон GFS, его архитектура.

Читать дальше →

+34

convex 31 мар 2015 в 16:32

RapidMiner – Data Mining и BigData у вас дома, быстро и без подготовки (почти)

8 мин

46K

Блог компании КРОКBig Data*Data Mining*Open source*Анализ и проектирование систем*

Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.

Закачка, установка и получение первых результатов — минут 20 максимум.

Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.

Читать дальше →

+22

Dmitry21 19 апр 2015 в 16:08

Лекции Техносферы. 1 семестр. Методы использования СУБД в интернет-приложениях

4 мин

31K

Блог компании VKАлгоритмы*Big Data*

Туториал

Сегодня мы предлагаем вашему вниманию очередную публикацию в рамках постоянной рубрики «Лекции Техносферы». В этот раз вы можете изучить материалы по курсу «Методы использования СУБД в интернет-приложениях». Цель курса — изучение топологии, многообразия и основных принципов функционирования систем хранения данных, а также алгоритмов, заложенных в основу как централизованных, так и распределённых систем, демонстрация фундаментальных компромиссов присущих тем или иным решениям. Преподаватели курса: Константин Осипов kostja, Евгений Блих bigbes, Роман Цисык.

Читать дальше →

+28

Wargaming 25 апр 2015 в 11:45

DataTalks #2: Визуализация данных

2 мин

20K

Блог компании ex-WargamingBig Data*Визуализация данных*

Вторая встреча сообщества DataTalks была посвящена визуализации данных – одному из самых важных и сильных инструментов в руках аналитиков. Ведь именно от того, как представлены результаты исследовательской работы, зависят решения и выводы заказчика. Помимо этого, визуализация помогает проводить предварительный анализ данных и быстро находить новые взаимосвязи.
Под катом вы найдете записи выступлений представителей компаний Wargaming, Ambitious Suits Consulting, Targetprocess, А2 Консалтинг и интернет-портала TUT.BY. Докладчики поделились опытом наглядного и информативного представления данных.
Сама встреча традиционно прошла «под танком», в главном офисе компании СООО «Гейм Стрим», минского офиса разработки Wargaming.

Читать дальше →

+7

m31 7 мая 2015 в 11:42

AI, BigData & HPC дайджест #0. Пилотный выпуск

2 мин

10K

Блог компании FlyElephantBig Data*Data Mining*R*Высокая производительность*

Привет, Хабр!
Меня зовут Дмитрий Сподарец. Я основатель проекта FlyElephant, который предоставляет научным сотрудникам и инженерам среду для выполнения вычислительных программ. В нашей команде мы активно следим за тремя направлениями: искусственный интеллект, большие данные и высокопроизводительные вычисления. Нам постоянно попадаются интересные материалы, с которыми мы будем знакомить вас в рамках этого дайджеста.

Читать дальше →

+15

Olga_Volodko 7 мая 2015 в 16:42

Записки на полях Big Data Week Moscow

4 мин

9.6K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

В продолжение к нашему предыдущему посту с презентациями с Big Data Week Moscow, мы собрали несколько заявлений российских и международных спикеров, которые нам особенно запомнились и показались заслуживающими внимания.

Читать дальше →

+12

Dmitry21 5 мая 2015 в 12:58

Лекции Техносферы. 2 семестр. Современные методы и средства построения систем информационного поиска

6 мин

21K

Блог компании VKПоисковые технологии*Математика*Алгоритмы*

Туториал

Снова в эфире наша образовательная рубрика. На этот раз предлагаем ознакомиться с очередным курсом Техносферы, посвящённым информационному поиску. Цель курса — рассказать об основных методах, применяемых при создании поисковых систем. Некоторые из них представляют собой хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат. Преподаватели курса: Алексей Воропаев, Владимир Гулин, Дмитрий Соловьев, Игорь Андреев, Алексей Романенко, Ян Кисель.

Читать дальше →

+21

snikolenko 31 авг 2012 в 18:45

Рекомендательные системы: LDA

3 мин

31K

Блог компании Surfingbird

Туториал

В прошлый раз я рассказывал о теореме Байеса и приводил простой пример – наивный байесовский классификатор. В этот раз мы перейдём к более сложной теме, которая развивает и продолжает дело наивного байеса: мы научимся выделять темы при помощи модели LDA (latent Dirichlet allocation), а также применим это к рекомендательным системам.

Читать дальше →

+12

1

2 3 ...