Как стать автором
Поиск
Написать публикацию
Обновить
82.08

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Введение в практическую аналитику, или что общего у нейронных сетей с таблетками для похудения

Время на прочтение8 мин
Количество просмотров25K
Сегодня, когда во всех деревнях и сёлах идёт нейрореволюция, мы всё больше убеждаемся, что нейросети — это чистая магия и манна-небесная. Их стали использовать везде и всюду, и даже встроили в Excel. Неявно, при виде сложной задачи многим представляется следующая картина:



И сегодня мы займёмся совмещением приятного с полезным: разберём интересную (практическую) аналитическую задачу и заодно проанализируем ряд факторов, определяющих (не-)применимость нейронных сетей к аналитическим задачам.

Представьте, вы работаете аналитиком в какой-нибудь компании, которой важен её облик на Хабре (условно назовём её Почта.com). И тут к вам приходит девушка из PR-отдела и говорит: "Мы с менеджерами определили в качестве важного KPI нашего бренда Хабра-рейтинг компании. У нас есть бюджет и мы хотим понять, как его распределить, чтобы максимизировать Хабра-индекс. Нам нужно, чтобы ты определил ключевые факторы, которые на него влияют и вывел наиболее разумную стратегию. Попробуй там какие-нибудь нейросети".

Во время этой речи у вас начинает дергаться глаз, но спустя пару минут составляете список вопросов для анализа:

  • Q1: Какие ключевые факторы влияют на Хабра-индекс компании?
  • Q2: Где найти данные?
  • Q3: Какой будет оптимальная стратегия согласно восстановленной эмпирической зависимости?

Структура статьи

  1. Определяем потенциальные факторы
  2. Сбор данных
  3. Эффект кармы и рейтинга подписчиков и работников
  4. Финальная формула
  5. Анализ применимости нейросетей
  6. Анализ оптимальной стратегии
Узнать, чем же это всё закончится

Разбираемся с войной нейронных сетей (GAN)

Время на прочтение7 мин
Количество просмотров40K
Generative adversarial networks (GAN) пользуются все большей популярностью. Многие говорят о них, кто-то даже уже использует… но, как выясняется, пока мало кто (даже из тех кто пользуется) понимает и может объяснить. ;-)
Давайте разберем на самом простом примере, как же они работают, чему учатся и что на самом деле порождают.
Читать дальше →

Где и у кого учиться робототехнике, управлению большими данными, качественной разработке ПО

Время на прочтение1 мин
Количество просмотров25K
Мы собрали в одном месте все созданные совместно с ПостНаукой краткие обучающие видеоматериалы от профессоров Университета Иннополис.


Если темы вам интересны, добро пожаловать под кат.
Смотреть видео

Онлайн-конференция на Ярмарке вакансий для ИТшников

Время на прочтение5 мин
Количество просмотров10K


Сегодня, 25-го февраля, HeadHunter устраивает «Ярмарку вакансий онлайн» специально для IT-специалистов. Программа получилась обширная: кроме вакансий с онлайн-собеседованиями, мы подготовили вебинары, которые покрывают разные сферы из ИТшной и софтверной области. Сегодня нон-стоп один за другим пройдут 9 вебинаров. Специально для “Хабра” я попросил авторов вебинаров рассказать о своих темах, подробности под катом.
Читать дальше →

Как устроен Relap.io — сервис, который выдает 30 миллиардов рекомендаций в месяц

Время на прочтение4 мин
Количество просмотров36K

Мы давно ничего не писали в наш блог и возвращаемся с рассказом о нашем новом проекте: Relap.io (relevant pages).

Мы запустили рекомендательный B2B-сервис Relap.io полтора года назад. Он облегчает жизнь редакции и читателям СМИ. В будние дни Relap.io обслуживает 15 млн уников и выдаёт 30 миллиардов рекомендаций в месяц.

Сейчас Relap.io крупнейшая рекомендательная платформа в Европе и Азии.

image
Читать дальше →

О пользе технологий больших данных в повседневной жизни

Время на прочтение4 мин
Количество просмотров18K


Среди многих исследователей и разработчиков бытует мнение, что инструменты обработки больших данных в области машинного обучения часто избыточны – всегда можно сделать сэмпл, загнать в память и использовать любимые R, Python и Matlab. Но на практике встречаются задачи, когда даже относительно небольшой объем данных, размером в пару гигабайт, обработать в таком стиле затруднительно – и тут-то и могут помочь те самые технологии «больших данных».

Хорошим наглядным примером такой задачи является задача нашего конкурса SNA Hakathon 2016: дан социальный граф одного миллиона пользователей и их демография. Задача — найти скрытые связи в этом графе. Размер предоставленного графа всего два гигабайта в GZip и, казалось бы, применение технологий больших данных здесь не оправданно, но это только на первый взгляд.

Одной из самых важных «фич» в задаче поиска скрытых связей в социальном графе является количество общих друзей. И в расчетном плане это очень тяжелая «фича» — количество узлов, между которыми существуют пути длины 2, на несколько порядков больше, чем количество прямых связей в графе. В результате при расчете граф «взрывается» и из разрежённой матрицы на два гигабайта превращается в плотную терабайтную матрицу.

Казалось бы, для решение этой задачи впору поднимать небольшой кластер, но спешить не стоит: взяв на вооружение принципы обработки больших данных и соответствующие технологии, задачу можно решить и на обычном ноутбуке. Из принципов мы возьмем «разделяй и властвуй» и «руби хвосты сразу», а в качестве инструмента — Apache Spark.
Читать дальше →

Специализация по машинному обучению на Coursera от Физтеха и Яндекса

Время на прочтение7 мин
Количество просмотров71K
В начале года на Coursera открылся курс по машинному обучению от Яндекса и Вышки, о котором мы уже рассказывали. К моменту старта на него записались 14000 человек. Через час после открытия пользователи создали канал в Slack, где стали обсуждать программу. Сейчас слушателей уже 21000.



9 февраля на платформе стала доступна запись на специализацию по машинному обучению, которая разрабатывается нашими специалистами уже совместно с Физтехом. Она устроена таким образом, чтобы помочь слушателям плавно погрузиться в тему.

Специализация «Машинное обучение и анализ данных» состоит из пяти курсов и работой над собственным проектом. Обучение будет длиться несколько месяцев. Записаться на него можно до 19 февраля. Если вы не успеете это сделать, с 14 марта можно будет записаться на второй поток.

Авторы курса — сотрудники Яндекса, специалисты Yandex Data Factory, которые преподают на Физтехе. Константин Воронцов тоже среди них. Мы попросили некоторых из коллег рассказать, кому может быть полезна специализация и для чего она нужна. Также под катом — программа всех курсов.
Читать дальше →

Глубокое обучение в гараже — Возвращение смайлов

Время на прочтение5 мин
Количество просмотров13K
Пример работы системы
Это третья статья из серии про определение смайла по выражению лица.

Глубокое обучение в гараже — Братство данных
Глубокое обучение в гараже — Две сети
Глубокое обучение в гараже — Возвращение смайлов

Так что же со смайлами?


Фух, ну наконец, детекция лиц работает, можно учить сеть распознавания смайла. Только вот на чем учить? Открытых наборов данных нет. А из того, как долго в предыдущей части я добирался до, собственно, обучения моделей вы уже должны были понять, что в глубоком обучении данные решают все. И их нужно много.
Покажите девушек!

Сервис «Kimono» закрывается

Время на прочтение2 мин
Количество просмотров24K

После двух лет активной разработки и бурного роста пользовательской базы (свыше 125 тыс. клиентов) команда облачного сервиса Kimono радостно сообщает о своём присоединении к Palantir — частной американской компании-разработчику программного обеспечения анализа данных для организаций. Событие это радостное, но не во всём.
Детали...

Глубокое обучение в гараже — Братство данных

Время на прочтение10 мин
Количество просмотров26K
Пример работы системы
Вы тоже находите смайлы презабавнейшим феноменом?
В доисторические времена, когда я еще был школьником и только начинал постигать прелести интернета, с первых же добавленных в ICQ контактов смайлы ежедневно меня веселили: ну действительно, представьте, что ваш собеседник корчит рожу, которую шлет вам смайлом!

С тех пор утекло много воды, а я так и не повзрослел: все продолжаю иногда улыбаться присланным мне смайлам, представляя отправителя с глазами разного размера или дурацкой улыбкой на все лицо. Но не все так плохо, ведь с другой стороны я стал разработчиком и специалистом в анализе данных и машинном обучении! И вот, в прошлом году, мое внимание привлекла относительно новая, но интересная и будоражащая воображение технология глубокого обучения. Сотни умнейших ученых и крутейших инженеров планеты годами работали над его проблемами, и вот, наконец, обучать глубокие нейронные сети стало не сложнее "классических" методов, вроде обычных регрессий и деревянных ансамблей. И тут я вспомнил про смайлы!

Представьте, что чтобы отправить смайл, вы и вправду могли бы скорчить рожу, как бы было круто? Это отличное упражнение по глубокому обучению, решил я, и взялся за работу.

Глубокое обучение в гараже — Братство данных
Глубокое обучение в гараже — Две сети
Глубокое обучение в гараже — Возвращение смайлов
Хочу картинок!

Применение машинного обучения в сфере финтеха

Время на прочтение5 мин
Количество просмотров13K
Будучи активным игроком рынка, наша компания PayOnline, специализацией которой является организация платежей на сайтах и в мобильных приложениях, не может не отметить, что в наши дни сфера финансовых услуг претерпевает коренные изменения. Этому способствует развернувшаяся в последние десятилетия гонка вооружений в таких областях, как аналитика больших данных, нейронные сети, эволюционные алгоритмы, экспертные системы и машинное обучение. Данные технологии позволили обрабатывать значительно большие объемы разнообразных данных не только быстрее, но и эффективнее.
Читать дальше →

Когнитивные вычисления – работа быстрее мысли

Время на прочтение6 мин
Количество просмотров26K


Когнитивные вычисления (cognitive computing) — тренд последних нескольких лет. Это технологии, которые силами многих специалистов развиваются очень быстрыми темпами и помогают человеку справляться с огромным потоком информации. Причем поток этот очень глубокий и широкий, образно говоря, это весь поток информации, генерируемый человечеством. Мозг человека — мощнейшая система, способная анализировать неструктурированные массивы данных, обрабатывать их и «раскладывать по полочкам». Но даже этот инструмент не справляется с информационными потоками современности, поэтому на службу себе человек поставил компьютеры, как обычные персональные, так и сверхпроизводительные системы. Но тут возникла проблема уже иного характера, а именно — необходимость структурирования данных, которые обрабатываются. Каждый день человечество генерирует около 2,5 квинтиллионов байтов данных, и 80% из них являются неструктурированными. А это означает, что эти 80% невидимы для современных компьютерных систем, созданных по обычной технологии.

На помощь приходят когнитивные вычисления, технологии, которые частично повторяют особенности работы мозга человека и способные работать во много крат эффективнее своего органического предтечи. Здесь стоит оговориться, что речь идет лишь о малой части функций мозга, ответственных за обработку и анализ поступающей извне информации. Также можно говорить и о самообучении системы, с определенными допущениями. Но, тем не менее, когнитивные технологии способны на многое, упрощая жизнь как отдельно взятому человеку, так и бизнес-структурам.
Читать дальше →

Школа Данных «Билайн», для менеджеров

Время на прочтение4 мин
Количество просмотров6K


Привет, Хабр!

Итак, мы запустили третий курс Школы Данных «Билайн». Подробный отчет о занятиях от одного из участников можно почитать здесь.

Отчеты о работе Школы мы также будем выкладывать на официальной странице Школы в Facebook. Там же будем отвечать на вопросы, которые также можно направлять на dataschool@beeline.digital.

Набираем 4-ый курс, который стартует с 4 апреля. Запись, как всегда, на странице Школы.

Однако, данный пост не только об этом. До сих пор в Школе Данных мы учили аналитиков, учили тому, как применять методы машинного обучения для решения практических задач. Однако, практически любая практическая задача начинается с бизнес-потребности и бизнес- постановки.

Мы сейчас не будем говорить о том, что на заре больших данных считалось, что основные инсайты и применения аналитики идут скорее от данных. Это безусловно есть, но в нашей практике это происходит в соотношении 80 к 20, где 80 процентов всех задач для аналитика или даже больше рождается от бизнеса.

Однако, как же бизнес генерит эти задачи, если он, бизнес, не разбирается в аналитике данных? Да, очень просто. В нашей компании мы потратили какое-то время на объяснение бизнесу возможностей аналитики данных и теперь разные подразделения заваливают нас заказами придумывая все новые применения этим инструментам.
Читать дальше →

Ближайшие события

AI, BigData & HPC Digest #4

Время на прочтение2 мин
Количество просмотров10K
alt

Хабр, привет!

Команда FlyElephant подготовила для Вас новый дайджест, включающий в себя подборку ссылок на интересные материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления.
Читать дальше →

Знакомство с Apache Spark

Время на прочтение8 мин
Количество просмотров128K
Здравствуйте, уважаемые читатели!

Мы наконец-то приступаем к переводу серьезной книги о фреймворке Spark:



Сегодня мы предлагаем вашему вниманию перевод обзорной статьи о возможностях Spark, которую, полагаем, можно с полным правом назвать слегка потрясающей.

Читать дальше →

Рекомендации на потоке

Время на прочтение7 мин
Количество просмотров13K
Всем привет!

Сегодня мы расскажем о том, как с помощью потоковой обработки данных можно увеличить качество рекомендаций и снизить время отклика всей рекомендательной системы в 5 раз. Речь пойдет об одном из наших клиентов – сервисе потокового видео Rutube.


Читать дальше →

Как уменьшить количество измерений и извлечь из этого пользу

Время на прочтение10 мин
Количество просмотров54K
Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать дальше →

Автоматизированный доступ к SharePoint. Как облегчить работу администратора и установить контроль за раздачей прав

Время на прочтение3 мин
Количество просмотров6.4K
Сегодня все чаще встречается широкое использование порталов SharePoint в масштабах организации. SharePoint используют не только как средство для совместной работы и редактирования документов, но и как средство хранения данных, что зачастую подменяет собой функцию файлового сервера.

Предоставление доступа к ресурсам SharePoint, зачастую, довольно трудоемкий процесс, который целиком ложится на плечи администраторов SharePoint. В зависимости от того, насколько он регламентирован, обеспечивается и контроль. При этом критерии, по которым доступ предоставляется тому или иному пользователю, могут быть не всегда очевидны.
Автоматизировать данный процесс, освободив администраторов от работы по предоставлению доступа, и полностью контролировать его, поможет Varonis DataPrivilege .
Читать дальше →

Хабра-граф, -сообщества и куда же делась вся карма

Время на прочтение7 мин
Количество просмотров29K

Вступление


Cегодня мы вместе с анализом графов, data mining, subgroup discovery и всеми веселыми штуками взглянем на Хабр. Весь код и данные прилагаются — каждый может взглянуть на них самостоятельно, легко повторить рассчеты из статьи и найти что-то интересное самостоятельно.




(это не просто картинка для привлечения внимания, а — граф связей ~45000 пользователей Хабра по тому, кто на кого подписан; размер вершины пропорционален числу подписчиков; все картинки кликабельны; подробности далее)



Обсуждаемые проблемы возникли, конечно же, далеко не вчера, но некоторые их аспекты кажутся мне достаточно новыми и поэтому достойными дискуссии, основанной на непредвзятых и репрезентативных данных. Например в комментариях этой статьи, увидел интересное утверждение:

Тут проблема в том, что на всем хабре за сегодня не насчитать больше 50-80 человек, которые вообще могут голосовать. У 90% пользователей карма просто ниже 5. Как итог оценивают комментарии и статьи только избранные. Это как жюри выходит такое.

И решил, что стоить его сформулировать в виде гипотезы и проверить:

Q1: Правда ли, что Хабр превратился в жюри-based сообщество, где два с половиной человека голосуют за статьи?

Вот в этой статье к нам вернулись "железные" Хабы и стало интересно, а как вообще представлены разные сообщества внутри Хабра? Формулируем в виде гипотезы:

Q2: Как сегментировано сообщество, или проще говоря сколько у нас здесь групп по интересам и соотвествуют ли они имеющимся хабам?

Последнее, но не менее интересное наблюдение, что активность на Хабре упала (по данным Хабра-пульса и моим субъективным наблюдениям), что даже решили ввести аккаунты "read & comment". Поэтому решил оценить активность сообщества и продумать, как информация о структуре сообщества может нам помочь:
Q3: Насколько активно сообщество и как нам может помочь структура внутренних групп?


За подробностями добро пожаловать под кат.

Структура статьи

Читать дальше →

Дозиметр в интернете вещей: составляем карту радиоактивных зон для себя и всего мира

Время на прочтение4 мин
Количество просмотров18K


На днях в Минске состоится выставка новых устройств, созданных в рамках белорусских железячных стартапов — Party Hard! 2016. Мы решили рассказать об одном из самых интересных экспонатов этой выставки — умном дозиметре ZIVE, который синхронизируется со смартфоном и собирает данные для глобальной карты радиационного загрязнения.
Читать дальше →

Вклад авторов