Как стать автором
Поиск
Написать публикацию
Обновить
79.9

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы участвовали в HR-хакатоне. Наши выпускники делятся своим решением и впечатлениями от участия

Время на прочтение7 мин
Количество просмотров5.2K

Всем привет!


23-24 ноября в Digital October проходил хакатон по анализу данных в HR-сфере, в котором победила команда выпускников нашей программы "Специалист по большим данным". Кирилл Данилюк, Игорь Парфенов, Егор Андреев и Александр Иваночкин делятся своим решением и впечатлениями от участия.

Читать дальше →

Разработка динамических REST-сервисов на документо-ориентированной БД Bagri

Время на прочтение16 мин
Количество просмотров5.3K
Не так давно, просматривая ленту CNews, наткнулся на анонс конференции “ИТ в здравоохранении: в ожидании прорыва”. Оказывается, “начиная с 2011 г. в России реализуется масштабный государственный проект по внедрению Единой государственной информационной системы в сфере здравоохранения (ЕГИСЗ)”. Углубившись немного в материал обнаружил, что ЕГИЗС базируется на широко используемых на западе стандартах организации Health Language 7 (далее HL7). А в основе стандартов HL7 лежит XML. Появилось желание построить прототип системы, обрабатывающей документы HL7, на документной БД Bagri и, если прототип выйдет удачным, подготовить доклад о нем на конференцию.

image

Читать дальше →

[Питер, анонс] Встреча JUG.ru с Андреем Ершовым: «Как мы делали телефонную платформу с использованием GridGain»

Время на прочтение1 мин
Количество просмотров3.2K


В четверг, 1 декабря, в 20:00 в офисе компании SEMrush состоится встреча JUG.ru с Андреем Ершовым, экспертом по распределенным системам. Андрей расскажет, как они в DINO Systems (Ring Central) сделали телефонную платформу с использованием GridGain. Для понимания большей части доклада знание GridGain или In-Memory Data Grid в целом не является обязательным.
Читать дальше →

О том почему «открытые данные Сбербанка» это не открытые данные и что нам с этим делать

Время на прочтение5 мин
Количество просмотров31K

image
На днях произошло, в какой-то степени, знаменательное событие и одна из крупнейших компаний России заявила о том что теперь публикует открытые данные на своем сайте. Этой компанией является Сбербанк и соответствующий раздел на их сайте. Открытие раздела удостоилось пресс-релиза на их сайте и о нем, как о важном событии, написали десятки финансовых и не финансовых СМИ.


Действительно ли Сбербанк совершил нечто невероятное? Рядовое ли это явление и является ли то что сделал Сбербанк сейчас открытыми данными? Вот о чем далее пойдет речь.


В качестве вступления


Прежде чем продолжить о Сбербанке, давайте вернемся к термину открытые данные.

Читать дальше →

FlyElephant празднует первый год работы в публичном доступе и анонсирует сотрудничество с HPC-HUB

Время на прочтение2 мин
Количество просмотров2.7K


В ноябре FlyElephant празднует первый год работы в публичном доступе. FlyElephant — это платформа для дата-сайентистов, инженеров и ученых, которая ускоряет бизнес с помощью автоматизации Data Science и Engineering Simulation.
Читать дальше →

data.table: выжимаем максимум скорости при работе с данными в языке R

Время на прочтение9 мин
Количество просмотров16K

На эксклюзивных условиях представляем для вас полный вариант статьи из журнала Хакер, посвященной разработке на R. Под катом вы узнаете, как выжать максимум скорости при работе с табличными данными в языке R.


Читать дальше →

Маленький код для больших данных или Apache Spark за 3 дня

Время на прочтение7 мин
Количество просмотров12K
Пусть Жираф был не прав,
Но виновен не Жираф,
А тот, кто крикнул из ветвей:
«Жираф большой — ему видней!» (с)


Потребовалось оперативно разобраться с технологией Apache Spark заточенную для использования Big Data. В процессе выяснения активно использовал habrahabr, так что попробую вернуть информационный должок, поделившись приобретенным опытом.

А именно: установкой системы с нуля, настройкой и собственно программированием кода решающего задачу обработки данных для создания модели, вычисляющей вероятность банкротства клиента банка по набору таких признаков как сумма кредита, ставка и т.д.

Больших данных вроде как должно быть много, но почему-то не просто найти то злачное место, где их все щупают. Сначала попробовал вариант с ambari, но на моей Window7 валились ошибки настроек сетевого моста. В итоге прокатил вариант с преднастроенной виртуальной машиной от Cloudera (CDH). Просто устанавливаем VirtualBox, запускаем скачанный файл, указываем основные параметры (память, место) и через 5 минут достопочтенный джин Apache Hadoop жаждет ваших указаний.

Несколько слов, почему именно Spark. Насколько я понимаю, ключевые отличия от изначальной MapReduce в том, что данные удерживаются в памяти, вместо сброса на диск, что дает ускорение во много раз. Но, пожалуй, более важны реализации целого ряда статистических функций и удобным интерфейсом для загрузки/обработки данных.

Дальше собственно код для решения следующей задачи. Есть реально большие данные (ибо рука очень устает скролить эти 2000 строк) в формате:



Есть предположение, что дефолт как-то связан с остальными параметрами (кроме первого, к уважаемым Ивановым1…N претензий нет) и нужно построить модель линейной регрессии. Прежде чем начать, стоит оговориться, что это мой первый код на Java, сам я работаю аналитиком и вообще это мой первый запуск Eclipse, настройка Maven и т.д. Так что не стоит ждать изысканных чудес, ниже решение задачи в лоб тем способом, который почему-то заработал. Поехали:
Читать дальше →

Встреча любителей больших данных и искусства

Время на прочтение1 мин
Количество просмотров3.9K
Во вторник, 29 ноября 2016 года DI Telegraph и Data-Centric Alliance проведут митап Art of Science.



Art of Science – мероприятие, посвященное анализу данных в искусстве. Наука и искусство – что их связывает? Возможно ли взаимодействие этих двух разных миров? Можно ли с помощью big data, нейронных сетей и методов машинного обучения создавать что-то полезное и прекрасное? Как наука о данных может помочь в решении задач современного искусства? Об этом и многом другом расскажут наши спикеры, представители мира технологического «искусства».
Читать дальше →

«Вечная флешка»: как создать надежный носитель, который сохранит данные на тысячи лет

Время на прочтение5 мин
Количество просмотров50K
Срок службы компакт-дисков, SSD- и HDD-дисков не превышает 10-20 лет. При этом мировой объем данных растет на 40% каждый год, что стимулирует спрос на накопители, однако долговечность носителей оставляет желать лучшего. Большая часть HDD перестают работать в течение нескольких лет: как правило, это связано с поломкой движущихся частей. Компакт-диски хранятся десятилетиями, но повышение температуры, влажности или механические повреждения делают доступ к информации затруднительным: поверхность диска отслаивается и легко царапается. SSD, рекламируемые сегодня как «неубиваемый» носитель, живут всего несколько лет, и обладают фиксированным количеством циклов перезаписи: циркулирующий внутри электрический заряд рано или поздно угасает даже в отсутствие активного доступа к содержимому. При этом ценность утраченной информации может быть очень высокой: например, это могут быть большие объемы технической документации или исторические архивы, восстановить которые будет невозможно.


www.ohmygeek.net
Читать дальше →

Еще примеры использования R для решения практических бизнес-задач

Время на прочтение6 мин
Количество просмотров17K

С момента прошлой публикации пришлось примеряться к ряду различных задач, связанных тем или иным образом с обработкой данных. Задачи совершенно разные, но во всех случаях инструменты R позволили элегантно и эффективно их решить. Ниже, собственно, кейсы (картинок нет).

Читать дальше →

Программа по Deep Learning

Время на прочтение3 мин
Количество просмотров7.1K
Хабр, привет! Из уважения к тем из вас, кто на дух не переносит здесь рекламу, сразу сообщим — да, это рекламный пост. Можно проскроллить дальше. Тем, кто считает, что реклама не всегда вредна и порой помогает принимать нам важные решения, добро пожаловать под кат.
Читать дальше →

Искусственный интеллект, вызовы и риски – глазами инженера

Время на прочтение11 мин
Количество просмотров18K
Добрый день, коллеги. Сегодня хочется трезво посмотреть глазами инженера на так популярные сейчас искусственный интеллект и Deep learning, упорядочить, выстроить факты и выработать выигрышную стратегию – как с этим … взлететь, пролететь и не упасть кому-нибудь на голову? Потому-что, когда дело от лабораторных моделей на python/matplotlib/numpy или lua доходит до высоконагруженного production в клиентском сервисе, когда ошибка в исходных данных сводит на нет все усилия – становится не то, что весело, а даже начинается нумерологический средневековый экстаз и инженеры начинают сутки напролет танцевать, в надежде излечиться от новомодной чумы )


Танцующие инженеры, тщетно надеющиеся исцелиться
Читать дальше →

Приглашаем на Moscow Data Science Meetup 25 ноября

Время на прочтение1 мин
Количество просмотров4.5K


25 ноября в московском офисе Mail.Ru Group пройдет традиционная встреча сообщества Moscow Data Science. Участники поделятся профессиональным опытом решения практических задач анализа данных и пообщаются в неформальной обстановке. Встреча будет посвящена глубокому обучению. Присоединяйтесь!
Читать дальше →

Ближайшие события

Класс удаленного прокси — это не (очень) больно

Время на прочтение16 мин
Количество просмотров4K

Fish Out Of Watermelon by Joan Pollak

(Динамическая диспетчеризация спешит на помощь)


После нескольких статей про MapReduce нам показалось необходимым еще раз отойти в сторону и поговорить про инфраструктуру, которая поможет облегчить построение решения MapReduce. Мы, по-прежнему, говорим про InterSystems Caché, и, по-прежнему, пытаемся построить MapReduce систему на базе имеющихся в системе подручных материалов.


На определенном этапе написания системы, типа MapReduce, встает задача удобного вызова удаленных методов и процедур (например, посылка управляющих сообщений с контроллера на сторону управляемых узлов). В среде Caché есть несколько простых, но не очень удобных методов достичь этой цели, тогда как хочется бы получить именно удобный.


Читать дальше →

12 кейсов по биг дате: подтвержденные примеры из индустрии, когда биг дата приносит деньги

Время на прочтение8 мин
Количество просмотров36K
Хабр, привет! Проанализировали кейсы по big data, в которых технологии больших данных помогли компаниям более эффективно работать с клиентами или оптимизировать внутренние процессы.

Кстати, совсем скоро у нас стартует первый набор программы Big Data for Executives, цель которой подготовить руководителя или владельца бизнеса к использованию данных в своей деятельности. Почитать о ней подробнее можно здесь.
Читать дальше →

Рекомендации на основе изображений товаров

Время на прочтение5 мин
Количество просмотров11K
image

В данной статье я хотел бы рассмотреть на практике вариант построения простейшей рекомендательной системы основанной на схожести изображений товаров. Этот материал предназначен для тех, кто хотел бы попробовать применить Deep Learning, а именно свёрточные нейронные сети, в простом, интересном и практически применимом проекте, но не знает с чего начать.
Читать дальше →

Как запустить ClickHouse своими силами и выиграть джекпот

Время на прочтение15 мин
Количество просмотров80K

Мы решили описать простой и проверенный путь для тех, кто хочет внедрить аналитическую СУБД ClickHouse своими силами или просто испробовать ClickHouse на собственных данных. Именно этот путь прошли мы сами в новостном агрегаторе СМИ2 и добились впечатляющих результатов.


Clickhouse-client


В предисловии статьи — небольшой рассказ о наших попытках внедрить Druid и InfluxDB. Почему после успешного запуска ClickHouse мы смогли отказаться от использования InfiniDB и Cassandra.


Как подружить Bagri и MongoDB

Время на прочтение13 мин
Количество просмотров4.8K
Примерно месяц назад, я рассказал Хабру о проекте Bagri: NoSQL базе данных с открытым кодом, построенной поверх распределенного кэша.

После достаточно неплохого отклика, решил написать статью о том как можно наращивать функционал Bagri путем написания расширений (extensions) используя встроенный API системы.

image

Читать дальше →

Интервью с вице-президентом по технологической стратегии компании MapR

Время на прочтение7 мин
Количество просмотров2.9K
Приветствую, Хабр! Я немного помогал своим друзьям готовить конференцию CEE-SECR 2016 и в процессе познакомился с Кристал Валентайн – вице-президентом компании MapR по технологической стратегии. Кристал большая молодец, очень собранная, целеустремленная, глубоко понимающая свою отрасль При своей исключительной занятости умеет очень комфортно сотрудничать. Да и компания её не из последних. Думаю, её доклад в Москве будет очень интересным, а мне захотелось узнать больше про взгляды на будущее отрасли вице президента по технологической стратегии и я придумал сделать с Кристал интервью. Вот что у меня получилось. Кристал весьма любезно ответила на все вопросы, которые я ей задал. В целом же ответы Кристал отличает плотность предоставляемой информации на строку текста, четкость формулировок, умение оставаться в желаемых границах и предельно ясное видение миссии компании и будущего рынка.
Читать дальше →

Много ли надо, чтобы сделать стартап с использованием больших данных и ИИ?

Время на прочтение7 мин
Количество просмотров15K
Предположим, вы хотите создать приложение, которое будет что-то предсказывать, рекомендовать, распознавать изображения или голос, понимать текст на естественном языке… Для этого вам понадобятся знания машинного обучения, в том числе его сложных и продвинутых разделов, таких как глубокое обучение, большие обучающие выборки и сложные алгоритмы, серверы для получения и обработки данных от пользователей, средства хранения и обработки больших данных. Звучит слишком сложно? Если у вас нет диплома Стенфордского университета, вы не готовы нанимать команду data scientist’ов и разворачивать кластеры Hadoop, но у вас есть хорошая бизнес-идея, существует более простое и менее затратное решение – использовать API машинного обучения и искусственного интеллекта.
Читать дальше →

Вклад авторов