Как стать автором
Поиск
Написать публикацию
Обновить
77.56

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Стажировка Sberseasons: Python, UX/UI, Data и ещё много чего для студентов

Время на прочтение3 мин
Количество просмотров9.5K
Привет, Хабр!

Этот пост написан специально для студентов. Если вы уже состоявшийся профессионал, лучше посмотрите, как в gif’ках выглядит жизнь Open Source разработчика, а если вы студент, да еще с
ИТ-шной специальностью, добро пожаловать под кат.

Чем хороша наша программа стажировок Sberseasons? У нас есть много больших интересных проектов на выбор. Они завязаны на современный технологический стек, и их потом можно положить в свое портфолио. Плюс, её можно совмещать с учебой. Разумеется, она у нас оплачивается.

Стажировка доступна сразу по 18 IT-направлениям. О некоторых из них рассказываем подробнее.

image
Читать дальше →

Мой адрес не дом и не улица, мой адрес – Советский Союз?

Время на прочтение13 мин
Количество просмотров4.1K
microBIGDATA или ФИАС в кармане


Питер Брейгель Младший, Уплата налога, 1640 год

Прошлый заход на бреющем по объектам зашел. Продолжим разведку боем. Сегодня поговорим о тяжелом. Пусть ещё не о BIG DATA, но работать уже неудобно – достаточно большие объёмы данных. Не каждому влезет в оперативную память целиком, а некоторым не влезет даже на диск (не места мало, а хламу много). Имя нашему подопечному БД ФИАС — база данных федеральной адресной информационной системы. Архив в 5,5 ГБ. И это сжатый в архив XML. После распаковки будут полные 53 ГБ (для распаковки запасайте 110 ГБ). И как начнёшь его парсить да конвертить, то и 110 ГБ будет мало. О потребном размере ОЗУ тоже будет.
Читать дальше →

Государство занялось БигДата

Время на прочтение2 мин
Количество просмотров4.7K
В середине января на заседании рабочей группы по архитектуре государственных систем и режиму оборота данных одобрили черновой проект концепции Национальной системы управления данными (НСУД). Всего было подготовлено несколько таких документов разными ведомствами, однако наиболее полное одобрение получила версия Аналитического центра при Правительстве РФ. О своем желании принять активное участие в пилотных проектах по созданию такой системы уже заявили Росреестр, Пенсионный Фонд, Казначейство, некоторые другие ведомства и целые регионы страны.
Хронология принятия НСУД
Концепция НСУД должна принять свой финальный вид уже в феврале 2019 г. после консультаций и обсуждений с различными госорганами и представителями бизнеса.
Следом ее должно будет утвердить Правительство — не позднее 31 марта 2019 г.,
ну а законопроект о НСУД собираются разработать и принять во втором квартале этого года.
Не откладывая в долгий ящик, в июле-сентябре определят все требования к процессу управления данными и назначат оператора.
Но не все так гладко, как это выглядит при беглом взгляде. Для ускоренного ввода НСУД в действие — одного из важнейших компонентов федерального проекта по государственному управлению, решили в концепции не прописывать многие детали, а обсуждать все возникающие вопросы уже по ходу реализации системы. Кроме того, структуру управления НСУД авторы предлагают сделать децентрализованной, не передавая все бразды правления ни в одно ведомство или орган власти. Но какими полномочиями и в каком объеме будет в итоге наделен национальный оператор НСУД — пока неясно.


Читать дальше →

Российские разработчики представили в Лондоне виртуальную систему реабилитации

Время на прочтение3 мин
Количество просмотров2.6K
В ходе Российского-британского бизнес-форума, крупнейшего делового российского мероприятия в Лондоне, состоялась европейская премьера многопользовательской реабилитационной VR-платформы ATTILAN компании «Моторика». Система помогает людям научиться использовать протезы с постоянным онлайн-контролем этого процесса, что позволит обеспечить высокотехнологичной реабилитацией пациентов в любой точке мира.

image

Города и их «большие данные»

Время на прочтение5 мин
Количество просмотров4.2K
О чем рассказывают «большие данные» города? Как представить их наглядно и — что важнее — как с их помощью сделать жизнь горожан лучше?

Об этом мы поговорили с Андреем Кармацким, гендиректором компании Urbica. Компания специализируется на визуализации городских данных. Среди ее проектов — редизайн карты для MAPS.ME, интерактивная визуализация статистики поездок для «Велобайка» и визуализация для запуска системы наземного городского транспорта «Магистраль».


Велосипедный трафик между районами в центре Москвы. Источник изображений — блог «Урбики» на Medium


Читать дальше →

Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью

Время на прочтение7 мин
Количество просмотров11K
Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.


Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
 
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
 
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
 
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.
Читать дальше →

Зачем вам нужен Splunk? Интернет вещей и промышленные данные

Время на прочтение3 мин
Количество просмотров5K


Сегодня мы хотим поговорить об интернете вещей (IoT) и о промышленном интернете вещей (IIoT), а также о том, как Splunk связан с этим.

Каким будет Web 3.0: блокчейн-маркетплейсы для машинного обучения

Время на прочтение10 мин
Количество просмотров5K
Как создать мощнейший искусственный интеллект? Один из способов — использовать модели машинного обучения с данными, которые распространяются через маркетплейсы, основанные на блокчейне. Зачем здесь блокчейн? Именно с его помощью в будущем мы можем ожидать появления открытых электронных бирж, где каждый сможет продавать свои данные, не нарушая конфиденциальность. А разработчики — выбирать и приобретать наиболее полезную информацию для своих алгоритмов. В этом посте мы расскажем о развитии и перспективах таких площадок.


Читать дальше →

Обзор второго дня Data Science Weekend 2018. Data Engineering, ETL, поисковые сервисы и многое другое

Время на прочтение9 мин
Количество просмотров4.1K
Несколько дней назад мы публиковали обзор первого дня Data Science Weekend 2018, который прошел 2-3 марта на Мансарде Rambler&Co. Изучив практику использования алгоритмов машинного обучения, теперь перейдем к обзору второго дня конференции, в течении которого спикеры рассказывали об использовании различных инструментов дата инженера для нужд дата-платформ, ETL, сервисах подсказок при поиске и многом другом.


Читать дальше →

Как мы управляем качеством данных

Время на прочтение3 мин
Количество просмотров8.9K
Управление качеством данных – новая дисциплина. Постепенно направление набирает обороты в нефтяной отрасли, банковском деле и ритейле. Каждый идет своим путем, практически наощупь.
Я работаю аналитиком качества данных. В статье расскажу, как у нас устроено управление качеством данных, с какими трудностями мы сталкивались, и как их преодолевали.

image
Визуализация качества данных на экране в офисе. Уровень блоков пропорционален количеству ошибок.
Читать дальше →

Amazon MTurk и Emotion Miner: краудсорсинг, большие данные, эмоциональные технологии

Время на прочтение10 мин
Количество просмотров3.4K
Давайте зададимся вопросом: в какой мере краудсорсинговые инструменты востребованы в сфере эмоциональных (и нейрокогнитивных) технологий? Каким образом можно собирать, размечать и предварительно обрабатывать большие объемы данных, опираясь на ресурсы толпы? В качестве показательных кейсов обсудим платформу Amazon MTurk и, в приложении к эмоциональной проблематике, проект лаборатории Neurodata LabEmotion Miner.

image
Читать дальше →

Машинный интеллект ищет ответы на загадки Вселенной. Как — расскажем на открытом семинаре AI@MIPT

Время на прочтение2 мин
Количество просмотров3.7K
image

27 ноября на Физтехе состоится очередная встреча из цикла семинаров по искусственному интеллекту «Машинное обучение для поиска темной материи в экспериментах ЦЕРН». Андрей Устюжанин, руководитель ЛАборатории Методов анализа Больших ДАнных (LAMBDA) ВШЭ, доцент кафедры информатики МФТИ и руководитель совместных проектов Школы анализа данных Яндекса и ЦЕРНа расскажет, как LAMBDA работает над применением методов машинного обучения и анализа данных для решения задач физики частиц и астрофизики.

Семинар начнется в 18:30 в аудитории 107 Биокорпуса МФТИ. Для очного участия необходимо предварительно зарегистрироваться. Лекция также будет транслироваться онлайн на официальной странице Физтеха Вконтакте
Читать дальше →

Топ-3 анонсов с NetApp Insight 2017

Время на прочтение4 мин
Количество просмотров2.4K


Привет, Хабр! На этой неделе я в Берлине на конференции NetApp Insight и подготовил для вас репортаж о том, что успел увидеть и пощупать.

NetApp Insight традиционно проходит в Европе в середине ноября. Это большая конференция, на которой компания NetApp представляет свое видение технологий работы с данными и анонсирует обновления линеек продуктов. Каждый день проходят сотни (!) технологических сессий с детальной информацией из первых рук. Можно сравнить эту конференцию с VMWorld, а из проходящих в России – с Highload++.

В конференции принимают участие тысячи людей – покупатели, партнеры, сотрудники NetApp из разных стран. В этом году здесь представлено 80 стран.
Читать дальше →

Ближайшие события

Обзор фреймворка Luigi для построения последовательностей выполнения задач

Время на прочтение7 мин
Количество просмотров24K
Доброго времени суток! У нас открылось совершенно новое направление обучения — BigData, а это значит, что немного расширяется горизонт материалов, которыми мы будем делиться с вами. Сегодня рассмотрим Luigi, как часть того, что раскрывается на нашем курсе.

Luigi — фреймворк на языке Python для построения сложных последовательностей по выполнению зависимых задач. Довольно большая часть фреймворка направлена на преобразования данных из различных источников (MySql, Mongo, redis, hdfs) и с помощью различных инструментов (от запуска процесса до выполнения задач разных типов на кластере Hadoop). Разработан в компании Spotify и открыт в виде open source инструмента в 2012 году.

Самое главное преимущество фреймворка — возможность выстраивать последовательности зависимых задач. Фреймворк разрешает зависимости, отслеживает граф выполнения, управляет запуском задач, обрабатывает ошибки с возможностью перезапуска нужных задач, распределяет ресурсы рабочих процессов с возможностью параллельной работы независимых частей графа задач.

Для выполнения всех этих задач существуют и другие инструменты. Это Oozie, Pinball, Airflow (находится в статусе инкубации в Apache — проходит различные проверки, недавно вышел обзор на хабре). В данной статье рассмотрим только Luigi.


Читать дальше →

Go для больших данных

Время на прочтение11 мин
Количество просмотров14K

В этом посте мы расскажем об использовании библиотеки ускорения аналитики данных Intel Data Analytics Acceleration Library (Intel DAAL) с языком программирования Go для пакетной, интерактивной и распределенной обработки.
Читать дальше →

Bigdata стек глазами воинствующего ораклойда

Время на прочтение6 мин
Количество просмотров8.1K
На Хабре и прочих интернетах чуть не каждый день постят пустые статьи о бигдата, создавая у спецов стойкое ощущение, что кроме маркетинга за стеком бигдаты ничего нет. На самом деле там достаточно интересных технологий под капотом Hadoop и тут я хочу слегка разбавить маркетинг, взглядом технического спеца с опытом Oracle.

В первую очередь стоит понимать, что один из столпов бигдаты Hadoop, это не только батч процессинг и map-reduce, как многие пытаются изобразить. Это запросто может быть обработка и с противоположного спектра задач: чтение потока мелких сообщений, например от IoT (spark на Hadoop, читает Kafka stream), на ходу агрегируя и выявляя отклонения.
Читать дальше →

Цифровая экономика и экосистема R

Время на прочтение3 мин
Количество просмотров9.2K

Если смотреть прессу, словосочетание «цифровая экономика» ожидается одним из популярных в ближайшие несколько лет.



Но чтобы от перейти от слов к делу и действительно совершить цифровой скачок необходимо пересмотреть подходы и используемые инструменты. В рамках настоящей публикации, являющейся продолжением предыдущих публикаций, планирую кратко проиллюстрировать, тезис о том, что применение в бизнесе R экосистемы прекрасно вписывается в задачу перехода к цифровой экономике.

Читать дальше →

По дороге с облаками. Реляционные базы данных в новом технологическом контексте

Время на прочтение10 мин
Количество просмотров5.5K
Привет, Хабр! Мы задумываемся об издании не совсем обычной книги, автор которой желает изложить очень интересную трактовку современного технологического ландшафта, охватывающего базы данных и технологии обработки Big Data. Автор полагает, что без активного использования облаков никуда не деться, и рассказывает об этом ландшафте именно в таком ракурсе.

Об авторе:

Александр Васильевич Сенько, кандидат физико-математических наук в области компьютерного моделирования и оптимизации мощных сверхвысокочастотных приборов.

Автор имеет сертификаты Microsoft в области создания приложений в среде Microsoft Azure: Microsoft Certified Professional и Microsoft Specialist: Developing Microsoft Azure Solutions. В 2008 году закончил Белорусский Государственный Университет Информатики и Радиоэлектроники (БГУИР) по специальности “Моделирование и компьютерное проектирование радиоэлектронных средств”. С 2007 по 2012-й годы автор работает в научно-исследовательском институте ядерных проблем БГУ на должностях техника, лаборанта, инженера. С 2013 года по настоящее время автор работает в компании ISSoft Solutions на должности разработчика ПО и DevOps с специализацией в области создания облачных приложений на базе стека Microsoft

Под катом вы сможете оценить идеи и стиль автора. Не стесняйтесь голосовать и комментировать — и добро пожаловать под кат!
Читать дальше →

Дисциплина, точность, внимание к деталям, часть вторая (OLAP, SSAS)

Время на прочтение5 мин
Количество просмотров13K

Введение


В этой статье я продолжу рассказ о своем опыте работы с Microsoft Analysis Services. В дополнение к предыдущей статье, я хочу написать про нестандартные решения, которые были сделаны в последнем проекте. Эти решения более тесно сблизили меня с Microsoft Analysis Services, я стал больше его уважать и делать с его помощью то, что ранее мне казалось невероятным.
Читать дальше →

Видеозапись вебинара «Julia — A fresh approach to numerical computing and data science»

Время на прочтение1 мин
Количество просмотров2.7K


Команда FlyElephant в марте проводила вебинар с со-основателем и CEO в Julia Computing, а также со-автором языка Julia — Viral B. Shah, на тему "Julia — A fresh approach to numerical computing and data science".
Смотреть видеозапись и презентацию

Вклад авторов