Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

ph_piter 27 фев 2020 в 09:15

Паттерны хранения данных в Kubernetes

9 мин

7.4K

Блог компании Издательский дом «Питер»Big Data*Data Engineering*Kubernetes*Программирование*

Перевод

Привет, Хабр!

Напоминаем, что у нас вышла очередная чрезвычайно интересная и полезная книга о паттернах Kubernetes. Начиналось все еще с "Паттернов" Брендана Бернса, и, впрочем, работа в этом сегменте у нас кипит. Сегодня же мы предлагаем вам почитать статью из блога MinIO, кратко излагающую тенденции и специфику паттернов хранения данных в Kubernetes.

Читать дальше →

+8

DimaFromMai 8 фев 2020 в 15:35

Анализ рынка недвижимости на основе данных с msgr.ru

4 мин

23K

Big Data*Data Mining*Python*Визуализация данных*Исследования и прогнозы в IT*

Недавно столкнулся с проблемой выбора квартиры и конечно первым делом решил узнать, что происходит на рынке недвижимости и, как это обычно бывает, половина экспертов с youtube.com говорят, что недвижимость будет расти, другая утверждает, что наоборот цена будет падать. В итоге решил разобраться сам, и вот, что из этого вышло.

© Designed by upklyak / Freepik

Читать дальше →

+8

MaxRokatansky 7 фев 2020 в 15:41

Delta: Платформа синхронизации данных и обогащения

9 мин

3.2K

Блог компании OTUSBig Data*Data Engineering*

Перевод

В преддверии запуска нового потока по курсу «Data Engineer» подготовили перевод интересного материала.

Обзор

Мы поговорим о достаточно популярном паттерне, с помощью которого приложения используют несколько хранилищ данных, где каждое хранилище используется под свои цели, например, для хранения канонической формы данных (MySQL и т.д.), обеспечения расширенных возможностей поиска (ElasticSearch и т.д.), кэширования (Memcached и т.д.) и других. Обычно при использовании нескольких хранилищ данных одно из них работает как основное хранилище, а другие как производные хранилища. Единственная проблема заключается в том, как синхронизировать эти хранилища данных.

Мы рассмотрели ряд различных паттернов, которые пытались решить проблему синхронизации нескольких хранилищ, таких как двойная запись, распределенные транзакции и т.д. Однако эти подходы имеют существенные ограничения в плане использования в реальной жизни, надежности и технического обслуживания. Помимо синхронизации данных, некоторым приложениям также необходимо обогащать данные, вызывая внешние сервисы.

Читать дальше →

+8

eduard93 5 фев 2020 в 07:49

Python Gateway в InterSystems IRIS

18 мин

2.3K

Блог компании InterSystemsБазы данных*Python*Data Engineering*Big Data*

Туториал

Перевод

Эта статья посвящена Python Gateway — комьюнити-проекту с открытым исходным кодом для платформы данных InterSystems IRIS. Этот проект позволяет оркестрировать любые алгоритмы машинного обучения, созданные на языке Python (основная среда для многих Data Scientists), использовать многочисленные готовые библиотеки для быстрого создания адаптивных, роботизированных аналитических AI/ML-решений на платформе InterSystems IRIS. В этой статье я покажу как InterSystems IRIS может оркестровать процессы на языке Python, эффективно осуществлять двустороннюю передачу данных и создавать интеллектуальные бизнес-процессы.

Читать дальше →

+8

balajahe 26 янв 2020 в 11:41

На пути к функциональной СУБД и NoSQL ERP: хранение остатков и расчет себестоимости

10 мин

4.8K

Функциональное программирование*Анализ и проектирование систем*NoSQL*ERP-системы*Big Data*

Привет, Хабр!

Продолжаем исследовать применимость принципов функционального программирования при проектировании ERP. В предыдущей статье мы рассказали зачем это нужно, заложили основы архитектуры, и продемонстрировали построение простых сверток на примере оборотной ведомости. По сути, предлагается подход event sourcing, но за счет разделения БД на иммутабельную и мутабельную часть, мы получаем в одной системе комбинацию преимуществ map / reduce-хранилища и in-memory СУБД, что решает как проблему производительности, так и проблему масштабируемости. В этой статье я расскажу (и покажу прототип на TypeScript и рантайме Deno), как в такой системе хранить регистры мгновенных остатков и рассчитывать себестоимость. Для тех, кто не читал 1-ю статью — краткое резюме:

1. Журнал документов. ERP, построенная на базе РСУБД представляет собой огромный мутабельный стейт с конкурентным доступом, поэтому не масштабируется, слабо-аудируема, и ненадежна в эксплуатации (допускает рассогласование данных). В функциональной ERP все данные организованы в виде хронологически-упорядоченного журнала иммутабельных первичных документов, и в ней нет ничего кроме этих документов. Связи разрешаются от новых документов к старым по полному ID (и никогда наоборот), а все остальные данные (остатки, регистры, сопоставления) являются вычисляемыми свертками, то есть кэшируемыми результами работы чистых функций на потоке документов. Отсутствие стейта + аудируемость функций дает нам повышенную надежность (блокчейн на эту схему прекрасно ложится), а бонусом мы получаем упрощение схемы хранения + адаптивный кэш вместо жесткого (организованного на базе таблиц).

Читать дальше →

+8

rt001 21 янв 2020 в 19:24

Ограничение доступа к атрибутам измерения в табличной модели SSAS

3 мин

3.6K

Big Data*Data Mining*Microsoft SQL Server*Visual Studio*Информационная безопасность*

Туториал

Бывают случаи, когда нужно ограничить пользователям доступ к некоторым данным в кубе. Казалось бы, тут нет ничего сложного: устанавливай построчные фильтры в ролях и готово, но есть одна проблема — фильтр урезает данные в таблице и получается, что можно посмотреть обороты только по доступным строкам, а нам нужны все обороты, но детализация должна быть доступна только для части из них.

Например, пользователь должен видеть обороты по всем товарам, с возможностью полной детализации по ним, но клиенты при этом должны отображаться не все, а лишь некоторые, либо все клиенты, но с частично скрытыми данными в некоторых атрибутах (полях).

Чтобы не дать пользователю возможность просматривать обороты в разрезе клиентов, можно обыграть это через формулы в мерах и выводить пустое значение, если пользователь попытается посмотреть оборот конкретного клиента, один из подобных вариантов описан здесь. Однако это всё не то. Когда мер несколько десятков, то писать в каждой из них формулу… а если забудешь? Но ведь точно забудешь же когда-нибудь… А если пользователю нужны данные из конкретной карточки клиента, то ему ни что не помешает это увидеть без выбора фильтрующей меры. Что же делать?

Нам нужно было добиться вот такого отображения:

Читать дальше →

+8

Korolevmv 25 дек 2019 в 13:04

Apache Spark, lazy evaluation и многостраничные SQL запросы

6 мин

6.1K

Блог компании АльфаСтрахованиеBig Data*Hadoop*

Известное об известном: spark работает с “датафреймами” (dataframes), которые являются алгоритмами трансформации. Алгоритм запускается в самый последний момент для того, чтобы "дать больше места" оптимизации и за счет оптимизации максимально эффективно его выполнить.

Под катом мы разберем — как можно разложить многостраничный SQL запрос на атомы (без потери эффективности) и как можно за счет этого существенно уменьшить время выполнения ETL конвейера.

Читать дальше →

+8

STAR_Academy 7 ноя 2019 в 07:43

Что изучают на специальности Data Science в зарубежных вузах

4 мин

11K

Big Data*Образование за рубежом

Recovery Mode

«Будь то компания, предоставляющая финансовые услуги, которая хочет снизить риски, или ритейлер, пытающийся предсказать поведение покупателей, сценарий применения ИИ и машинного обучения основан на эффективной стратегии использования данных», — слова Рёхея Фуджимаки, основателя компании dotData и самого молодого научного сотрудника в истории 119-летней IT-корпорации NEC.

С ростом спроса, растет и количество программ Data Science в университетах. Какие модули изучают студенты, какие визовые возможности предусмотрены для выпускников вузов — разбираемся ниже.

Читать дальше →

+8

ASenterprise 29 окт 2019 в 11:08

Закат эпохи Big Data

4 мин

18K

Big Data*Data Mining*Hadoop*Искусственный интеллектОблачные сервисы*

Из песочницы

Множество иностранных авторов сходятся к тому, что эпоха Big Data подошла к концу. И в данном случае под термином Big Data понимаются технологии, основанные на Hadoop. Многие авторы, даже могут с уверенностью назвать дату, когда Big Data оставила этот мир и эта дата — 05.06.2019.

Что же произошло в этот знаменательный день?

В этот день, компания MAPR обещала приостановить свою работу, если не сможет найти средства для дальнейшего функционирования. Позднее, в августе 2019 года MAPR был приобретен компанией HP. Но возвращаясь к июню нельзя не отметить, трагичность этого периода для рынка Big Data. В этом месяце произошел обвал биржевых котировок акций компании CLOUDERA – ведущего игрока на обозначенном рынке, которая произвела слияние с хронически неприбыльным HORTOWORKS в январе этого же года. Обвал был весьма существенен и составил 43%, в конечном итоге капитализация CLOUDERA снизилась с 4,1 до 1,4 миллиарда долларов.

Невозможно не сказать, что слухи о надувании пузыря в сфере технологий, базирующихся на Hadoop, ходили еще с декабря 2014 года, но он мужественно продержался еще почти пять лет. Слухи эти основывались на отказе Google, компании в которой зародилась технология Hadoop, от своего изобретения. Но технология, прижилась, на время перехода компаний к облачным средствам обработки и бурного развития искусственного интеллекта. Поэтому, оборачиваясь назад, можно с уверенностью сказать, что кончина была ожидаемой.

Таким образом, эра Big Data подошла к концу, но в процессе работы над большими данными компании осознали все нюансы работы над ними, выгоды, которые Big Data может принести бизнесу, а также научились пользоваться искусственным интеллектом для извлечения ценности из сырых данных.

Тем интереснее становится вопрос о том, что же придет на смену этой технологии и как будут дальше развиваться технологии аналитики.

Читать дальше →

+8

gansior_al 15 сен 2019 в 15:22

CQM — другой взгляд в глубоком обучении для оптимизации поиска на естественном языке

3 мин

2.7K

Data Mining*Big Data*

CQM — другой взгляд в глубоком обучении для оптимизации поиска на естественном языке

Краткое описание: Calibrated Quantum Mesh (CQM)— это следующий шаг от RNN / LSTM (Рекуррентные нейронные сети RNN (Recurrent Neural Networks) / Долгая краткосрочная память (Long short-term memory; LSTM) ). Появился новый алгоритм, называемый Calibrated Quantum Mesh (CQM), который обещает повысить точность поиска на естественном языке без использования размеченных данных обучения.

Читать дальше

+8

Ksunka132 29 авг 2019 в 12:15

Apache NIFI — Краткий обзор возможностей на практике

6 мин

21K

Java*HabrGroovy & Grails*Big Data*Apache*

Туториал

Введение

Так получилось, что на моем текущем месте работы мне пришлось познакомиться с данной технологией. Начну с небольшой предыстории. На очередном митинге, нашей команде сказали, что нужно создать интеграцию с известной системой. Под интеграцией подразумевалось, что эта известная система будет нам слать запросы через HTTP на определенный ендпоинт, а мы, как это ни странно, слать обратно ответы в виде SOAP сообщения. Вроде все просто и тривиально. Из этого следует что нужно…

Читать дальше →

+8

MaxRokatansky 5 авг 2019 в 14:52

Создаем конвейер потоковой обработки данных. Часть 2

8 мин

5.5K

Блог компании OTUSBig Data*Хранение данных*

Перевод

Всем привет. Делимся переводом заключительной части статьи, подготовленной специально для студентов курса «Data Engineer». С первой частью можно ознакомиться тут.

Apache Beam и DataFlow для конвейеров реального времени

Настройка Google Cloud

Примечание: Для запуска конвейера и публикации данных пользовательского лога я использовал Google Cloud Shell, поскольку у меня возникли проблемы с запуском конвейера на Python 3. Google Cloud Shell использует Python 2, который лучше согласуется с Apache Beam.

Чтобы запустить конвейер, нам нужно немного покопаться в настройках. Тем из вас, кто раньше не пользовался GCP, необходимо выполнить следующие 6 шагов, приведенных на этой странице.

Читать дальше →

+8

am-habr 11 июл 2019 в 15:32

Качество данных в хранилище

4 мин

4.7K

Big Data*Хранение данных*

Из песочницы

Качество данных в хранилище является важной предпосылкой к получению ценной информации. Плохое качество ведёт к негативной цепной реакции в долгосрочной перспективе.
Сначала теряется доверие к предоставленной информации. Люди начинают меньше использовать Business Intelligence приложения, потенциал приложений остаётся не востребованным.
В результате, под вопрос ставятся дальнейшие инвестиции в аналитический проект.

Ответственность за качество данных

Аспект, связанный с улучшением качества данных, является мегаважным в BI проектах. Однако, он не является привилигией только технических специалистов.

Читать дальше →

+8

Korolevmv 8 июл 2019 в 10:45

О сравнении форматов хранения в Hadoop: начнем с ORC

8 мин

9.6K

Блог компании АльфаСтрахованиеHadoop*Big Data*

В Hadoop входят продукты, которые могут работать с файлами разных форматов. Я неоднократно искал, читал и думал над тем — какой же формат лучше. Относительно случайно столкнувшись с форматом ORC, заинтересовался, почитал (и даже чуть покодил) и вот что понял — сравнивать форматы как таковые некорректно. Точнее, их обычно сравнивают, на мой взгляд, некорректным образом. Собственно, статья об этом, а также о формате Apache ORC (в техническом плане) и предоставляемых им возможностях.

Начну с вопроса: каким может быть размер реляционной таблицы (в байтах и очень примерно), состоящей из 10 тысяч строк (по два целых поля в строке)? Обычно здесь ставят кат, а ответ помещают под катом — я отвечу здесь: 628 байт. А детали и историю перенесу под кат.

Читать дальше →

+8

Sistemaalex 4 июл 2019 в 21:02

Шум в больших данных. Анализ на основе энтропии информации

4 мин

8.3K

Открытые данные*Визуализация данных*Алгоритмы*Data Mining*Big Data*

Попалась задача под названием «Квартет Энскомба (Анскомба)» (англ.версия).

На рисунке 1 представлено табличное распределение 4 случайных функций (взято из Википедии).

Рис. 1. Табличное распределение четырех случайных функций

На рисунке 2 представлены параметры распределения этих случайных функций

Рис. 2. Параметры распределений четырех случайных функций

И их графики на рисунке 3.

Рис. 3. Графики четырех случайных функций

Проблема различения этих функций решается достаточно просто, путем сопоставления моментов высших порядков и их нормированных показателей: коэффициента асимметрии и коэффициента эксцесса. Данные показатели представлены на рисунке 4.

Читать дальше →

+8

KseniaDS 21 июн 2019 в 15:30

Освобождаем руки нескольким аналитикам: API Livy для автоматизации типовых банковских задач

5 мин

3.1K

Блог компании Хоум БанкBig Data*Hadoop*Python*Машинное обучение*

Привет, Хабр!

Не секрет, что для оценки платежеспособности клиентов банки используют данные из различных источников (кредитное бюро, мобильные операторы и т.д.). Количество внешних партнёров может достигать нескольких десятков, а аналитиков в нашей команде наберётся лишь несколько человек. Возникает задача оптимизации работы небольшой команды и передачи рутинных задач вычислительным системам.

Как данные попадают в банк, и как команда аналитиков следит за этим процессом, разберём в данной статье.

Читать дальше →

+8

Galimardanov 14 июн 2019 в 10:08

Проблемы анализа Больших Данных

9 мин

9.4K

Из песочницы

Каковы проблемы анализа Больших Данных

Большие Данные создают характерные особенности, которые не разделяются традиционными наборами данных. Эти особенности создают значительные проблемы для анализа данных и мотивируют разработку новых статистических методов. В отличие от традиционных наборов данных, где объем выборки, как правило, больше, чем измерение, Большие Данные характеризуются огромным размером выборки и высокой размерностью. Во-первых, мы обсудим влияние большого размера выборки на понимание неоднородности: с одной стороны, большой размер выборки позволяет нам раскрыть скрытые модели, связанные с небольшими подгруппами населения и слабой общностью среди всей популяции. С другой стороны, моделирование внутренней неоднородности Больших Данных требует более сложных статистических методов. Во-вторых, мы обсудим несколько уникальных явлений, связанных с высокой размерностью, включая накопление шума, ложную корреляцию и случайную эндогенность. Эти уникальные особенности делают традиционные статистические процедуры недействительными.

Читать дальше →

+8

MaxRokatansky 20 мая 2019 в 15:41

Кто такие дата-инженеры, и как ими становятся?

9 мин

163K

Блог компании OTUSХранение данных*Data Engineering*Big Data*

Перевод

И снова здравствуйте! Заголовок статьи говорит сам о себе. В преддверии старта курса «Data Engineer» предлагаем разобраться в том, кто же такие дата-инженеры. В статье очень много полезных ссылок. Приятного прочтения.

Простое руководство о том, как поймать волну Data Engineering и не дать ей затянуть вас в пучину.

Складывается впечатление, что в наши дни каждый хочет стать дата-саентистом (Data Scientist). Но как насчет Data Engineering (инжиниринга данных)? По сути, это своего рода гибрид дата-аналитика и дата-саентиста; дата-инженер обычно отвечает за управление рабочими процессами, конвейерами обработки и ETL-процессами. Ввиду важности этих функций, в настоящее время это очередной популярный профессиональный жаргонизм, который активно набирает обороты.

Высокая зарплата и огромный спрос — это лишь малая часть того, что делает эту работу чрезвычайно привлекательной! Если вы хотите пополнить ряды героев, никогда не поздно начать учиться. В этом посте я собрал всю необходимую информацию, чтобы помочь вам сделать первые шаги.

Итак, начнем!

Читать дальше →

+8

Tetiana_Matviienko 9 апр 2019 в 13:38

Как, кому и зачем идти в консалтинг? Личный опыт на примере Big Data

6 мин

5.8K

Big Data*Управление продуктом*Управление проектами*

Из песочницы

Сегодня я расскажу о том, как устроен консалтинг в IT на примере Big Data, поделюсь личным опытом, как я попала в эту сферу, и кейсами из практики, а также дам совет, кому и зачем стоит пробовать себя в консалтинге.

Читать дальше →

+8

Ivanov_AG 5 апр 2019 в 09:51

Как развернуть SAP HANA: разбираем разные методы

11 мин

9.6K

Блог компании AtosБазы данных*Big Data*Хранение данных*

SAP HANA — популярная in-memory СУБД, включающая сервисы хранилищ (Data Warehouse) и аналитики, встроенное промежуточное ПО, сервер приложений, платформу для настройки или разработки новых утилит. За счет устранения задержек традиционных СУБД с SAP HANA можно сильно увеличить производительность систем, обработку транзакции (OLTP) и бизнес-аналитику (OLAP).

Развернуть SAP HANA можно в режимах Appliance и TDI (если говорить о продуктивных средах). Для каждого варианта у производителя есть свои требования. В этом посте мы расскажем о преимуществах и недостатках разных вариантов, а также для наглядности — о наших реальных проектах с SAP HANA.

Читать дальше →

+8

1 2 ...

106

107 108 ...