Pull to refresh
15
0
Сергей Коньков @mongohtotech

архитектор данных

Send message

SSAS:

  • приобрести MS Windows Server

  • приобрести SQL Server

  • нужен специалист по OLAP

  • нужно разработать OLAP куб

Наше решение:

  • создать таблицу в BigQuery

Тут еще важна скорость. OLAP обеспечивает получение ответов за секунды. BigQuery аналогично.

Поэтому работать с данными в сводной таблице удобно: переставляем поля - быстро получаем результат.

Postrges думаю не всегда сможет дать аналогичную скорость.

Но идея понятна, нужно подумать. Спасибо!

Отличный материал о том как BigQuery и ClickHouse помогают решать задачи анализа данных в бизнесе. Написано просто и понятно.

Вышла хорошая статья как использовать BigQuery для решения задачи анализа данных из облачных бизнес систем - https://habr.com/ru/post/684418/

Понятно. спасибо за комментарий. Тут видите в чем плюс у BigQuery. Ест простой API. И есть библиотека BigQuery API Client Libraries для языков Go, Java, Node.js, Python, Ruby, PHP, C#.

Вы можете дать доступ командам разработки разных продуктов к своему BigQuery и сказать: ребята - вот вам простое API, такие то данные пишите сюда. Вот вам уже и основа ETL.

Плюс много готовых интеграций где вы загрузку можете на поток парой кнопок настроить.

Теперь возьмем пример с Hadoop. Туда нужно загружать в каждый час информацию по событиям на веб сайте. Как это быстро и просто решить?

Можно прикинуть. Допустим мы загружаем данные в хранилище раз в час. И каждый раз когда грузим нам нужно сделать проверку по каким то ключам.

Важно: BQ при запросах считает только те данные которые он извлекает для запроса. Например у вас лежит таблица: ID + еще 9 полей. Делаем проверку по ID. Google будет считать объем данных только тех полей которые мы пропишем в запросе для проверки - в нашем случае только ID.

Возьмем общий объем базы 100GB, информация в полях с ключами по которым будем проверять и делать MERGE допустим 10GB.

10GB * 24 часа * 30 дней = 7,2 TB = $36 = 2 600 руб

Спасибо за комментарий.

Важный момент: в чем принципиальное отличие BigQuery от Oracle например? Быстрый запуск и доступное использование. В этом вся суть.

В статье я показываю как можно начать использование решение практически в течении часа. Теперь представьте что вы решили развернуть Oracle в компании - это кoординально отличается.

C точки зрения инженера по данным возможно различия не так сильны. Попробуйте думать как владелец бизнеса или руководитель ИТ. Что такое Oracle: железо, лицензии, администратор - это нужно спланировать и купить. Что такое BigQuery - готовое решение. Можно сразу начинать использование без вложений.

Спасибо за комментарий.

Не согласен - это очень доступно по ценам!

В статье я привел реальный пример из практики: компания из среднего бизнеса объем данных для анализа 100 GB (транзакции из ERP и CRM систем), стоимость стоить $1.8 в месяц. Эта статья главным образом для них.

Вы привели пример: размер данных для анализа 100 терабайт, стоимость $ 2000 это дорого. Можете привести реальный пример.

Не много не сходиться логика. А именно: для среднего бизнеса да $ 2000 это дорого, но у них нет 100 терабайт данных.

А у тех у кого есть 100 терабайт транзакций у них наверняка есть $ 2000.

Ну т.е. что это за компания в вашем примере которая оперирует данными в 100 терабайт но для них $ 2000 это дорого?

1. pytorch делает это сам с помощью класса DataParallel:
torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)

2. будет время — напишу ))
Здесь приведен пример реализации нейронной сети для распознавания изображений. Работа с изображениями — одно из основных направлений, где используется машинное обучение сегодня. Принципы этого примера можно использовать в реальной бизнес задаче.

Спасибо за комментарий. Соглашусь, что подход оценки торгового центра достаточно прост и не учитывает множества факторов, которые имеют место быть в рознице. Однако, как я отметил в начале статьи, данный материал призван дать читателю обзор технологий и их интеграции.
Думаю поняв эти принципы читатель может использовать другие необходимые данные и строить более сложные решения.

MS SQL Std есть у очень многих (например тех кто использует 1С).
SSAS для среднего бизнеса можно без проблем развернуть Std версии.
Если не ошибаюсь, Datazen сервер доступен только при покупке SQL Server Enterprise Edition по подписке Software Assurance
Имеется ввиду, когда для различных пользователей отправляется различная информация (персонализированные отчеты)
Reporting Services — неплохой инструмент, но
если сравнить возможности и скорость разработки отчетов в Crystal Reports и Report Builder, то второй сильно проигрывает + для динамической рассылки в MS SQL, если не ошибаюсь нужна Enterprise лицензия.

Information

Rating
Does not participate
Location
Астана, Акмолинская обл. (Целиноградская обл.), Казахстан
Date of birth
Registered
Activity

Specialization

Chief Technology Officer (CTO)
Lead
SQL
Python