Как стать автором
Обновить
15
0
Сергей Коньков @mongohtotech

архитектор данных

Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

SSAS:

  • приобрести MS Windows Server

  • приобрести SQL Server

  • нужен специалист по OLAP

  • нужно разработать OLAP куб

Наше решение:

  • создать таблицу в BigQuery

Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

Тут еще важна скорость. OLAP обеспечивает получение ответов за секунды. BigQuery аналогично.

Поэтому работать с данными в сводной таблице удобно: переставляем поля - быстро получаем результат.

Postrges думаю не всегда сможет дать аналогичную скорость.

Но идея понятна, нужно подумать. Спасибо!

Как анализировать данные из облачных сервисов для автоматизации бизнеса

Отличный материал о том как BigQuery и ClickHouse помогают решать задачи анализа данных в бизнесе. Написано просто и понятно.

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Вышла хорошая статья как использовать BigQuery для решения задачи анализа данных из облачных бизнес систем - https://habr.com/ru/post/684418/

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

А сколько стоит купить сервер с оперативкой 100 гб?

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Понятно. спасибо за комментарий. Тут видите в чем плюс у BigQuery. Ест простой API. И есть библиотека BigQuery API Client Libraries для языков Go, Java, Node.js, Python, Ruby, PHP, C#.

Вы можете дать доступ командам разработки разных продуктов к своему BigQuery и сказать: ребята - вот вам простое API, такие то данные пишите сюда. Вот вам уже и основа ETL.

Плюс много готовых интеграций где вы загрузку можете на поток парой кнопок настроить.

Теперь возьмем пример с Hadoop. Туда нужно загружать в каждый час информацию по событиям на веб сайте. Как это быстро и просто решить?

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Можно прикинуть. Допустим мы загружаем данные в хранилище раз в час. И каждый раз когда грузим нам нужно сделать проверку по каким то ключам.

Важно: BQ при запросах считает только те данные которые он извлекает для запроса. Например у вас лежит таблица: ID + еще 9 полей. Делаем проверку по ID. Google будет считать объем данных только тех полей которые мы пропишем в запросе для проверки - в нашем случае только ID.

Возьмем общий объем базы 100GB, информация в полях с ключами по которым будем проверять и делать MERGE допустим 10GB.

10GB * 24 часа * 30 дней = 7,2 TB = $36 = 2 600 руб

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Спасибо за комментарий.

Важный момент: в чем принципиальное отличие BigQuery от Oracle например? Быстрый запуск и доступное использование. В этом вся суть.

В статье я показываю как можно начать использование решение практически в течении часа. Теперь представьте что вы решили развернуть Oracle в компании - это кoординально отличается.

C точки зрения инженера по данным возможно различия не так сильны. Попробуйте думать как владелец бизнеса или руководитель ИТ. Что такое Oracle: железо, лицензии, администратор - это нужно спланировать и купить. Что такое BigQuery - готовое решение. Можно сразу начинать использование без вложений.

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Спасибо за комментарий.

Не согласен - это очень доступно по ценам!

В статье я привел реальный пример из практики: компания из среднего бизнеса объем данных для анализа 100 GB (транзакции из ERP и CRM систем), стоимость стоить $1.8 в месяц. Эта статья главным образом для них.

Вы привели пример: размер данных для анализа 100 терабайт, стоимость $ 2000 это дорого. Можете привести реальный пример.

Не много не сходиться логика. А именно: для среднего бизнеса да $ 2000 это дорого, но у них нет 100 терабайт данных.

А у тех у кого есть 100 терабайт транзакций у них наверняка есть $ 2000.

Ну т.е. что это за компания в вашем примере которая оперирует данными в 100 терабайт но для них $ 2000 это дорого?

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

1. pytorch делает это сам с помощью класса DataParallel:
torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)

2. будет время — напишу ))

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

Здесь приведен пример реализации нейронной сети для распознавания изображений. Работа с изображениями — одно из основных направлений, где используется машинное обучение сегодня. Принципы этого примера можно использовать в реальной бизнес задаче.

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

определенная подготовка нужна конечно ))

Геоаналитика в рознице, часть1: автоматизируем процесс выбора места для бизнеса. 2ГИС + MS Azure + ML

Спасибо за комментарий. Соглашусь, что подход оценки торгового центра достаточно прост и не учитывает множества факторов, которые имеют место быть в рознице. Однако, как я отметил в начале статьи, данный материал призван дать читателю обзор технологий и их интеграции.
Думаю поняв эти принципы читатель может использовать другие необходимые данные и строить более сложные решения.

Mobile Business Intelligence средствами Microsoft

MS SQL Std есть у очень многих (например тех кто использует 1С).
SSAS для среднего бизнеса можно без проблем развернуть Std версии.

Mobile Business Intelligence средствами Microsoft

Если не ошибаюсь, Datazen сервер доступен только при покупке SQL Server Enterprise Edition по подписке Software Assurance

Динамическая персонализированная рассылка отчетности средствами Crystal Reports

Имеется ввиду, когда для различных пользователей отправляется различная информация (персонализированные отчеты)

Динамическая персонализированная рассылка отчетности средствами Crystal Reports

Reporting Services — неплохой инструмент, но
если сравнить возможности и скорость разработки отчетов в Crystal Reports и Report Builder, то второй сильно проигрывает + для динамической рассылки в MS SQL, если не ошибаюсь нужна Enterprise лицензия.

Информация

В рейтинге
Не участвует
Откуда
Астана, Акмолинская обл. (Целиноградская обл.), Казахстан
Дата рождения
Зарегистрирован
Активность

Специализация

Chief Technology Officer (CTO)
Lead
SQL
Python