Сергей Коньков
@mongohtotech
архитектор данных
Информация
- В рейтинге
- Не участвует
- Откуда
- Астана, Акмолинская обл. (Целиноградская обл.), Казахстан
- Дата рождения
- Зарегистрирован
- Активность
Специализация
Chief Technology Officer (CTO)
Lead
SQL
Python
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
SSAS:
приобрести MS Windows Server
приобрести SQL Server
нужен специалист по OLAP
нужно разработать OLAP куб
Наше решение:
создать таблицу в BigQuery
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
Да, именно так
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
Тут еще важна скорость. OLAP обеспечивает получение ответов за секунды. BigQuery аналогично.
Поэтому работать с данными в сводной таблице удобно: переставляем поля - быстро получаем результат.
Postrges думаю не всегда сможет дать аналогичную скорость.
Но идея понятна, нужно подумать. Спасибо!
Как анализировать данные из облачных сервисов для автоматизации бизнеса
Отличный материал о том как BigQuery и ClickHouse помогают решать задачи анализа данных в бизнесе. Написано просто и понятно.
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
Вышла хорошая статья как использовать BigQuery для решения задачи анализа данных из облачных бизнес систем - https://habr.com/ru/post/684418/
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
А сколько стоит купить сервер с оперативкой 100 гб?
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
Понятно. спасибо за комментарий. Тут видите в чем плюс у BigQuery. Ест простой API. И есть библиотека BigQuery API Client Libraries для языков Go, Java, Node.js, Python, Ruby, PHP, C#.
Вы можете дать доступ командам разработки разных продуктов к своему BigQuery и сказать: ребята - вот вам простое API, такие то данные пишите сюда. Вот вам уже и основа ETL.
Плюс много готовых интеграций где вы загрузку можете на поток парой кнопок настроить.
Теперь возьмем пример с Hadoop. Туда нужно загружать в каждый час информацию по событиям на веб сайте. Как это быстро и просто решить?
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
Можно прикинуть. Допустим мы загружаем данные в хранилище раз в час. И каждый раз когда грузим нам нужно сделать проверку по каким то ключам.
Важно: BQ при запросах считает только те данные которые он извлекает для запроса. Например у вас лежит таблица: ID + еще 9 полей. Делаем проверку по ID. Google будет считать объем данных только тех полей которые мы пропишем в запросе для проверки - в нашем случае только ID.
Возьмем общий объем базы 100GB, информация в полях с ключами по которым будем проверять и делать MERGE допустим 10GB.
10GB * 24 часа * 30 дней = 7,2 TB = $36 = 2 600 руб
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
Спасибо за комментарий.
Важный момент: в чем принципиальное отличие BigQuery от Oracle например? Быстрый запуск и доступное использование. В этом вся суть.
В статье я показываю как можно начать использование решение практически в течении часа. Теперь представьте что вы решили развернуть Oracle в компании - это кoординально отличается.
C точки зрения инженера по данным возможно различия не так сильны. Попробуйте думать как владелец бизнеса или руководитель ИТ. Что такое Oracle: железо, лицензии, администратор - это нужно спланировать и купить. Что такое BigQuery - готовое решение. Можно сразу начинать использование без вложений.
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
Спасибо за комментарий.
Не согласен - это очень доступно по ценам!
В статье я привел реальный пример из практики: компания из среднего бизнеса объем данных для анализа 100 GB (транзакции из ERP и CRM систем), стоимость стоить $1.8 в месяц. Эта статья главным образом для них.
Вы привели пример: размер данных для анализа 100 терабайт, стоимость $ 2000 это дорого. Можете привести реальный пример.
Не много не сходиться логика. А именно: для среднего бизнеса да $ 2000 это дорого, но у них нет 100 терабайт данных.
А у тех у кого есть 100 терабайт транзакций у них наверняка есть $ 2000.
Ну т.е. что это за компания в вашем примере которая оперирует данными в 100 терабайт но для них $ 2000 это дорого?
Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно
спасибо!
Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих
torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)
2. будет время — напишу ))
Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих
Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих
Геоаналитика в рознице, часть1: автоматизируем процесс выбора места для бизнеса. 2ГИС + MS Azure + ML
Спасибо за комментарий. Соглашусь, что подход оценки торгового центра достаточно прост и не учитывает множества факторов, которые имеют место быть в рознице. Однако, как я отметил в начале статьи, данный материал призван дать читателю обзор технологий и их интеграции.
Думаю поняв эти принципы читатель может использовать другие необходимые данные и строить более сложные решения.
Mobile Business Intelligence средствами Microsoft
SSAS для среднего бизнеса можно без проблем развернуть Std версии.
Mobile Business Intelligence средствами Microsoft
Динамическая персонализированная рассылка отчетности средствами Crystal Reports
Динамическая персонализированная рассылка отчетности средствами Crystal Reports
если сравнить возможности и скорость разработки отчетов в Crystal Reports и Report Builder, то второй сильно проигрывает + для динамической рассылки в MS SQL, если не ошибаюсь нужна Enterprise лицензия.