Pull to refresh
Big Data-мания имеет под собой реальное основание. Объемы данных, которые собирают компании, стремительно растут, и бизнес при их грамотном анализе может получить большое конкурентное преимущество. Как «причесать» систему, в которой распределенные по разным хранилищам данные соседствуют с зоопарком малофункциональных инструментов для их обработки? Мы в банке ВТБ перешли на Hadoop, внедрив единую экосистему от Teradata по технологии QueryGrid. Нашей болью, муками, собственно интеграцией и результатами мы хотим с вами поделиться.
Под катом - наш опыт внедрения единой экосистемы от Teradata по технологии QueryGrid и Presto.
Total votes 28: ↑27 and ↓1+26
Comments12

Comments 12

Сама по себе Presto, без QueryGrid, имеет схожую функциональность и изначально разрабатывалась в Facebook для тех же целей и, рискну, предположить, еще больших объемов и производительности. Что забавно, Presto умеет использовать Teradata как источник данных, пробрасывать туда предикаты и распараллеливать вычисления.


Можете разъяснить подробнее, какие преимущества привносит Teradata QueryGrid?

fediq Teradata QueryGrid — выступает межсистемной шиной для связки различных SQL Engine (Teradata и Presto/Hadoop, Presto/Hadoop и Oracle, Teradata и Oracle и т.д.) и их интеграции в единую аналитическую экосистему.
Так как компания Teradata является одним из основных контрибьютеров в OpenSource код Presto, то это даёт возможность интеграции движков Presto и Teradata на низком уровне.

Teradata QueryGrid привнес следующие преимущества:

  • простоту установки и настройки компонент;
  • процесс обновления и подключения новых систем к экосистеме банка без даунтайма;
  • администрирование и сопровождение всех компонент из единого портала Teradata Viewpoint.


Павел Ермаков, Терадата.

А пользователи уже получили доступ к кросс запросам из двух систем?
Просто сталкиваемся с тем что простейшие запросы ввиду особенностей висят в очереди минутами, интересно если сделать запрос только к hadoop, запрос будет ждать в общей очереди teradata?
p.s. может немного сумбурно сформулировал, основной инструмент работ Oracle.

Да, доступ у пользователей есть и они его используют.
В TASM (Teradata Active System Management) есть возможность классификации запроса по типу используемого объекта, что в свою очередь позволит направить его выполнение в отдельный пул задач (как ваш пример — разделение по платформам, между Teradata и Hadoop). В TASM-е довольно обширный список по возможным типам классификации нагрузки и, как пример, для бизнес-пользователей используется подход классификаци по коротким/средним/долгим аналитическим запросам.

Павел Ермаков, Терадата.
Думаю, что такой подход коллег обусловлен направлением потока обработки данных. Посредством Hadoop можно подключить большое количество сырых источников данных и после их очистки и подготовки к дальнейшей обработке перевести их (данные) в специализированные системы учета…
Немного не понял в чем преимущество?
Сколько я работал в розничных банках, обычно данные из всех систем аккумулировались в хранилище oracle/sas из которых все необходимые отчеты достаточно быстро выгружались автоматически или по запросу
Хотелось бы заметить, что SAS всё-таки больше про приложения, а не ХД :) И да, под данными приложениями (SAS из Вашего примера) есть СУБД.

Прежние подходы остаются — сбор данных в централизованное транзакционное хранилище, где понятны виды нагрузок (batch, ad-hoc, reporting), но появляются и новые — различная аналитика над данными там, где они располагаются, без необходимости их перемещения, используя максимальные возможности того движка, под которым хранятся эти данные (Presto, Spark, Kafka и др.).

Новой подход расширяет возможности для пользователей/IT, которые получают доступ к данным и последующей аналитики над ними без ожидания их загрузки в централизованное ХД (загрузка в ХД обычно идёт по установленному расписанию, то есть регламенту).

Павел Ермаков, Терадата.
поддержания лояльности существующих клиентов и привлечения новых.
Клиенты банка бегают по офисам вместо курьеров, а они что-то там внедряют )
Курьеров себе внедрите для начала и обслуживание полностью онлайн.
Не знаю как насчет высоких технологий в ВТБ, но на днях обнаружил, что все мои шаблоны исчезли. На законный вопрос «э?» получил от саппорта замечательный ответ «мы перешли на новую систему и последние два года в новостях писали, что надо перенести шаблоны на мастер счета, в итоге мы перевели всех принудительно и все старое потерли». Шаблон это всего лишь набор реквизитов, причем здесь какие-то мастер счета? Зато у нас есть Hadoop, Teradata, QueryGrid…
Извините, что не по теме, но накипело.
Вы меня, конечно, извините… понимаю, что, наверное, «это просто по времени совпало с внедрением чего-то там большого» у вас…

… но вот генерировать текст смс с суммой операции в момент совершения операции, а баланс брать на момент отправки смс — это, возможно, самое глупое что можно придумать в смс-информировании ))

потому что пока вы там «прокачатете смс по очередям» — я сделаю ещё пяток операций и в итоге мне уже около полугода периодически приходят замечательные сообщения типа «поступление 20 000.00 рублей, баланс 10.00 рублей» ))

поправьте сначала это, а уже потом хвалитесь «большими данными». ну серьезно. <_<
Так вот почему мне СМС только третьи сутки приходят. Это все продвинутые современные технологии. Понятно. Буду знать.
так у нормальных банков есть push-уведомления, а не древние sms.
Sign up to leave a comment.