Pull to refresh

Просто и доступно о аналитических БД

SQL *Big Data *
Интерес к технологиям Big Data постоянно растет, а сам термин приобретает все большую популярность, многие люди хотят поговорить об этом, обсудить перспективы и возможности в этой области. Однако немногие конкретизируют — какие компании представлены на этом рынке, не описывают решения этих компаний, а также не рассказывают про методы, лежащие в основе решений Big Data. Область информационных технологий, относящихся к хранению и обработке данных, претерпела существенные изменения к настоящему моменту и представляет собой стремительно растущий рынок, а значит лакомый кусок для многих всемирно известных и небольших, только начинающих, компаний в этой сфере. У типичной крупной компании имеется несколько десятков оперативных баз данных, хранящих данные об оперативной деятельности компании (о сделках, запасах, остатках и т.п.), которые необходимы аналитикам для бизнес-анализа. Так как сложные, непредвиденные запросы могут привести к непредсказуемой нагрузке на оперативные базы данных, то запросы аналитиков к таким базам данных стараются ограничить. Кроме того, аналитикам необходимы исторические данные, а также данные из нескольких источников. Для того чтобы обеспечить аналитикам доступ к данным, компании создают и поддерживают так называемые хранилища данных, представляющие собой информационные корпоративные базы данных, предназначенные для подготовки отчетов, анализа бизнес-процессов и поддержки системы принятия решений. Хранилища данных служат также источником для оценки эффективности маркетинговых кампаний, прогнозированию, поиску новых возможных рынков и аудиторий для продажи, всевозможному анализу предыдущих периодов деятельности компаний. Как правило, хранилище данных – это предметно-ориентированная БД, строящаяся на временной основе, т.е. все изменения данных отслеживаются и регистрируются по времени, что позволяет проследить динамику событий. Также хранилища данных хранят долговременные данные — это означает, что они никогда не удаляются и не переписываются – вносятся только новые данные, это необходимо для изучения динамики изменения данных во времени. И последнее, хранилища данных, в большинстве случае, консолидированы с несколькими источниками, т.е. данные попадают в хранилище данных из нескольких источников, причем, прежде чем попасть в хранилище данных, эти данные проходят проверку на непротиворечивость и достоверность.
Читать дальше →
Total votes 8: ↑5 and ↓3 +2
Views 60K
Comments 8

Teradata – СУБД, параллельная от рождения

Teradata corporate blog SQL *Big Data *
Приветствуем, уважаемые Хабравчане. Последнее время на Хабре стало мелькать название компании Teradata в тех или иных вопросах. И, увидев возможный интерес, мы решили рассказать немного о том, что же такое СУБД Teradata, от первого лица. Мы планируем подготовить небольшую серию статей о самых интересных, на наш взгляд, технических особенностях СУБД и работы с ней. Если у вас есть опыт работы с Teradata или в вашей компании используется наша платформа и у вас есть вопросы – подкидывайте их, и мы либо ответим на них в комментариях, либо подготовим соответствующую полноценную статью. А начнем с небольшого обзора. Для знакомства, так сказать.
Читать дальше →
Total votes 28: ↑21 and ↓7 +14
Views 33K
Comments 30

Статистика в СУБД Teradata

Teradata corporate blog SQL *
«There are three kinds of lies: lies, damned lies, and statistics» Бенджамин Дизраэли, 40-й премьер-министр Великобритании

Статистическая информация о данных в СУБД играет важную роль в производительности системы. С учетом ряда комментариев к прошлой статье, мы решили описать, зачем нужна статистика в СУБД Teradata, как она учитывается оптимизатором, на что влияет, и дать ряд практических советов по сбору статистики для тех, кто работает с нашей СУБД.
Читать дальше →
Total votes 15: ↑14 and ↓1 +13
Views 21K
Comments 6

Информационные ресурсы по теме Teradata

Teradata corporate blog
Общаясь с пользователями наших систем, мы время от времени получаем вопросы о том, какие информационные ресурсы существуют касательно Teradata и ее продуктов. Чтобы ответить на эти вопросы и здесь мы решили собрать список ресурсов, которые прямым образом относятся к Teradata, и где можно найти всё от дистрибутивов до документации и форумов.

  • Официальная документация по Teradata: www.info.teradata.com, в том числе документация по самой СУБД
  • Сообщество разработчиков Teradata: developer.teradata.com. Здесь можно найти много статей и Q&A
  • Официальный форум Teradata: forums.teradata.com/forum
  • Дистрибутивы: downloads.teradata.com/download Можно скачать утилиты, а так же Express версию СУБД Teradata (в виде VMware или EC2). Так же для скачивания доступна виртуальная машина Teradata Aster — это BigData решение от Teradata
  • Не официальный, но активный форум по Teradata: www.teradataforum.com — работает в виде конференции.
  • Блог Европейского (EMEA) региона Teradata: blogs.teradata.com/emea
  • Электронная версия журнала Teradata Magazine: www.teradatamagazine.com
  • Ну и просто официальный сайт Teradata: www.teradata.com
Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Views 4.8K
Comments 0

Поколоночное и гибридное хранение записей в СУБД Teradata

Teradata corporate blog SQL *
До недавнего времени все СУБД, работающие со структурированными данными (и не только их), можно было разделить на 2 категории: хранящие записи в построчном формате и хранящие записи в поколоночном формате. Это фундаментальное отличие, влияющее на то, как строки таблиц выглядят на уровне внутренних механизмов хранения СУБД. Долгое время СУБД Teradata относилась к первой группе, но с выходом 14-й версии представилась возможность определять, как хранить данные конкретной таблицы – в виде колонок или строк. Таким образом, появилось гибридное хранение. В этой статье мы хотим рассказать о том, зачем это нужно, как это реализовано и какие преимущества дает.
Подробности
Total votes 15: ↑13 and ↓2 +11
Views 12K
Comments 21

Teradata CTO Road Show — 28 мая, Москва

Teradata corporate blog
Уважаемые хабравчане, приглашаем принять участие в техническом семинаре Teradata CTO Road Show, который состоится в Москве 28 мая 2013 г. Семинар организуется в рамках европейского Road Show компании Teradata, посвященного основным технологическим трендам в области хранилищ данных, аналитики больших данных и BI.

Ключевой спикер семинара Стивен Бробст, CTO корпорации Teradata, детально расскажет о технологических инновациях, благодаря которым Teradata занимает лидирующие позиции на рынке, докажет важность использования семантического моделирования для успешного построения интегрированного хранилища данных путем сокращения избыточности данных, улучшения качества данных и снижения TCO.

Другие спикеры: Hermann Woestefeld (Герман Вестефильд), Director Architecture Consulting Teradata International и Михаил Ганюшкин, Ведущий архитектор Teradata Россия.

В ходе семинара будут освещены следующие темы:
  • Аналитика графов как важнейшая составляющая аналитики больших данных
  • Новые функциональные возможности Teradata 14.10
  • Когда и при каких обстоятельствах целесообразно использовать индексы базы данных

Место проведения и регистрация
Total votes 2: ↑1 and ↓1 0
Views 1K
Comments 0

Что такое Teradata?

SQL *Big Data *
Sandbox
Предисловие: По работе мне пришлось изучать устройство базы данных Teradata, и оказалось, что в интернете почти нет информации, особенно на русском языке. Поэтому я решила собрать в кучу всю доступную информацию.

Стремительное увеличение объемов носителей информации и удешевление стоимости хранения данных привело к появлению методов, способных обеспечить более быстрый доступ к необходимым данным – индексы, хранение данных в отсортированном виде и т.п. Эти методы вполне успешно справляются со своей задачей, однако возрастающая конкуренция в мире заставляет искать новые, более быстрые, способы доступа к информации. «Кто владеет информацией, тот владеет миром». Основной интерес вызывают базы данных с традиционной реляционной моделью данных, отвечающие требованиям ACID (Atomicity, Consistency, Isolation, Durability — атомарность, согласованность, изолированность, надежность) и предназначенные для аналитики Больших Данных (Big Data).

Teradata – это параллельная реляционная СУБД, которая работает на операционных системах:

  • MP-RAS UNIX
  • Microsoft Windows 2000/2003 Server
  • SuSE Linux

Разнообразие поддерживаемых ОС — одна из причин, почему Teradata имеет открытую архитектуру.
Читать дальше →
Total votes 13: ↑11 and ↓2 +9
Views 68K
Comments 9

Распределение строк и доступ в СУБД Teradata (Primary Index)

SQL *Big Data *
Предыдущий пост: Что такое Teradata?

Как Teradata распределяет строки?

  • Teradata использует алгоритм хэширования для рандомного распределения строк таблицы между AMP-ами (преимущества: распределение одинаково, независимо от объема данных, и зависит от содержания строки, а не демографии данных)
  • Primary Index определяет, будут ли строки таблицы распределены равномерно или неравномерно между AMP-ами
  • Равномерное распределение строк таблицы ведет к равномерному распределению нагрузки
  • Каждый AMP отвечает только за свое подмножество строк каждой таблицы
  • Строки размещаются неупорядоченно (преимущества: не требуется поддержка сохранения порядка, порядок не зависит от любого представленного запроса)


Primary Key (PK) vs. Primary Index (PI)

Primary Key (первичный ключ) – это условность реляционной модели, которая однозначно определяет каждую строку.
Primary Index – это условность Teradata, которая определяет распределение строк и доступ.
Хорошо спроектированная база данных содержит таблицы, в которых PI такой же как и PK, а также таблицы, в которых PI определен в столбцах, отличных от PK, и может влиять на пути доступа.
Читать дальше →
Total votes 7: ↑5 and ↓2 +3
Views 14K
Comments 0

Физический дизайн структур хранения в СУБД Teradata

Teradata corporate blog System Analysis and Design *SQL *
Tutorial

Что такое физический дизайн структур хранения


Основная цель, преследуемая в ходе разработки физической модели данных, — создание таких объектов для конкретной платформы/СУБД, которые позволят достигнуть максимальной производительности запросов/приложений, создающих основную нагрузку, сведя при этом дополнительные затраты, такие как необходимость поддерживать дополнительные индексы, выполнять материализацию производных данных и т. п., к минимуму.
Все реляционные СУБД построены на одних принципах, но каждой платформе присущи уникальные черты в виде наличия различных типов объектов и особенностей их реализации. По этой причине процесс физического моделирования является платформенно-зависимым, в отличие от логического моделирования, основная цель которого — достоверно описать данные и бизнес-процессы.
Читать дальше →
Total votes 18: ↑16 and ↓2 +14
Views 19K
Comments 7

Дополнительные техники физического моделирования в Teradata

Teradata corporate blog SQL *
Tutorial
Продолжая публикацию материалов о техниках физического моделирования в СУБД Teradata мы, как и обещали в прошлой статье, хотим рассказать о дополнительных техниках, не относящихся напрямую к обычным индексам (хоть в этой статье мы и коснемся особых видов индексов, о которых следует знать).

Помимо обычных индексов в СУБД Teradata присутствует ряд специфичных и иногда тонких техник, которые могут применяться в физическом моделировании. Приведем описание большинства из техник, а если возникнут вопросы или желание узнать подробней, будем рады ответить в комментариях.
Читать дальше →
Total votes 8: ↑6 and ↓2 +4
Views 6.8K
Comments 2

Oracle vs Teradata vs Hadoop

Oracle *Big Data *Hadoop *
Sandbox
Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.
Читать дальше →
Total votes 14: ↑8 and ↓6 +2
Views 22K
Comments 36

Недостатки RDBMS или RDBMS vs NoSQL

Oracle *NoSQL *
Изложу мое видение по каким причинам были созданы новые технологии хранения и обработки данные известные как NoSQL и MPP.
Статья будет полезна особенно начинающим пионерам в разработки БД.
В статье не рассматриваются специализированные базы данных для векторных, графический и прочих нестандартных форматов.

Первое, SQL и RDBMS
1.1. Необходимо знать язык SQL и основные принципы RDBMS как транзакции, foreign key, таблицы.
Допустим вы разработчик Java, и от вас еще требуют знать какой-то SQL и особенности RDBMS. Естественно вы ленитесь, пытаетесь как-то отвильнуть.
Да и к тому-же принцип ООП очень не похож на модель данных в RDBMS.
1.2. Если у вас большой проект, то вам нужен профессиональный БД разработчик, а это лишний балласт если не будет проектов в будущем.
Java программистам так и хочется сделать всю бизнес логику на Java в обход SQL и RDBMS.

Второе, Цена
Читать дальше →
Total votes 48: ↑7 and ↓41 -34
Views 18K
Comments 79

Big data как арт-искусство

Big Data *Data visualization
Проект The Art Of Analytics от компании Teradata выглядит достаточно необычно. Идея проекта — объяснить исследования на основе больших данных в виде художественных образов широкой аудитории. Хотите узнать как выглядит обнаружение мошенничества в банках и террористических угроз или сравнение односолодовых виски? Под катом некоторые из 20 исследований изображенные в виде картин.


Читать дальше →
Total votes 16: ↑14 and ↓2 +12
Views 15K
Comments 4

Запись данных в Teradata c помощью DML

.NET *SQL *Big Data *
Если идти всё прямо да прямо, далеко не уйдешь…
(Маленький принц, Антуан де Сент-Экзюпери)


Недавно ко мне обратился коллега с просьбой как-то помочь с Teradata. Eё сейчас активно внедряют и первым шагом этого внедрения является загрузка данных на ежедневной основе. Заливать приходится очень много и как можно быстрее. Меня попросили найти какие-нибудь альтернативные способы загрузки данных в Teradata, которые бы не сильно зависели от выделенных пользователю ресурсов. В процессе этой работы мне пришлось более близко познакомиться с .NET Data Provider for Teradata. Входе знакомства выяснились некоторые любопытные детали, знание которых, на мой взгляд, может быть очень полезным. Так как о Teradata знают не все, начну я с краткого её описания.
Подробности
Total votes 9: ↑8 and ↓1 +7
Views 5.8K
Comments 4

Целиком российское, конвергентное и … гиперконвергентное. Зачем мы сделали платформу «СКАЛА-Р»

IBS corporate blog IT Infrastructure *Virtualization *Cloud computing *


Рассказывая о тестировании нашего продукта – первой российской конвергентной платформы «СКАЛА-Р» на совместимость с ERP-системами или российской СЭД, –  мы не останавливались подробно на истоках проекта. В этом посте мы решили собрать всю «кухню»: рассказать о том, как команда IBS Interlab прошла путь от идеи до реализации «в железе». Также подробнее покажем из чего сделан наш комплекс и «вставим свои 5 копеек» в оживлённую дискуссию о борьбе между конвергентными и гиперконвергентными решениями.

Мир интегрированных систем



С начала 2010-х годов произошёл массовый сдвиг в сознании корпоративных заказчиков ИТ, и вместо покупки «железа и софта» под каждую отдельную информационную систему многие начали мыслить стратегически: строить универсальную инфраструктуру, чтобы её ресурсы раздавать различным ИТ-системам по мере надобности.

Читать дальше →
Total votes 11: ↑5 and ↓6 -1
Views 11K
Comments 34

Big Data головного мозга

Big Data *Hadoop *

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.


image
Демонстрация Hadoop пользователям

Читать дальше →
Total votes 41: ↑38 and ↓3 +35
Views 88K
Comments 73

7 кейсов использования технологий Big Data в сфере производства

New Professions Lab corporate blog Data Mining *Big Data *Machine learning *
Recovery mode
Хабр, привет! На сегодняшний день технологии Big Data нашли свое применение практически в любых отраслях: ритейл, банкинг, здравоохранение, и, в свою очередь, сфера производства не стала исключением. Оптимизация производственной цепочки, выявление дефектов и контроль качества продукции, улучшение удобства использования продукта на основе поведения потребителей – неполный список результатов, которых можно достичь в производственной сфере благодаря Big Data. Рассмотрим несколько кейсов зарубежных и отечественных компаний, внедривших технологии больших данных в свою деятельность.
Читать дальше →
Total votes 23: ↑12 and ↓11 +1
Views 14K
Comments 10
Big Data-мания имеет под собой реальное основание. Объемы данных, которые собирают компании, стремительно растут, и бизнес при их грамотном анализе может получить большое конкурентное преимущество. Как «причесать» систему, в которой распределенные по разным хранилищам данные соседствуют с зоопарком малофункциональных инструментов для их обработки? Мы в банке ВТБ перешли на Hadoop, внедрив единую экосистему от Teradata по технологии QueryGrid. Нашей болью, муками, собственно интеграцией и результатами мы хотим с вами поделиться.
Под катом - наш опыт внедрения единой экосистемы от Teradata по технологии QueryGrid и Presto.
Total votes 28: ↑27 and ↓1 +26
Views 26K
Comments 12

Настройка связанных серверов: ms sql server и teradata

Сбер corporate blog SQL *Server Administration *Microsoft SQL Server *Database Administration *
Всем привет! Решил написать эту статью по одной простой причине — не нашел подробной инструкции по настройке удаленного связанного сервера между серверами teradata и ms sql server.

В Сбербанке данные хранятся на разных серверах: oracle, teradata, mssql. Часто (бывает, по несколько раз день) мне и моим коллегам приходится выполнять действия, которые назвать «эффективными» очень трудно: пишешь запрос, экспортируешь данные в файл, импортируешь его на сервер mssql, работаешь. Временные затраты на один запрос — более 3 часов (около 90 млн строк).


«Эффективная» работа
Читать дальше →
Total votes 18: ↑17 and ↓1 +16
Views 5.8K
Comments 0