Статьи / Закладки / Профиль TatianaSezemina / Хабр

Татьяна Сеземина @TatianaSezemina

Директор портфеля проектов | DWH | AI

Профиль Публикации 2Комментарии 8Закладки 8

Safreliy 4 окт в 14:24

Нейронные оптимизаторы запросов в реляционных БД (Часть 2): На пути к продуктивизации

Средний

11 мин

2.8K

Блог компании Postgres ProfessionalМашинное обучение*Искусственный интеллектPostgreSQL*Алгоритмы*

Обзор

Нельзя просто взять и заменить нейросетями миллионы человеко-часов, вложенных в разработку классических оптимизаторов запросов реляционных СУБД. Надёжность, гибкость и скорость — ключевые характеристики экспертных систем, которые нарабатывались и отлаживались десятилетиями.

В прошлой статье рассказали о пионерах в области нейросетевых оптимизаторов, которые создали плацдарм для развития подобных ML-систем и их последующего вывода на уровень коммерческих продуктов. В этой же — затронем относительно стабильные подходы, не требующие гигантских вычислительных кластеров и удовлетворяющие большую часть потребностей бизнеса. Серебряной пули, конечно, не существует, но с каждым из этих методов можно прийти к оптимальному решению для конкретной задачи.

brgr 11 мая 2021 в 15:46

Моделирование данных: обзор

5 мин

102K

Веб-аналитика*Интернет-маркетинг*

Перевод

В работе мы с коллегами часто видим как компании сталкиваются с проблемой управления данными – когда таблиц и запросов становится сильно много и управлять всем этим очень сложно. В таких ситуациях мы рекомендуем моделировать данные. Чтобы разобраться, что это такое – я перевела статью-обзор про моделирование данных от Towards Data Science, в которой кроме основных терминов и понятий можно найти наглядный пример использования моделирования данных в ритейле. Вперед под кат!

asash 5 окт 2015 в 19:10

Big Data от А до Я. Часть 2: Hadoop

9 мин

230K

Блог компании DCA (Data-Centric Alliance)Big Data*Hadoop*

Туториал

Привет, Хабр! В предыдущей статье мы рассмотрели парадигму параллельных вычислений MapReduce. В этой статье мы перейдём от теории к практике и рассмотрим Hadoop – мощный инструментарий для работы с большими данными от Apache foundation.

В статье описано, какие инструменты и средства включает в себя Hadoop, каким образом установить Hadoop у себя, приведены инструкции и примеры разработки MapReduce-программ под Hadoop.

Читать дальше →

+32

asash 21 сен 2015 в 18:47

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

6 мин

516K

Big Data*

Туториал

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.

Читать дальше →

+44

ffriend 16 окт 2014 в 14:15

Hadoop: что, где и зачем

14 мин

473K

Big Data*Hadoop*

Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.

Читать дальше →

+55

dgudkov 28 янв 2011 в 14:06

Колоночные СУБД — принцип действия, преимущества и область применения

5 мин

116K

SQL*

Середина 2000-х годов ознаменовалась бурным ростом числа колоночных СУБД. Vertica, ParAccel, Kognito, Infobright, SAND и другие пополнили клуб колоночных СУБД и разбавили гордое одиночество Sybase IQ, основавшей его в 90х годах. В этой статье я расскажу о причинах популярности идеи по-колоночного хранения данных, принцип действия и область использования колоночных СУБД.

Начнем с того, что популярные в наше время реляционные СУБД — Oracle, SQL Server, MySQL, DB2, Postgre и др. базируются на архитектуре, отсчитывающей свою историю еще c 1970-х годов, когда радиоприемники были транзисторными, бакенбарды длинными, брюки расклешенными, а в мире СУБД преобладали иерархические и сетевые системы управления данными. Главная задача баз данных тогда заключалась в том, чтобы поддержать начавшийся в 1960-х годах массовый переход от бумажного учета хозяйственной деятельности к компьютерному. Огромное количество информации из бумажных документов переносилось в БД учетных систем, которые должны были надежно хранить все входящие сведения и, при необходимости, быстро находить их. Такие требования обусловили архитектурные особенности реляционных СУБД, оставшиеся до настоящего времени практически неизменными: построчное хранение данных, индексирование записей и журналирование операций.

Читать дальше →

+52

kirillkosolapov 21 авг 2023 в 10:23

Виды баз данных. Большой обзор типов СУБД

21 мин

104K

Блог компании AmveraАдминистрирование баз данных*Хранение данных*Хранилища данных*

Обзор

Часто, в обзорах видов баз данных упоминают реляционные и “другие”, “NoSQL” и т.д., либо приводят самые основные типы СУБД (базы данных), забывая о редких. В данной статье я постараюсь описать максимально полно виды баз данных и привести примеры конкретных реализаций. Разумеется, статья не претендует на всеохватность и классифицировать базы данных можно по разному, в том числе по типам оптимальной нагрузки и т.д., но надеюсь, она даст базовое представление о видах СУБД и принципах их работы.

В статье мы рассмотрим следующие типы баз данных:

+38

AlexTheOwl 20 авг 2020 в 13:23

Обзор гибких методологий проектирования DWH

15 мин

69K

Блог компании GlowByteХранилища данных*

Разработка хранилища — дело долгое и серьезное.

Многое в жизни проекта зависит от того, насколько хорошо продумана объектная модель и структура базы на старте.

Общепринятым подходом были и остаются различные варианты сочетания схемы “звезда” с третьей нормальной формой. Как правило, по принципу: исходные данные — 3NF, витрины — звезда. Этот подход, проверенный временем и подкрепленный большим количеством исследований — первое (а иногда и единственное), что приходит в голову опытному DWH-шнику при мысли о том, как должно выглядеть аналитическое хранилище.

С другой стороны — бизнесу в целом и требованиям заказчика в частности свойственно быстро меняться, а данным — расти как “вглубь”, так и “вширь”. И вот тут проявляется основной недостаток звезды — ограниченная гибкость.

И если в вашей тихой и уютной жизни DWH-разработчика внезапно:

возникла задача “сделать быстро хоть что-то, а потом посмотрим”;
появился бурно развивающийся проект, с подключением новых источников и переделкой бизнес-модели минимум раз в неделю;
появился заказчик, который не представляет как система должна выглядеть и какие функции выполнять в конечном итоге, но готов к экспериментам и последовательному уточнению желаемого результата с последовательным же приближением к нему;
заглянул менеджер проектов с радостной вестью: “А теперь у нас аджайл!”.

Или если вам просто интересно узнать как еще можно строить хранилища — вэлкам под кат!

Читать дальше →

+17

Нейронные оптимизаторы запросов в реляционных БД (Часть 2): На пути к продуктивизации

Моделирование данных: обзор

Big Data от А до Я. Часть 2: Hadoop

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

Hadoop: что, где и зачем

Колоночные СУБД — принцип действия, преимущества и область применения

Виды баз данных. Большой обзор типов СУБД

Обзор гибких методологий проектирования DWH

Информация

Специализация