Pull to refresh

Как мы провели встречи по NiFi. Видео и впечатления

TINKOFF corporate blog Big Data *Data storages *Data Engineering *
Приветствую!

Все чаще я встречаю упоминания такого замечательного продукта, как Apache NiFi. Даже на Хабре за этот год появилось несколько статей об этом достаточно нишевом продукте.

Мы в Тинькофф уже более двух лет используем Apache NiFi и поэтому посвятили ему митап (сразу признаемся, что на проведение мероприятия нас подвигло сообщество телеграм-канала @nifiusers). Событие мы разбили на две части, которые проходили два четверга подряд.


Total votes 16: ↑16 and ↓0 +16
Views 3.8K
Comments 1

МКБ оптимизирует процессы с помощью интеграции данных

Московский кредитный банк corporate blog

Московский кредитный банк (МКБ) совместно с DIS Group реализовал проект по внедрению ETL-платформы.

Новая интеграционная платформа объединила более 30 систем и значительно упростила построение аналитической и управленческой отчетности розничного и корпоративного блоков.

Внедренное интеграционное ETL-решение позволяет выполнять загрузку данных без использования аппаратных ресурсов корпоративного хранилища, тем самым высвобождая имеющиеся серверные мощности банка для решения более приоритетных задач, таких как совершенствование клиентского сервиса.

Читать далее
Total votes 6: ↑3 and ↓3 0
Views 334
Comments 0

Ростелеком предлагает дистрибутивы своих продуктов управления данными бесплатно

Ростелеком corporate blog Big Data *Data storage *Hadoop *

Ростелеком выводит на российский рынок импортонезависимый freeware-дистрибутив RT.Datalake — специальную сборку одного из компонентов «Платформы управления данными», которая предназначена для организации эффективного хранилища больших данных. Российским компаниям предоставляется возможность бесплатно построить собственное озеро данных на отечественной, импортонезависимой сборке дистрибутива Hadoop без затрат на лицензионные взносы.

Читать далее
Total votes 9: ↑9 and ↓0 +9
Views 2.3K
Comments 3

Авторский курс по GreenPlum от администратора баз данных в Southbridge и ведущего инженера в Data Driven Lab

Southbridge corporate blog

GreenPlum помогает компаниям с разными объёмами бизнеса извлекать реальную пользу из накопленных данных. Благодаря масштабируемости и скорости работы с данными он позволяет быстрее принимать бизнес-решения и повышает их качество.

19 сентября у нас стартует «DWH на основе GreenPlum» — авторский курс Ивана Чувашова, администратора баз данных в Southbridge и ведущего инженера компании Data Driven Lab. На нём Иван поделится знаниями в области хранилищ данных, которые собирал на протяжении 10 лет. Мы разберём основы устройства DWH и углубимся в GreenPlum — поломаем и починим его. А ещё поговорим об архитектуре и способах хранения данных, оптимизации запросов.

Читать далее
Total votes 7: ↑7 and ↓0 +7
Views 366
Comments 0

Vinpower представила зарядную станцию iXcharger GaN 65 Вт с 1TБ памяти для бэкапов

Gadgets Energy and batteries

Vinpower анонсировала зарядную станцию iXcharger со встроенным хранилищем объёмом в 1 ТБ. Во время зарядки устройство делает резервную копию фотографий и видео с iPhone и iPad. Также его можно использовать как обычное внешнее хранилище.

Читать далее
Total votes 6: ↑6 and ↓0 +6
Views 851
Comments 3

4-терабайтное хранилище данных от LaCie

Computer hardware
Компания LaCie представила Biggest Quadra — 4-терабайтное хранилище, предназначенное для резервного копирования данных. Новинка поддерживает возможность создания RAID-массивов уровней 0, 0+1 и 5.

Читать дальше →
Total votes 16: ↑12 and ↓4 +8
Views 1.8K
Comments 37

ioDrive от Fusion-io может заменить дисковые накопители

Computer hardware
«Мощь SAN (Storage Area Network) в ладони», так заявляет компания Fusion-io о своем новом устройстве ioDrive. И не без основания. ioDrive – это плата расширения NAND флэш памяти с шиной PCI Express, которая работает как локальное хранилище данных. Главное в новинке (кроме установки в слот PCI Express x4, конечно) — это ее производительность, которая составляет 100000 операций ввода-вывода в секунду. А скорость чтения и записи, показанная при тестировании ioDrive, работающим в шасси HP BladeSystem c-Cl, составила 800 Мбит/с и 600 Мбит/с соответственно. Судя по всему, в очередной раз мы можем начинать обсуждение темы замены дисковых накопителей на что-то более совершенное, быстрое и надежное. В данном случае — на ioDrive.

Читать дальше →
Total votes 21: ↑20 and ↓1 +19
Views 733
Comments 36

Составлен список десяти наиболее провальных проектов в сфере технологий

Lumber room
На сайте CNET News опубликован список десяти наиболее неудачных проектов в сфере информационных технологий и техники, многие из которых с треском провалились по тем или иным причинам.
Читать дальше →
Total votes 2: ↑0 and ↓2 -2
Views 644
Comments 6

Древовидные СУБД

Lumber room
Приглашаются к обсуждению все, имеющие опыт использования, в качестве хранилища данных, древовидных СУБД. Было бы полезно делится опытом разработки древовидных структур, описанием конкретики построения дерева индексов и алгоритмов полнотекстового поиска информации внутри хранилища данных.

Поскольку любая компьютерная система с целью оптимизации обмена производит обмен между памятью и диском в виде блоков, то атомарным элементом, хранящим данные на диске, является блок. Ни для кого не секрет, что многие СУБД (тот же ORACLE и MSSQL) фактически хранят данные в Б-деревьях. Б-дерево – это набор логически связанных блоков, выстроенных в иерархию, на каждом уровне которой определены блоки, у каждого из которых одинаковое количество уровней потомков. Описание алгоритма работы Б-дерева выходит за рамки данного блога.

Реляционный, объектный или прямой доступ обеспечивается логической моделью. Попробую предположить, что разумное использование логической модели данных, максимально приближенной к фактическому хранению – позволит более просто и быстро обрабатывать низкоуровневые данные, чем использование других логических моделей(SQL и пр.), хотя и существенно повышаются требования к уровню разработки механизмов доступа к данным. Возможно, что прямой доступ может быть представлен логическим деревом. Примером логического дерева данных – является глобал в СУБД Cache.

Приведу несколько примеров использования, из личного опыта, древовидных структур данных (глобалов).
Читать дальше
Total votes 19: ↑12 and ↓7 +5
Views 3.2K
Comments 24

Архитектура предметной области в CMF/CMS системах

Website development *
Практически любая информационная система характеризуется наличием системы хранения и оперирования данными. Возьмем, к примеру, обычные веб-сайты. Для их создания обычно используются какие-либо готовые системы (фреймворки или уже готовые CMS), в которых изначально уже заложена какая-то концепция по работе с данными, установившаяся предметная область. Обычно, если разработчик хочется добавить на сайте раздел новостей, он добавляет в интерфейсе CMS компонент, информационный блок, шаблон и т.п. Суть всех этих конструкций одна — создать сущность в БД для хранения (либо каком-то ином хранилище). В итоге имеется реляционная база данных и, зачастую, какой-то объектно-ориентированный обвес, реализующий связку объект-атрибуты-свойства-методы — реализуется предметная область.

Ниже пойдет речь об одном из вариантов архитектуры предметной области. Статья базируется на опыте работы в компании ADV, которая применяет подобные методы в разработке веб-проектов. Сложность изложенного материала позволяет понять его не только разработчикам ПО, но и веб-мастерам, которым надо периодически дорабатывать существующие веб-проекты, добавляя в них новые данные.

Самые простые системы позволяют лишь организовать хранилище, к которому разработчик в дальнейшем обращается и делает всю необходимую работу по обработке данных сам. В таком хранилище есть лишь объект, поля и данные. В более продвинутых системах между объектами появляются связи. Следующий уровень развития — взаимодействие объектов (триггеры, методы и т.п.), а так же наличие программной подсистемы, снимающую с разработчика часть забот по обработке данных.
Читать дальше →
Total votes 51: ↑45 and ↓6 +39
Views 3.6K
Comments 58

Data Mart vs Data Warehouse

Lumber room
Некоторое время назад я начал разбираться в OLAP и в данном посте хочу проверить правильность собственных мыслей на счет этих двух понятий.
Читать дальше →
Total votes 2: ↑1 and ↓1 0
Views 18K
Comments 2

Mozart CMF: API, основанный на XML

Website development *
Итак, в своей первой статья я сделал несколько предположений об архитектуре предметной области в CMF/CMS системах. Тогда я сделал предположение об объектной модели я связанном с нею сервисе, который умел обрабатывать входящие запросы и выдавать нужный результат на основании внутренней структуры модели.

Сегодня, сейчас, я бы хотел коснуться вопроса непосредственного использования такой системы в существующем фреймворке Mozart, не так давно впущенном компанией ADV под лицензией GPLv3.

Основой API Mozart'а служат newt-контейнеры. Newt — это XML-контейнер (в XML-фрагменте), который специальным образом обрабатывается XML-парсером. Newt может быть как одиночным тэгом (закрытым тэгом <newt />), так и контейнером (содержит в себе другие контейнеры (newt'ы, инструкции)). Аналог newt'а — это функция, задачей которой является произвести какие-то действия (и вернуть результат, если требуется).

Читать дальше →
Total votes 27: ↑21 and ↓6 +15
Views 1.7K
Comments 14

Открытие бесплатного доступа и новые сервисы в Synchronet

Синхро системс corporate blog
В рамках данного поста, хотелось бы информировать хабрасообщество о нововведениях в нашем сервисе и рассказать тем кто не знает о нас, чем www.synchronet.ru может быть Вам полезен. Разумеется мы ждем Вашу конструктивную критику.

Итак, нововведения таковы:

Добавлен кросплатформенный клиент синхронизации файлов на JAVA(Бета)
Отключено ограничение срока эксплуатации бесплатной версии
Усовершенствована система предоставления доступа к данным
Исправлены известные недочеты и ошибки
Читать дальше →
Total votes 10: ↑6 and ↓4 +2
Views 1.6K
Comments 6

Box расширяет объёмы онлайн-хранилища

Self Promo
Сетевое хранилище и облачный сервис Box расширяет свои горизонты, увеличив размеры выделенных квот пользователям с бесплатной и платной подпиской.

Пользователи с бесплатной подпиской получили 5 Гб хранилища (вместо 1 Гб) при ограничении на размер файла в 25 Мб. Также можно за дополнительную плату увеличить размер хранилища 50 Гб (за 19,99$). Также можно увеличить объём загружаемого файла до 1 Гб. Загруженные файлы можно расшаривать через ссылки, а также существует мобильный доступ через приложение (Android, BlackBerry, iPad, iPhone, веб-клиент).

Если у вас компания с штатом более 3 сотрудников, то вы можете оформить бизнес-подписку с 500 Гб пространства и ограничением на загрузку файла размером в 2 Гб (15$/человек/месяц). Также добавляется синхронизация через клиент, интеграция с Google Apps и ряд других бонусов.

Корпоративным пользователям нужно заключать договор на получение неограниченного хранилища и дополнительных функций шифрования.

Если вы пользователь данного сервиса и не увидели никаких изменений, то нововведения касаются только новых пользователей. Уже зарегистрированные получат апгрейд в течение нескольких недель.

[Via CNET]
Rating 0
Views 574
Comments 0

Tarantool Данные и Протокол

NoSQL *

Tarantool это замечательное высокопроизводительное no-Sql решение, разработка компании Mail.Ru. Исходники

Данное решение позволяет использовать как режим key/value, так и выборку множества записей в рекордсет по одному или нескольким критериям (полям поиска). Аналогов в рунете и не только, я пока не встречал. С натяжкой можно сравнить редис. Но в редисе — списковые данные и их нельзя выбирать по ключу. Судя до утверждениям разработчиков, скорость доступа по ключу превосходит memcache, при этом еще в бэдграунде осуществляется постоянное сохранение данных на диск. Но к сожалению, данная разработка имеет единственный perl клиент для доступа к данным, из-за чего не имеет такой популярности, как например у redis или memcache.

В doc/box-protocol источников есть описание Протокола, которое я в настоящее время переработал для написания клиента на Си и PHP. Изучив Протокол, вы можете реализоать нативный клиент на любимом Вам языке. Надеюсь, данная статья в этом Вам пригодится.

Читать дальше →
Total votes 66: ↑50 and ↓16 +34
Views 5.5K
Comments 40

А не сделать ли нам домашнюю файлопомойку на 90 терабайт?

DIY


Собственно идея летает давно и начала свои корни с публикации компании backblaze как сделать дешевое петабайтное хранилище.

В мире есть как минимум один юзер, который сделал его сам, вот его блог, корпус он правда заказал готовый и внес кое какие улучшения в конструкцию(например убрал второй блок питания, и сделал интересную разводку на один).
В России такие хранилища делает промобит и у них даже есть промосайт для их битблейза.

Но мы не ищем простых путей, всем кому интересно как это сделать своими руками прошу подкат.
Читать дальше →
Total votes 174: ↑148 and ↓26 +122
Views 46K
Comments 366

In-memory-data-grid. Масштабируемые хранилища данных

High performance *
Sandbox
В последнее время интерес к облачным архитектурам растет с каждым днем, так как это один из наиболее эффективных способов масштабировать приложение, не прикладывая больших усилий, а самым узким местом любого высоконагруженного проекта является хранилище данных, в частности реляционная БД. Для борьбы с недостатками традиционных БД в основном используется 2 подхода:

1) Кэширование результатов выполнения запросов
  • плюсы: высокая скорость доступа к данным
  • минусы: требует компромисса между актуальностью данных и скоростью доступа, т.к. данные в кэше могут устареть, а удалять старые данные из кэша с последующим кэшированием новых — это дополнительные задержки и нагрузка на систему

2) NoSQL решения
  • плюсы: хорошая горизонтальная масштабируемость, доменная модель данных совпадает с моделью хранения данных
  • минусы: низкая скорость получения результатов в случае использования диска, практически невозможно обеспечить работу внутрикорпоративного софта, который ориентирован на работу с конкретной реляционной БД.

Сегодня я хочу познакомить вас с таким типом хранилища данных, который объединяет достоинства обоих подходов и при этом имеет ряд преимуществ перед упомянутыми выше решениями: In-memory-data-grid (IMDG).
Читать дальше →
Total votes 33: ↑31 and ↓2 +29
Views 23K
Comments 41

In-memory-data-grid. Режимы работы, индексы, блокировки

High performance *
Я продолжаю небольшой цикл статей на тему In-memory-data-grid.
В первой статье была раскрыта сама концепция IMDG без конкретных примеров и деталей реализации. Сегодня мы копнем чуть глубже.
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Views 11K
Comments 4

Документо — ориентированное хранилище Nexus системы «Е1 Евфрат»

Cognitive Technologies corporate blog ECM *
Постоянно разрабатывая корпоративные информационные системы, работающие с документами, сталкиваешься с задачей организации хранения документов в базе данных. При этом требуется обеспечить: надежное хранение структурированных и неструктурированных документов, ссылки между документами, хранение версий документов, развитые функции поиска документов, массовый ввод/вывод документов, эффективную одновременную работу большого числа пользователей с большим количеством документов, а также контроль доступа к документам.

Читать дальше →
Total votes 4: ↑2 and ↓2 0
Views 2.5K
Comments 2