Pull to refresh
  • by relevance
  • by date
  • by rating

Как мы провели встречи по NiFi. Видео и впечатления

TINKOFF corporate blog Big Data *Data storages *Data Engineering *
Приветствую!

Все чаще я встречаю упоминания такого замечательного продукта, как Apache NiFi. Даже на Хабре за этот год появилось несколько статей об этом достаточно нишевом продукте.

Мы в Тинькофф уже более двух лет используем Apache NiFi и поэтому посвятили ему митап (сразу признаемся, что на проведение мероприятия нас подвигло сообщество телеграм-канала @nifiusers). Событие мы разбили на две части, которые проходили два четверга подряд.


Total votes 16: ↑16 and ↓0 +16
Views 3K
Comments 1

4-терабайтное хранилище данных от LaCie

Computer hardware
Компания LaCie представила Biggest Quadra — 4-терабайтное хранилище, предназначенное для резервного копирования данных. Новинка поддерживает возможность создания RAID-массивов уровней 0, 0+1 и 5.

Читать дальше →
Total votes 16: ↑12 and ↓4 +8
Views 1.1K
Comments 37

ioDrive от Fusion-io может заменить дисковые накопители

Computer hardware
«Мощь SAN (Storage Area Network) в ладони», так заявляет компания Fusion-io о своем новом устройстве ioDrive. И не без основания. ioDrive – это плата расширения NAND флэш памяти с шиной PCI Express, которая работает как локальное хранилище данных. Главное в новинке (кроме установки в слот PCI Express x4, конечно) — это ее производительность, которая составляет 100000 операций ввода-вывода в секунду. А скорость чтения и записи, показанная при тестировании ioDrive, работающим в шасси HP BladeSystem c-Cl, составила 800 Мбит/с и 600 Мбит/с соответственно. Судя по всему, в очередной раз мы можем начинать обсуждение темы замены дисковых накопителей на что-то более совершенное, быстрое и надежное. В данном случае — на ioDrive.

Читать дальше →
Total votes 21: ↑20 and ↓1 +19
Views 360
Comments 36

Составлен список десяти наиболее провальных проектов в сфере технологий

Lumber room
На сайте CNET News опубликован список десяти наиболее неудачных проектов в сфере информационных технологий и техники, многие из которых с треском провалились по тем или иным причинам.
Читать дальше →
Total votes 2: ↑0 and ↓2 -2
Views 288
Comments 6

Древовидные СУБД

Lumber room
Приглашаются к обсуждению все, имеющие опыт использования, в качестве хранилища данных, древовидных СУБД. Было бы полезно делится опытом разработки древовидных структур, описанием конкретики построения дерева индексов и алгоритмов полнотекстового поиска информации внутри хранилища данных.

Поскольку любая компьютерная система с целью оптимизации обмена производит обмен между памятью и диском в виде блоков, то атомарным элементом, хранящим данные на диске, является блок. Ни для кого не секрет, что многие СУБД (тот же ORACLE и MSSQL) фактически хранят данные в Б-деревьях. Б-дерево – это набор логически связанных блоков, выстроенных в иерархию, на каждом уровне которой определены блоки, у каждого из которых одинаковое количество уровней потомков. Описание алгоритма работы Б-дерева выходит за рамки данного блога.

Реляционный, объектный или прямой доступ обеспечивается логической моделью. Попробую предположить, что разумное использование логической модели данных, максимально приближенной к фактическому хранению – позволит более просто и быстро обрабатывать низкоуровневые данные, чем использование других логических моделей(SQL и пр.), хотя и существенно повышаются требования к уровню разработки механизмов доступа к данным. Возможно, что прямой доступ может быть представлен логическим деревом. Примером логического дерева данных – является глобал в СУБД Cache.

Приведу несколько примеров использования, из личного опыта, древовидных структур данных (глобалов).
Читать дальше
Total votes 19: ↑12 and ↓7 +5
Views 1.6K
Comments 24

Архитектура предметной области в CMF/CMS системах

Website development *
Практически любая информационная система характеризуется наличием системы хранения и оперирования данными. Возьмем, к примеру, обычные веб-сайты. Для их создания обычно используются какие-либо готовые системы (фреймворки или уже готовые CMS), в которых изначально уже заложена какая-то концепция по работе с данными, установившаяся предметная область. Обычно, если разработчик хочется добавить на сайте раздел новостей, он добавляет в интерфейсе CMS компонент, информационный блок, шаблон и т.п. Суть всех этих конструкций одна — создать сущность в БД для хранения (либо каком-то ином хранилище). В итоге имеется реляционная база данных и, зачастую, какой-то объектно-ориентированный обвес, реализующий связку объект-атрибуты-свойства-методы — реализуется предметная область.

Ниже пойдет речь об одном из вариантов архитектуры предметной области. Статья базируется на опыте работы в компании ADV, которая применяет подобные методы в разработке веб-проектов. Сложность изложенного материала позволяет понять его не только разработчикам ПО, но и веб-мастерам, которым надо периодически дорабатывать существующие веб-проекты, добавляя в них новые данные.

Самые простые системы позволяют лишь организовать хранилище, к которому разработчик в дальнейшем обращается и делает всю необходимую работу по обработке данных сам. В таком хранилище есть лишь объект, поля и данные. В более продвинутых системах между объектами появляются связи. Следующий уровень развития — взаимодействие объектов (триггеры, методы и т.п.), а так же наличие программной подсистемы, снимающую с разработчика часть забот по обработке данных.
Читать дальше →
Total votes 51: ↑45 and ↓6 +39
Views 3.3K
Comments 58

Data Mart vs Data Warehouse

Lumber room
Некоторое время назад я начал разбираться в OLAP и в данном посте хочу проверить правильность собственных мыслей на счет этих двух понятий.
Читать дальше →
Total votes 2: ↑1 and ↓1 0
Views 13K
Comments 2

Mozart CMF: API, основанный на XML

Website development *
Итак, в своей первой статья я сделал несколько предположений об архитектуре предметной области в CMF/CMS системах. Тогда я сделал предположение об объектной модели я связанном с нею сервисе, который умел обрабатывать входящие запросы и выдавать нужный результат на основании внутренней структуры модели.

Сегодня, сейчас, я бы хотел коснуться вопроса непосредственного использования такой системы в существующем фреймворке Mozart, не так давно впущенном компанией ADV под лицензией GPLv3.

Основой API Mozart'а служат newt-контейнеры. Newt — это XML-контейнер (в XML-фрагменте), который специальным образом обрабатывается XML-парсером. Newt может быть как одиночным тэгом (закрытым тэгом <newt />), так и контейнером (содержит в себе другие контейнеры (newt'ы, инструкции)). Аналог newt'а — это функция, задачей которой является произвести какие-то действия (и вернуть результат, если требуется).

Читать дальше →
Total votes 27: ↑21 and ↓6 +15
Views 1.6K
Comments 14

Открытие бесплатного доступа и новые сервисы в Synchronet

Синхро системс corporate blog
В рамках данного поста, хотелось бы информировать хабрасообщество о нововведениях в нашем сервисе и рассказать тем кто не знает о нас, чем www.synchronet.ru может быть Вам полезен. Разумеется мы ждем Вашу конструктивную критику.

Итак, нововведения таковы:

Добавлен кросплатформенный клиент синхронизации файлов на JAVA(Бета)
Отключено ограничение срока эксплуатации бесплатной версии
Усовершенствована система предоставления доступа к данным
Исправлены известные недочеты и ошибки
Читать дальше →
Total votes 10: ↑6 and ↓4 +2
Views 1.5K
Comments 6

Box расширяет объёмы онлайн-хранилища

Self Promo
Сетевое хранилище и облачный сервис Box расширяет свои горизонты, увеличив размеры выделенных квот пользователям с бесплатной и платной подпиской.

Пользователи с бесплатной подпиской получили 5 Гб хранилища (вместо 1 Гб) при ограничении на размер файла в 25 Мб. Также можно за дополнительную плату увеличить размер хранилища 50 Гб (за 19,99$). Также можно увеличить объём загружаемого файла до 1 Гб. Загруженные файлы можно расшаривать через ссылки, а также существует мобильный доступ через приложение (Android, BlackBerry, iPad, iPhone, веб-клиент).

Если у вас компания с штатом более 3 сотрудников, то вы можете оформить бизнес-подписку с 500 Гб пространства и ограничением на загрузку файла размером в 2 Гб (15$/человек/месяц). Также добавляется синхронизация через клиент, интеграция с Google Apps и ряд других бонусов.

Корпоративным пользователям нужно заключать договор на получение неограниченного хранилища и дополнительных функций шифрования.

Если вы пользователь данного сервиса и не увидели никаких изменений, то нововведения касаются только новых пользователей. Уже зарегистрированные получат апгрейд в течение нескольких недель.

[Via CNET]
Rating 0
Views 525
Comments 0

Tarantool Данные и Протокол

NoSQL *

Tarantool это замечательное высокопроизводительное no-Sql решение, разработка компании Mail.Ru. Исходники

Данное решение позволяет использовать как режим key/value, так и выборку множества записей в рекордсет по одному или нескольким критериям (полям поиска). Аналогов в рунете и не только, я пока не встречал. С натяжкой можно сравнить редис. Но в редисе — списковые данные и их нельзя выбирать по ключу. Судя до утверждениям разработчиков, скорость доступа по ключу превосходит memcache, при этом еще в бэдграунде осуществляется постоянное сохранение данных на диск. Но к сожалению, данная разработка имеет единственный perl клиент для доступа к данным, из-за чего не имеет такой популярности, как например у redis или memcache.

В doc/box-protocol источников есть описание Протокола, которое я в настоящее время переработал для написания клиента на Си и PHP. Изучив Протокол, вы можете реализоать нативный клиент на любимом Вам языке. Надеюсь, данная статья в этом Вам пригодится.

Читать дальше →
Total votes 66: ↑50 and ↓16 +34
Views 5.3K
Comments 40

А не сделать ли нам домашнюю файлопомойку на 90 терабайт?

DIY


Собственно идея летает давно и начала свои корни с публикации компании backblaze как сделать дешевое петабайтное хранилище.

В мире есть как минимум один юзер, который сделал его сам, вот его блог, корпус он правда заказал готовый и внес кое какие улучшения в конструкцию(например убрал второй блок питания, и сделал интересную разводку на один).
В России такие хранилища делает промобит и у них даже есть промосайт для их битблейза.

Но мы не ищем простых путей, всем кому интересно как это сделать своими руками прошу подкат.
Читать дальше →
Total votes 174: ↑148 and ↓26 +122
Views 24K
Comments 365

In-memory-data-grid. Масштабируемые хранилища данных

High performance *
Sandbox
В последнее время интерес к облачным архитектурам растет с каждым днем, так как это один из наиболее эффективных способов масштабировать приложение, не прикладывая больших усилий, а самым узким местом любого высоконагруженного проекта является хранилище данных, в частности реляционная БД. Для борьбы с недостатками традиционных БД в основном используется 2 подхода:

1) Кэширование результатов выполнения запросов
  • плюсы: высокая скорость доступа к данным
  • минусы: требует компромисса между актуальностью данных и скоростью доступа, т.к. данные в кэше могут устареть, а удалять старые данные из кэша с последующим кэшированием новых — это дополнительные задержки и нагрузка на систему

2) NoSQL решения
  • плюсы: хорошая горизонтальная масштабируемость, доменная модель данных совпадает с моделью хранения данных
  • минусы: низкая скорость получения результатов в случае использования диска, практически невозможно обеспечить работу внутрикорпоративного софта, который ориентирован на работу с конкретной реляционной БД.

Сегодня я хочу познакомить вас с таким типом хранилища данных, который объединяет достоинства обоих подходов и при этом имеет ряд преимуществ перед упомянутыми выше решениями: In-memory-data-grid (IMDG).
Читать дальше →
Total votes 33: ↑31 and ↓2 +29
Views 22K
Comments 41

In-memory-data-grid. Режимы работы, индексы, блокировки

High performance *
Я продолжаю небольшой цикл статей на тему In-memory-data-grid.
В первой статье была раскрыта сама концепция IMDG без конкретных примеров и деталей реализации. Сегодня мы копнем чуть глубже.
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Views 11K
Comments 4

Документо — ориентированное хранилище Nexus системы «Е1 Евфрат»

Cognitive Technologies corporate blog ECM *
Постоянно разрабатывая корпоративные информационные системы, работающие с документами, сталкиваешься с задачей организации хранения документов в базе данных. При этом требуется обеспечить: надежное хранение структурированных и неструктурированных документов, ссылки между документами, хранение версий документов, развитые функции поиска документов, массовый ввод/вывод документов, эффективную одновременную работу большого числа пользователей с большим количеством документов, а также контроль доступа к документам.

Читать дальше →
Total votes 4: ↑2 and ↓2 0
Views 2.3K
Comments 2

О кроссплатформенности «Е1 Евфрат»

Cognitive Technologies corporate blog ECM *
Как уже заявлялось ранее, наша система «Е1 Евфрат» обеспечивает возможность единовременной работы сразу с несколькими различными СУБД, реализуя принцип кроссплатформенности.

Первой реляционной СУБД (не считая, конечно, СУБД НИКА) с которой удалось обеспечить интеграцию стала Microsoft SQL Server 2005/2008. Эта СУБД показала себя как наиболее универсальная и не проблемная. Для быстроты поиска и для решения задач интеграции информационных систем через СУБД структурированные данные документа раскладываются в соответствующие схеме поля таблиц реляционной базы. XML возможности MS SQL Server показали худшую производительность в поисковых запросах. Для полнотекстового поиска используются встроенные возможности СУБД.
Читать дальше →
Total votes 5: ↑1 and ↓4 -3
Views 2.7K
Comments 5

Selectel Storage — облачное хранилище

Selectel corporate blog

Что мы предлагаем?


Selectel Storage — облачное объектное хранилище данных на базе OpenStack Swift.

Для чего?


Для удобного, простого и дешевого хранения резервных копий файлов и раздачи статичных файлов (изображения, аудио, видео, js, css) для веб-сайтов и приложений.
Читать дальше →
Total votes 46: ↑37 and ↓9 +28
Views 31K
Comments 133

Метрики Хранилища Данных

Oracle *SQL *
Sandbox
Приветствую.

Создавая, или даже поддерживая, существующее хранилище данных, неизбежно возникает такой этап, когда множественность желаний пользователей встречается с неизбежностью физических ограничений той СУБД, которая используется для хранилища. В действительности, никто не может иметь бесконечного места на диске, процессорной мощности или сколь угодно долгого времени на обновление данных.

В этот момент у руководства могут возникнуть вопросы, если они не возникли ранее, что именно занимает так много места в БД, почему загрузка до сих пор не закончилась и прочее подобное.

Чтобы знать, что отвечать, необходимо провести учет. Создание ХД — процесс длительный, люди, разрабатывавшие архитектуру могут быть уже далеко, я не говорю уже о том, что бизнес требования меняются, иногда, так же быстро, как выходят новые версии браузера Firefox.
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Views 12K
Comments 0

Эволюция аналитической инфраструктуры

«LifeStreet Media» corporate blog MySQL *
Этой статьей я открываю серию материалов про инфраструктуру для аналитики вообще и экзотическую для России базу данных Vertica в частности. Статьи описывают опыт серии проектов в моей компании LifeStreet и не претендуют на полноту. Однако, где это представляется возможным, я буду пытаться давать общие обзоры. Прежде чем начать разговор собственно о Вертике, я хочу рассказать немного о том, как мы к ней пришли. Начнем с истории развития аналитической инфраструктуры в нашей компании.

Часть 1. Немного истории, теории и практики


Традиционно мы исповедуем итеративный процесс разработки всего нового. То есть сначала делается быстрый прототип, чтобы “пощупать” некоторую предметную или технологическую область. Затем, отталкиваясь от прототипа, разрабатывается архитектура и дизайн “как надо”, причем предпочтение отдается быстрым в реализации достаточно хорошим решениям, нежели академически правильным, но долгим и сложным. Затем, понятие о том, “как надо”, меняется, и архитектура модифицируется, “как на самом деле надо”. И так далее. Все изменения происходят на работающем и динамично развивающемся бизнесе, что требует осторожного эволюционного подхода. Так было и с аналитической платформой.

Первая версия “инфраструктуры” была сделана “на коленке” за два дня в далеком 2006 году, когда в компании было 4 человека разработчиков, и примерно столько же людей из бизнеса.
Читать дальше →
Total votes 13: ↑12 and ↓1 +11
Views 9.9K
Comments 13