Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Как мы провели встречи по NiFi. Видео и впечатления

Блог компании TINKOFF Big Data *Хранилища данных *Data Engineering *
Приветствую!

Все чаще я встречаю упоминания такого замечательного продукта, как Apache NiFi. Даже на Хабре за этот год появилось несколько статей об этом достаточно нишевом продукте.

Мы в Тинькофф уже более двух лет используем Apache NiFi и поэтому посвятили ему митап (сразу признаемся, что на проведение мероприятия нас подвигло сообщество телеграм-канала @nifiusers). Событие мы разбили на две части, которые проходили два четверга подряд.


Всего голосов 16: ↑16 и ↓0 +16
Просмотры 2.8K
Комментарии 1

4-терабайтное хранилище данных от LaCie

Компьютерное железо
Компания LaCie представила Biggest Quadra — 4-терабайтное хранилище, предназначенное для резервного копирования данных. Новинка поддерживает возможность создания RAID-массивов уровней 0, 0+1 и 5.

Читать дальше →
Всего голосов 16: ↑12 и ↓4 +8
Просмотры 1.1K
Комментарии 37

ioDrive от Fusion-io может заменить дисковые накопители

Компьютерное железо
«Мощь SAN (Storage Area Network) в ладони», так заявляет компания Fusion-io о своем новом устройстве ioDrive. И не без основания. ioDrive – это плата расширения NAND флэш памяти с шиной PCI Express, которая работает как локальное хранилище данных. Главное в новинке (кроме установки в слот PCI Express x4, конечно) — это ее производительность, которая составляет 100000 операций ввода-вывода в секунду. А скорость чтения и записи, показанная при тестировании ioDrive, работающим в шасси HP BladeSystem c-Cl, составила 800 Мбит/с и 600 Мбит/с соответственно. Судя по всему, в очередной раз мы можем начинать обсуждение темы замены дисковых накопителей на что-то более совершенное, быстрое и надежное. В данном случае — на ioDrive.

Читать дальше →
Всего голосов 21: ↑20 и ↓1 +19
Просмотры 360
Комментарии 36

Составлен список десяти наиболее провальных проектов в сфере технологий

Чулан
На сайте CNET News опубликован список десяти наиболее неудачных проектов в сфере информационных технологий и техники, многие из которых с треском провалились по тем или иным причинам.
Читать дальше →
Всего голосов 2: ↑0 и ↓2 -2
Просмотры 275
Комментарии 6

Древовидные СУБД

Чулан
Приглашаются к обсуждению все, имеющие опыт использования, в качестве хранилища данных, древовидных СУБД. Было бы полезно делится опытом разработки древовидных структур, описанием конкретики построения дерева индексов и алгоритмов полнотекстового поиска информации внутри хранилища данных.

Поскольку любая компьютерная система с целью оптимизации обмена производит обмен между памятью и диском в виде блоков, то атомарным элементом, хранящим данные на диске, является блок. Ни для кого не секрет, что многие СУБД (тот же ORACLE и MSSQL) фактически хранят данные в Б-деревьях. Б-дерево – это набор логически связанных блоков, выстроенных в иерархию, на каждом уровне которой определены блоки, у каждого из которых одинаковое количество уровней потомков. Описание алгоритма работы Б-дерева выходит за рамки данного блога.

Реляционный, объектный или прямой доступ обеспечивается логической моделью. Попробую предположить, что разумное использование логической модели данных, максимально приближенной к фактическому хранению – позволит более просто и быстро обрабатывать низкоуровневые данные, чем использование других логических моделей(SQL и пр.), хотя и существенно повышаются требования к уровню разработки механизмов доступа к данным. Возможно, что прямой доступ может быть представлен логическим деревом. Примером логического дерева данных – является глобал в СУБД Cache.

Приведу несколько примеров использования, из личного опыта, древовидных структур данных (глобалов).
Читать дальше
Всего голосов 19: ↑12 и ↓7 +5
Просмотры 1.5K
Комментарии 24

Архитектура предметной области в CMF/CMS системах

Разработка веб-сайтов *
Практически любая информационная система характеризуется наличием системы хранения и оперирования данными. Возьмем, к примеру, обычные веб-сайты. Для их создания обычно используются какие-либо готовые системы (фреймворки или уже готовые CMS), в которых изначально уже заложена какая-то концепция по работе с данными, установившаяся предметная область. Обычно, если разработчик хочется добавить на сайте раздел новостей, он добавляет в интерфейсе CMS компонент, информационный блок, шаблон и т.п. Суть всех этих конструкций одна — создать сущность в БД для хранения (либо каком-то ином хранилище). В итоге имеется реляционная база данных и, зачастую, какой-то объектно-ориентированный обвес, реализующий связку объект-атрибуты-свойства-методы — реализуется предметная область.

Ниже пойдет речь об одном из вариантов архитектуры предметной области. Статья базируется на опыте работы в компании ADV, которая применяет подобные методы в разработке веб-проектов. Сложность изложенного материала позволяет понять его не только разработчикам ПО, но и веб-мастерам, которым надо периодически дорабатывать существующие веб-проекты, добавляя в них новые данные.

Самые простые системы позволяют лишь организовать хранилище, к которому разработчик в дальнейшем обращается и делает всю необходимую работу по обработке данных сам. В таком хранилище есть лишь объект, поля и данные. В более продвинутых системах между объектами появляются связи. Следующий уровень развития — взаимодействие объектов (триггеры, методы и т.п.), а так же наличие программной подсистемы, снимающую с разработчика часть забот по обработке данных.
Читать дальше →
Всего голосов 51: ↑45 и ↓6 +39
Просмотры 3.3K
Комментарии 58

Data Mart vs Data Warehouse

Чулан
Некоторое время назад я начал разбираться в OLAP и в данном посте хочу проверить правильность собственных мыслей на счет этих двух понятий.
Читать дальше →
Всего голосов 2: ↑1 и ↓1 0
Просмотры 13K
Комментарии 2

Mozart CMF: API, основанный на XML

Разработка веб-сайтов *
Итак, в своей первой статья я сделал несколько предположений об архитектуре предметной области в CMF/CMS системах. Тогда я сделал предположение об объектной модели я связанном с нею сервисе, который умел обрабатывать входящие запросы и выдавать нужный результат на основании внутренней структуры модели.

Сегодня, сейчас, я бы хотел коснуться вопроса непосредственного использования такой системы в существующем фреймворке Mozart, не так давно впущенном компанией ADV под лицензией GPLv3.

Основой API Mozart'а служат newt-контейнеры. Newt — это XML-контейнер (в XML-фрагменте), который специальным образом обрабатывается XML-парсером. Newt может быть как одиночным тэгом (закрытым тэгом <newt />), так и контейнером (содержит в себе другие контейнеры (newt'ы, инструкции)). Аналог newt'а — это функция, задачей которой является произвести какие-то действия (и вернуть результат, если требуется).

Читать дальше →
Всего голосов 27: ↑21 и ↓6 +15
Просмотры 1.6K
Комментарии 14

Открытие бесплатного доступа и новые сервисы в Synchronet

Блог компании Синхро системс
В рамках данного поста, хотелось бы информировать хабрасообщество о нововведениях в нашем сервисе и рассказать тем кто не знает о нас, чем www.synchronet.ru может быть Вам полезен. Разумеется мы ждем Вашу конструктивную критику.

Итак, нововведения таковы:

Добавлен кросплатформенный клиент синхронизации файлов на JAVA(Бета)
Отключено ограничение срока эксплуатации бесплатной версии
Усовершенствована система предоставления доступа к данным
Исправлены известные недочеты и ошибки
Читать дальше →
Всего голосов 10: ↑6 и ↓4 +2
Просмотры 1.5K
Комментарии 6

Box расширяет объёмы онлайн-хранилища

Я пиарюсь
Сетевое хранилище и облачный сервис Box расширяет свои горизонты, увеличив размеры выделенных квот пользователям с бесплатной и платной подпиской.

Пользователи с бесплатной подпиской получили 5 Гб хранилища (вместо 1 Гб) при ограничении на размер файла в 25 Мб. Также можно за дополнительную плату увеличить размер хранилища 50 Гб (за 19,99$). Также можно увеличить объём загружаемого файла до 1 Гб. Загруженные файлы можно расшаривать через ссылки, а также существует мобильный доступ через приложение (Android, BlackBerry, iPad, iPhone, веб-клиент).

Если у вас компания с штатом более 3 сотрудников, то вы можете оформить бизнес-подписку с 500 Гб пространства и ограничением на загрузку файла размером в 2 Гб (15$/человек/месяц). Также добавляется синхронизация через клиент, интеграция с Google Apps и ряд других бонусов.

Корпоративным пользователям нужно заключать договор на получение неограниченного хранилища и дополнительных функций шифрования.

Если вы пользователь данного сервиса и не увидели никаких изменений, то нововведения касаются только новых пользователей. Уже зарегистрированные получат апгрейд в течение нескольких недель.

[Via CNET]
Рейтинг 0
Просмотры 515
Комментарии 0

Tarantool Данные и Протокол

NoSQL *

Tarantool это замечательное высокопроизводительное no-Sql решение, разработка компании Mail.Ru. Исходники

Данное решение позволяет использовать как режим key/value, так и выборку множества записей в рекордсет по одному или нескольким критериям (полям поиска). Аналогов в рунете и не только, я пока не встречал. С натяжкой можно сравнить редис. Но в редисе — списковые данные и их нельзя выбирать по ключу. Судя до утверждениям разработчиков, скорость доступа по ключу превосходит memcache, при этом еще в бэдграунде осуществляется постоянное сохранение данных на диск. Но к сожалению, данная разработка имеет единственный perl клиент для доступа к данным, из-за чего не имеет такой популярности, как например у redis или memcache.

В doc/box-protocol источников есть описание Протокола, которое я в настоящее время переработал для написания клиента на Си и PHP. Изучив Протокол, вы можете реализоать нативный клиент на любимом Вам языке. Надеюсь, данная статья в этом Вам пригодится.

Читать дальше →
Всего голосов 66: ↑50 и ↓16 +34
Просмотры 5.3K
Комментарии 40

А не сделать ли нам домашнюю файлопомойку на 90 терабайт?

DIY или Сделай сам


Собственно идея летает давно и начала свои корни с публикации компании backblaze как сделать дешевое петабайтное хранилище.

В мире есть как минимум один юзер, который сделал его сам, вот его блог, корпус он правда заказал готовый и внес кое какие улучшения в конструкцию(например убрал второй блок питания, и сделал интересную разводку на один).
В России такие хранилища делает промобит и у них даже есть промосайт для их битблейза.

Но мы не ищем простых путей, всем кому интересно как это сделать своими руками прошу подкат.
Читать дальше →
Всего голосов 174: ↑148 и ↓26 +122
Просмотры 24K
Комментарии 365

In-memory-data-grid. Масштабируемые хранилища данных

Высокая производительность *
Из песочницы
В последнее время интерес к облачным архитектурам растет с каждым днем, так как это один из наиболее эффективных способов масштабировать приложение, не прикладывая больших усилий, а самым узким местом любого высоконагруженного проекта является хранилище данных, в частности реляционная БД. Для борьбы с недостатками традиционных БД в основном используется 2 подхода:

1) Кэширование результатов выполнения запросов
  • плюсы: высокая скорость доступа к данным
  • минусы: требует компромисса между актуальностью данных и скоростью доступа, т.к. данные в кэше могут устареть, а удалять старые данные из кэша с последующим кэшированием новых — это дополнительные задержки и нагрузка на систему

2) NoSQL решения
  • плюсы: хорошая горизонтальная масштабируемость, доменная модель данных совпадает с моделью хранения данных
  • минусы: низкая скорость получения результатов в случае использования диска, практически невозможно обеспечить работу внутрикорпоративного софта, который ориентирован на работу с конкретной реляционной БД.

Сегодня я хочу познакомить вас с таким типом хранилища данных, который объединяет достоинства обоих подходов и при этом имеет ряд преимуществ перед упомянутыми выше решениями: In-memory-data-grid (IMDG).
Читать дальше →
Всего голосов 33: ↑31 и ↓2 +29
Просмотры 22K
Комментарии 41

In-memory-data-grid. Режимы работы, индексы, блокировки

Высокая производительность *
Я продолжаю небольшой цикл статей на тему In-memory-data-grid.
В первой статье была раскрыта сама концепция IMDG без конкретных примеров и деталей реализации. Сегодня мы копнем чуть глубже.
Читать дальше →
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 11K
Комментарии 4

Документо — ориентированное хранилище Nexus системы «Е1 Евфрат»

Блог компании Cognitive Technologies ECM/СЭД *
Постоянно разрабатывая корпоративные информационные системы, работающие с документами, сталкиваешься с задачей организации хранения документов в базе данных. При этом требуется обеспечить: надежное хранение структурированных и неструктурированных документов, ссылки между документами, хранение версий документов, развитые функции поиска документов, массовый ввод/вывод документов, эффективную одновременную работу большого числа пользователей с большим количеством документов, а также контроль доступа к документам.

Читать дальше →
Всего голосов 4: ↑2 и ↓2 0
Просмотры 2.2K
Комментарии 2

О кроссплатформенности «Е1 Евфрат»

Блог компании Cognitive Technologies ECM/СЭД *
Как уже заявлялось ранее, наша система «Е1 Евфрат» обеспечивает возможность единовременной работы сразу с несколькими различными СУБД, реализуя принцип кроссплатформенности.

Первой реляционной СУБД (не считая, конечно, СУБД НИКА) с которой удалось обеспечить интеграцию стала Microsoft SQL Server 2005/2008. Эта СУБД показала себя как наиболее универсальная и не проблемная. Для быстроты поиска и для решения задач интеграции информационных систем через СУБД структурированные данные документа раскладываются в соответствующие схеме поля таблиц реляционной базы. XML возможности MS SQL Server показали худшую производительность в поисковых запросах. Для полнотекстового поиска используются встроенные возможности СУБД.
Читать дальше →
Всего голосов 5: ↑1 и ↓4 -3
Просмотры 2.7K
Комментарии 5

Selectel Storage — облачное хранилище

Блог компании Selectel

Что мы предлагаем?


Selectel Storage — облачное объектное хранилище данных на базе OpenStack Swift.

Для чего?


Для удобного, простого и дешевого хранения резервных копий файлов и раздачи статичных файлов (изображения, аудио, видео, js, css) для веб-сайтов и приложений.
Читать дальше →
Всего голосов 46: ↑37 и ↓9 +28
Просмотры 31K
Комментарии 133

Метрики Хранилища Данных

Oracle *SQL *
Из песочницы
Приветствую.

Создавая, или даже поддерживая, существующее хранилище данных, неизбежно возникает такой этап, когда множественность желаний пользователей встречается с неизбежностью физических ограничений той СУБД, которая используется для хранилища. В действительности, никто не может иметь бесконечного места на диске, процессорной мощности или сколь угодно долгого времени на обновление данных.

В этот момент у руководства могут возникнуть вопросы, если они не возникли ранее, что именно занимает так много места в БД, почему загрузка до сих пор не закончилась и прочее подобное.

Чтобы знать, что отвечать, необходимо провести учет. Создание ХД — процесс длительный, люди, разрабатывавшие архитектуру могут быть уже далеко, я не говорю уже о том, что бизнес требования меняются, иногда, так же быстро, как выходят новые версии браузера Firefox.
Читать дальше →
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 12K
Комментарии 0

Эволюция аналитической инфраструктуры

Блог компании «LifeStreet Media» MySQL *
Этой статьей я открываю серию материалов про инфраструктуру для аналитики вообще и экзотическую для России базу данных Vertica в частности. Статьи описывают опыт серии проектов в моей компании LifeStreet и не претендуют на полноту. Однако, где это представляется возможным, я буду пытаться давать общие обзоры. Прежде чем начать разговор собственно о Вертике, я хочу рассказать немного о том, как мы к ней пришли. Начнем с истории развития аналитической инфраструктуры в нашей компании.

Часть 1. Немного истории, теории и практики


Традиционно мы исповедуем итеративный процесс разработки всего нового. То есть сначала делается быстрый прототип, чтобы “пощупать” некоторую предметную или технологическую область. Затем, отталкиваясь от прототипа, разрабатывается архитектура и дизайн “как надо”, причем предпочтение отдается быстрым в реализации достаточно хорошим решениям, нежели академически правильным, но долгим и сложным. Затем, понятие о том, “как надо”, меняется, и архитектура модифицируется, “как на самом деле надо”. И так далее. Все изменения происходят на работающем и динамично развивающемся бизнесе, что требует осторожного эволюционного подхода. Так было и с аналитической платформой.

Первая версия “инфраструктуры” была сделана “на коленке” за два дня в далеком 2006 году, когда в компании было 4 человека разработчиков, и примерно столько же людей из бизнеса.
Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 9.9K
Комментарии 13