Комментарии / Профиль donjenya / Хабр

Пользователь

Подписчики

ПрофильСтатьи12ПостыНовостиКомментарии52

donjenya 10 сен 2012 в 15:14

Да, действительно, Teradata предлагает софтверную версию. Из описания в из документе:

The Teradata Data Mart edition includes the Teradata Database 14.0 software and basic utilities. This runs on standard Intel® SMP servers from Dell, HP, IBM, and other vendors. This software can be used for prototyping and to get projects started with a very limited budget.

Т.е. эта версия подходит для PoC и тестирования базовых функциональных возможностей решения от Teradata. В качестве версии для продуктивной системы с большими объемами данных надо покупать уже программно-аппаратный комплекс.

Просто и доступно о аналитических БД

donjenya 9 сен 2012 в 13:46

Спасибо, не знал об этом, не поделитесь информацией, где можно об этом прочитать?

Стоит ли платить за Apache Hadoop?

donjenya 9 сен 2012 в 13:29

Cloudera меня ничем не обидела, и у меня не было намерения выставить Cloudera в плохом свете. То, что она пионер в области Apache Hadoop — я совершенно согласен с этим и многое она привносит в развитие Hadoop. Впрочем, как и MapR и Hortonworks. Хотя надо заметить, что по-моему мнению, Cloudera привносит самую большую часть из них. Насчет значимости Hue довольно спорный вопрос, но тут, наверное, не может быть единого мнения. Но, то, что они сделали очень многое для развития Hadoop — неоспоримый факт, и только за это можно высказать им свое уважение.

Стоит ли платить за Apache Hadoop?

donjenya 9 сен 2012 в 13:21

Да, совершенно верно — я незаслуженно упустил MapR в этой статье.

Попробую кратко описать в комментарии основные отличия MapR M3 и MapR M5 от CDH и HDP. Итак, 29 июня 2011 года MapR представило свой дистрибутив на основе Apache Hadoop. Чтобы иметь представление, что это такое, приведу картинку:

Главные отличие дистрибутива от MapR — это то, что там нет HDFS. Вместо него MapR разработало свою распределенную файловую систему с поддержкой произвольного чтения/записи без блокировок, имеющую довольно значительные преимущества по сравнению с HDFS. Например, она поддерживает компрессию и распределяет метаданные по кластеру, что дает возможность создавать неограниченное количество файлов и, что более важно в текущий момент, устраняет single point of failure в виде централизованной NameNode.

По уверениям CEO MapR Джона Шроедера они значительно переделали компоненты, относящиеся к MapReduce, а также разработали свою распределенную файловую систему, что позволило увеличить производительность в 3-5 раз по сравнению с основными конкурентами — Cloudera и Hortonworks.

MapR M3 совершенно бесплатно, можно скачать с их сайта.
MapR M3

MapR M5 платная, стоит $4000 за узел (цена на 2011 году), обладает расширенной функциональностью по сравнению с MapR M3 — JobTracker HA, Distributed NameNode, NFS Multinode HA, Mirroring, Snapshots, Data placement control и техническая поддержка 24х7. Amazon предпочел решение от MapR — Elastic MapReduce. Google выбрал его в качестве платформы для внутреннего поиска. Также, EMC заключило соглашение с MapR об использовании этого дистрибутива в качестве основы для Greenplum HD.

Подводя итог, можно сказать, что дистрибутив от MapR — это серьезное решение с вполне определенными и ясными преимуществами, можно его рассматривать, как одно из ведущих наравне с CDH и HDP, а в некоторых моментах оно даже дает уникальные возможности по сравнению с остальными решениями.

Стоит ли платить за Apache Hadoop?

donjenya 9 сен 2012 в 12:20

Забыл упомянуть, что Greenplum HD взял дистрибутив MapR M5 за основу для своей базы.

Стоит ли платить за Apache Hadoop?

donjenya 9 сен 2012 в 12:05

Это интеграция Apache Hadoop с SQL Server 2012, то есть они прикрутили поддержку Apache Hadoop к SQL Server. Microsoft настойчиво пытаются сказать, что SQL Server тоже может быть решением для Big Data. Может быть, может быть… Скептицизм, который у меня остался после работы с SQL Server 2000 в юности, пока еще не выветрился полностью :)
Может быть, это предвзятое мнение и SQL Server 2008 хорош :)

Greenplum тоже интегрировал Apache Hadoop со своей базой данных Greenplum Database и называет это решение Greenplum HD. На самом деле, сейчас практически все производители в области хранения и обработки данных разрабатывают интеграцию с Apache Hadoop — это говорит о многом.

Стоит ли платить за Apache Hadoop?

donjenya 9 сен 2012 в 11:54

Да, Microsoft предлагает развернуть Apache Hadoop на их облаке Azure. Правда, он не упоминает, какой дистрибутив они берут за основу, вполне возможно что они его собрали сами. Не думаю, что они заинтересованы в развитии Hadoop собственными силами, скорей они пытаются адаптировать его для своих продуктов — это, кстати, подтверждается следующим комментарием. Хотя уже то, что они обратили внимание на Apache Hadoop, уже говорит о том, что они поверили в перспективы этого проекта.

Доступ к информации. Внутренний аудит

donjenya 21 авг 2012 в 10:09

Насчет цены не смогу подсказать, а по производительности обещают поддержку 10000 пользовательских сессий одновременно.

Доступ к информации. Внутренний аудит

donjenya 20 авг 2012 в 13:15

Есть решение Xceedium, которое представляет собой шлюз доступа как раз для таких случаев. Основной принцип основан на том, что сначала надо авторизоваться на самом Xceedium, а потом уже он сам предоставит пользователю ходить туда, куда ему разрешено, но только через Xceedium, а заодно и записывает за ним все действия.

Описание Xceedium

Я думаю, это решение будет лучше, чем проверка паролей на сложность :) Есть еще какие-то решения, но я знаю только это. В любом случае, за пост спасибо, но мое личное мнение — простой проверки недостаточно, тут нужен еще и аудит пользователей.

Правильный бэкап в ЦОДе

donjenya 9 авг 2012 в 12:50

1) Какой размер блока для дедупликации? Если он переменный, то как определяются блоки, которые уже имеют дубликаты?
2) Дедупликация на источниках — какой footprint возникает на источнике?

Мифология Data Science

donjenya 2 авг 2012 в 06:44

Да, верное замечание для периода с 2005 — 2015. Но если брать период 2012 — 2015, то график роста можно отразить в виде геометрической прогрессии с знаменателем 7. Я убрал упоминание о геометрической прогрессии, чтобы не вводить в заблуждение :)

Мифология Data Science

donjenya 2 авг 2012 в 06:06

Хмм… ML и Data Science — это смежные области и часто задачи, которыми они занимаются, совпадают. На этой диаграмме она разделены, как я понимаю, по причине того, что Data Science отталкивается от данных, с которыми придется работать — то есть надо понимать, какой смысл несут эти данные. Задача перед ML сходная — машина должна уметь разобрать и понять информацию. Я не специалист по ML, но, как я подозреваю, там основанием являются алгоритмы машинного обучения, а данные уже подстраивают под них, т.е. теоретически, можно работать в области машинного обучения и не знать предметную область :) Как это на практике — не берусь утверждать.

Мифология Data Science

donjenya 1 авг 2012 в 12:10

Но it-шник сам по себе, ради создания бессмысленного контента зачем нужен обществу?
Такой конечно не нужен. А вот it-шник, создающий осмысленный контент очень даже полезен. Я имею ввиду, что data science — это то, что позволит выделить что-то новое из данных, что в любом случае позволит переосмыслить некоторые вещи и узнать новое. А предметная область для data science — это сами данные, и методы их анализа.
Мы — сфера обслуживания, это надо осознавать, как мне кажется.
С этим согласен не полностью, так как сложно определить что является сферой в некоторых случаях. Вот, например, создают медицинского хирургического робота и it-шники создают ПО под него. Производители роботов — это сфера обслуживания медицины или все-таки производство? Исследователи, которые создают его, могут утверждать, что работают в сфере обслуживания? Если всё рассматривать в таком аспекте, то любой человек работает в сфере обслуживания, только сфера эта большая — обслуживание общества, где он существует.
Я не пытаюсь возвысить it-шника, тем не менее, хочу сказать, что роль it-шника(не просто клепающего игры для фейсбука) достаточна велика. Если раньше это были бородатые админы в серверной, и не все понимали, зачем они нужны, то сейчас это полноправный участник бизнес-процесса и без них уже зачастую тяжело справиться.

Мифология Data Science

donjenya 1 авг 2012 в 11:22

Я согласен с тем, что в начале длинной цепочки, наверху которой находиться it-шник, стоит человек с лопатой. Тем не менее, в развитых странах сейчас есть, и развиваются, все технологические предпосылки для формирования так называемого информационного общества. Это не означает, что фермеров сократят за ненадобностью. Скорей это означает, что их значение в создание продуктов, которые позволяют развиваться обществу дальше сокращается. А значение it-шника в этом обществе повышается, так как он является движущей силой в этом обществе. Никто на них конечно молиться не будет — проще говоря, it-шник потенциально сможет принести больше пользы обществу, чем например продавец автомобилей или фермер, выращивающий кукурузу. Тем не менее, нужны и те, и те, но ценность у них разная. То, что сельское хозяйство очень важно для государства — это бесспорно, и любое разумное государство поддерживает его дотациями. Но, также, любое разумное государство не призывает всех своих сограждан идти в фермера, потому что это развивает общество в целом.

Мифология Data Science

donjenya 1 авг 2012 в 09:42

Появляется, просто для того, чтобы это стало заметно всем, требуется несколько лет в любом случае. Я упоминал вакансию от EMC в статье — это первый предвестник новой специальности в России. Я больше, чем уверен, что в будущем потребность в таких специалистах будет расти. Вот, как например, с Java — в 2000 году никто о ней не слышал и специалистов не было, сейчас о Java знают все.

Проекты с Big Data появляются в России — некоторые компании накопили большие объемы данных, соответственно, у них есть желание заняться их анализом. Причем объем новых данных не снижается, а только растет.

Мифология Data Science

donjenya 1 авг 2012 в 09:33

В оригинале Изобретательность — Hacking skills. То, что это опасная зона, означает что человек на пересечении этих двух кругов обладает возможностями нанести вред. Поэтому такие люди представляют потенциальную опасность.

Ваше замечание, что эта зона не только опасная, но и в то же время инновационная — совершенно верно, т.к. только человек, знающий о всех недостатках и преимуществах системы может предложить метод, который мог бы улучшить систему в целом.

Второй пузырь доткомов или новая эра?

donjenya 27 июл 2012 в 13:07

Что касается реального бизнеса, то, безусловно, он пытается автоматизировать процессы и тем самым увеличить и скорость бизнеса, и сократить расходы. Период, когда компьютеры только появлялись, уже пройден — сейчас компьютер есть в каждой организации и какая-нибудь 1С там стоит. Если реальный бизнес не растет, то там так и остается стоять 1С. Если растет, то ставят уже КИС, ERP, DB, DWH, CRM и т.п. Проблема в том, что не везде этот бизнес растет, а кое-где он даже уменьшается. А вместе с реальном сектором будут уменьшаться и доходы конечных потребителей.

Второй пузырь доткомов или новая эра?

donjenya 27 июл 2012 в 10:05

Я тоже так думаю — если всё будет идти благополучно, то пузыря не будет. Будет буйный расцвет стартапов(уже идет), отмирание нежизнеспособных и становление выживших.

Но сейчас сектор реальной экономики в мире лихорадит, и если он будет падать, то с ним будет падать и всё остальное, так как лучший станок по производству денег — это токарный станок на машиностроительном заводе.

GC и большой heap: друзья или враги?

donjenya 24 июл 2012 в 10:56

На первых двух графиках нет G1, потому что тесты проводились в 2011 году, а официальная поддержка G1 началась с выпуска в мае 2012 года Java SE 7 Update 4.
Со вторым графиком — да, это особенность Azul C4, на heap-e большего размера достигается бОльшая эффективность. Там же рассказывается про методику теста. Подробности по ссылке:
Подробности про Azul C4

GC и большой heap: друзья или враги?

donjenya 24 июл 2012 в 06:39

Спасибо. Очень интересно мероприятие, постараюсь его посетить.