Pull to refresh
41
Karma
0
Rating

10 заповедей Больших Данных

Big Data *
Заповеди навеяны содержанием книги «Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим»

Тема Больших Данных интересовала меня с самого начала её популяризации в России. Устав от агрессивного маркетинга производителей в этом направлении, пытающихся продать под видом Больших Данных всё что угодно, только не саму суть Больших Данных, и ангажированных статей ИТ-журналистов, воспевающих об эффективности и полезности Больших Данных в решении бизнес-задач, я решил прочесть книгу фаната технологического подхода Больших данных, профессора Оксфордского университета и со-автора, экономиста, в надежде найти там ответы на вопросы, раскрывающие суть Больших Данных. По мере прочтения в моей голове постепенно происходило осознание идей, заложенных в этой книге. На каком-то этапе я решил, что суть этой книги можно выразить в религиозном ключе, в виде коротких заповедей, гласящих об основных принципах и подходах, которые должны будут применяться в будущем мире Больших Данных.
Читать дальше →
Total votes 31: ↑13 and ↓18 -5
Views 4.2K
Comments 11

Будущее IT внутри компаний: меньше, качественнее, дешевле

Cloud computing *
Причиной для написания этой статьи послужили несколько недавних и не связанных между собой событий в моей жизни. Сначала в мой дом проложили оптическое волокно и мне стало доступно подключение к сети Интернет со скоростью до 350 Мб/сек. После этого я задумался над тем, какой объем жесткого диска мне необходим для того, чтобы хранить домашний контент – документы, фотографии из поездок, фильмы и музыку. Мысль эта, блуждая по закоулкам сознания, вылилась в вопрос – а нужно ли мне покупать жесткий диск домой, если у меня есть качественное, стабильное и высокоскоростное подключение к Интернет? Причем все мои устройства, мобильные и не совсем, имеют возможность подключения к Интернет в любое время. Может быть проще использовать сервис облачного хранения данных, коих в наше время развелось на любой вкус и кошелек?

Сервис облачного хранения я так и не выбрал, но мысль моя, продолжая плутать, на своем пути посеяла зёрна интереса, которые взошли ростками любопытства – а сколько компаний задает себе такой же вопрос?
Читать дальше →
Total votes 17: ↑8 and ↓9 -1
Views 21K
Comments 18

Диалоги о Big Data

Big Data *
-Привет!

-Здоров. Как ты? Жив?

-Держусь. Можно даже сказать, что бодр и весел. Ну что, будем делать заказ? Какие нынче предпочтенья – дорада на гриле или «Биф фингер мит»?

-Даже не знаю. Скорее второе. А как продвигаются дела на фронте продажи решений в сфере ИТ? Успеваете подвозить «железо» на склад? Или уже образовался дефицит, и приходиться давать не больше двух в одни руки?

-Практически. Скоро будем работать в две смены – с утра продаем, вечером грузим (смеется). Был на форуме «Big Data 2013», который проводили «Открытые системы»?

Читать дальше →
Total votes 38: ↑18 and ↓20 -2
Views 8.6K
Comments 11

Три буквы, о которых Вы не знаете

System Analysis and Design *SQL *
Рассказывая людям на встречах и презентациях про технологию, относящуюся к области баз данных, я поражаюсь, какая огромная пропасть может быть между тем, чем человек занимается и в какой области он работает. Еще больше поражает, что такая пропасть может присутствовать и у технических специалистов. Я попробую пояснить – например, в карточке человека написано «Специалист по работе с базами данных», а на деле оказывается, что этот человек умеет настраивать бэкапы в RMAN-е, создавать индексы и перестартовывать инстансы. Все его знания в области баз данных умещаются в знание, как использовать эти три инструмента. Ах да, еще, конечно же, знание SGA. Поразительно, но возникает такое чувство, что человек определил себе рамки, в границах которых он что-то знает, а что происходит за этими рамками, ему кажется неинтересным и недостойным внимания.
Читать дальше →
Total votes 16: ↑10 and ↓6 +4
Views 28K
Comments 10

Oracle, как религия

Oracle *
Всё, что написано ниже, относится к Oracle Database и Oracle Exadata.

Преамбула



Полная луна освещала пыльную, петляющую дорогу, исчезающую среди холмов впереди. Я стоял в раздумье в начале своего пути, размышляя о том, куда может привести эта дорога. Отбросив сомнения прочь, я начал свой путь к виднеющейся вдалеке пирамиде, вершина которой терялась среди облаков. По дороге мне никто не встретился, кроме памятника, больше похожего на надгробие с изображением человека и надписью огромными буквами “In Codd we trust”. Подойдя к пирамиде на достаточно близкое расстояние, я сумел разглядеть, что она состоит из DB_BLOCK-ов, большей частью размером 8Kb, но можно было найти и больше. На каждом блоке был изображен логотип компании, которая использовала блок для хранения своих данных. Заметив небольшую толпу около входа в пирамиду, я заинтересовался, и решил узнать, что это такое. Подойдя совсем близко, толпа приобрела очертания – большой частью она состояла из студентов, но встречались и бизнес-аналитики, тестеры, программисты, можно было даже заметить пару менеджеров по продажам – все они рвались внутрь.
Читать дальше →
Total votes 64: ↑57 and ↓7 +50
Views 15K
Comments 116

Стоит ли платить за Apache Hadoop?

Java *Data Mining *Big Data *


В 2010 году Apache Hadoop, MapReduce и ассоциированные с ними технологии привели к распространению нового явления в сфере информационных технологий, названного «большими данными» или «Big Data». Понимание того, что из себя представляет платформа Apache Hadoop, зачем она нужна и для чего её можно использовать потихоньку проникает в умы специалистов по всему миру. Зарожденный, как идея одного человека, и быстро выросший до промышленных масштабов, Apache Hadoop стал одной из самых широко обсуждаемых платформ для распределенных вычислений, а также платформой для хранения неструктурированной или слабо структурированной информации. В этой статье я хотел бы подробнее остановиться на самой платформе Apache Hadoop и рассмотреть коммерческие реализации, предоставляемые сторонними компаниями, и их отличия от свободно распространяемой версии Apache Hadoop.
Читать дальше →
Total votes 26: ↑25 and ↓1 +24
Views 31K
Comments 14

Просто и доступно о аналитических БД

SQL *Big Data *
Интерес к технологиям Big Data постоянно растет, а сам термин приобретает все большую популярность, многие люди хотят поговорить об этом, обсудить перспективы и возможности в этой области. Однако немногие конкретизируют — какие компании представлены на этом рынке, не описывают решения этих компаний, а также не рассказывают про методы, лежащие в основе решений Big Data. Область информационных технологий, относящихся к хранению и обработке данных, претерпела существенные изменения к настоящему моменту и представляет собой стремительно растущий рынок, а значит лакомый кусок для многих всемирно известных и небольших, только начинающих, компаний в этой сфере. У типичной крупной компании имеется несколько десятков оперативных баз данных, хранящих данные об оперативной деятельности компании (о сделках, запасах, остатках и т.п.), которые необходимы аналитикам для бизнес-анализа. Так как сложные, непредвиденные запросы могут привести к непредсказуемой нагрузке на оперативные базы данных, то запросы аналитиков к таким базам данных стараются ограничить. Кроме того, аналитикам необходимы исторические данные, а также данные из нескольких источников. Для того чтобы обеспечить аналитикам доступ к данным, компании создают и поддерживают так называемые хранилища данных, представляющие собой информационные корпоративные базы данных, предназначенные для подготовки отчетов, анализа бизнес-процессов и поддержки системы принятия решений. Хранилища данных служат также источником для оценки эффективности маркетинговых кампаний, прогнозированию, поиску новых возможных рынков и аудиторий для продажи, всевозможному анализу предыдущих периодов деятельности компаний. Как правило, хранилище данных – это предметно-ориентированная БД, строящаяся на временной основе, т.е. все изменения данных отслеживаются и регистрируются по времени, что позволяет проследить динамику событий. Также хранилища данных хранят долговременные данные — это означает, что они никогда не удаляются и не переписываются – вносятся только новые данные, это необходимо для изучения динамики изменения данных во времени. И последнее, хранилища данных, в большинстве случае, консолидированы с несколькими источниками, т.е. данные попадают в хранилище данных из нескольких источников, причем, прежде чем попасть в хранилище данных, эти данные проходят проверку на непротиворечивость и достоверность.
Читать дальше →
Total votes 8: ↑5 and ↓3 +2
Views 62K
Comments 8

Мифология Data Science

Big Data *


The future belongs to the companies and people that turn data into products

Человечество никогда не стояло на месте – суровый закон выживания постоянно заставлял его двигаться вперед. В истории развития человечества революции происходили всегда – одно общество сменялось другим, а устаревшие технологии заменялись более прогрессивными. Последняя информационная революция связана с появлением персональных компьютеров в 80-е годы ХХ века.
Читать дальше →
Total votes 22: ↑18 and ↓4 +14
Views 22K
Comments 18

Второй пузырь доткомов или новая эра?

Web analytics *
Наблюдая за появлением огромного количества IT стартапов во всем мире, большая часть которых сосредоточена в Северной Америке, Европе и Азии, и видя их взрывной рост стоимости, часто в десятки раз от первоначального размера за короткие промежутки времени, мне становится интересно понять причины этого явления. Имея экономическую подготовку и кое-какие знания в этой области, я всегда старался постичь базовые механизмы, заложенные в подобных явлениях. Что является двигателем в этих событиях, а также где берётся топливо для всё большего и большего разгона этого явления? Откуда такой энтузиазм в прогнозах и почему венчурные инвесторы так охотно вкладываются в молодой, неокрепший бизнес, будучи твердо убеждены, что когда-нибудь это принесет им прибыль, намного превышающую прибыль от вложений в другие инструменты для инвестирования? В конце концов, откуда берутся деньги у этих самых венчурных инвесторов, чтобы так щедро вкладывать их в стартапы? И самый главный вопрос – неужели вопли паникёров «IT загибается»TM, которые я раньше постоянно слышал, не имеют под собой реальной основы?
Читать дальше →
Total votes 43: ↑37 and ↓6 +31
Views 9.3K
Comments 22

GC и большой heap: друзья или враги?

High performance *Java *
Споры о том, что лучше: ручное управление или автоматическое ведутся во многих областях науки и техники. Положиться на человека или отдаться на откуп бесстрастным механизмам и алгоритмам? Похоже, что в мире создания Enterprise решений чаша весов склонилась все-таки в сторону автоматического управления памятью, большей частью из-за того, что возиться с указателями, ручным управлением памятью и закрашивать седину после каждого бага, появившегося из-за «неправильного» компилятора С/C++ не хочется сейчас уже никому. Но до сих пор возникают на форумах топики, где не сдающиеся суровые приверженцы ручного управления памятью яростно и непримиримо отстаивают свои ретроградные взгляды в борьбе с прогрессивной частью человечества. Пусть их, оставим их в покое.

Одной из наиболее часто использующихся платформ с механизмами автоматического управления памятью стала Java. Но, автоматическое управление памятью принесло не только комфорт в нелегкий труд программистов, но и свои недостатки, с которыми приходиться сталкиваться всё чаще и чаще. Современные многопользовательские приложения, способные обработать огромный поток транзакций, требуют значительных аппаратных ресурсов, размеры которых раньше было трудно даже вообразить. Однако, дело не в размерах этих ресурсов, дело в том, что сборщик мусора, существующий в большинстве современных JVM, не может работать эффективно с большими объемами памяти.
Читать дальше →
Total votes 50: ↑48 and ↓2 +46
Views 26K
Comments 28

Big Data: Backup делать нельзя работать без него

Data recovery *Database Administration *
За время работы администратором баз данных я выработал для себя одно правило, которого придерживаются многие DBA. Это «золотое» правило всех администраторов баз данных – не делай ничего серьезного с базой данных, если у тебя нет бэкапа. Если ты собрался серьезно изменить параметры базы данных, провести операции по техническому обслуживанию базы данных и т.п. – то всегда перед этим надо выполнить операцию резервного копирования. Этот принцип достаточно долго работал и оправдывал себя, и даже в нескольких случаях помогал восстановить базу данных на определенный момент времени.
Читать дальше →
Total votes 8: ↑7 and ↓1 +6
Views 8.4K
Comments 14

Скорость доступа к данным: битва за будущее

SQL *
Sandbox
С давних времен человечество занималось тем, что накапливало информацию, анализировало и хранило её в каком-либо виде, чтобы потом передать потомкам. Эволюция нашего сознания смогла стать возможной во многом благодаря именно этому — новому поколению людей не надо было постигать то, что уже было постигнуто до них. Начиная с древнейших носителей информации – египетских папирусов и шумерских табличек с клинописью, человечество накапливало всё больший и больший объем информации. В истории человечества были времена, когда в результате войн и катаклизмов часть уже накопленных знаний уничтожалась или исчезала, и тогда прогресс останавливался, а человечество отбрасывалось назад в своем развитии. Настоящей революцией и прорывом стало открытие технологии массового книгопечатания, которое позволило распространять информацию на большую аудиторию, что в свою очередь привело к взрывному росту в науках, искусстве, а также вывело сознание всего человечества на более высокий уровень. Развитие технологий в ХХ веке привело к появлению новых носителей информации – перфокарты, перфоленты, жёсткие магнитные диски и т.п. Всё большие и большие объемы информации переносились из гроссбухов на электронные носители. Возникла потребность в организации и управлении доступа к этим данным – так появились первые СУБД.

Реляционная модель данных, предложенная в 1970 году Э.Ф. Коддом, надолго задала тенденцию в развитии баз данных и позволила полностью отвечать требованиям бизнеса до сегодняшнего момента. С 1970 года реляционные базы данных прошли большой путь и приняли много вызовов, встававших на их пути. Постоянно растущие объемы данных привели к появлению методов, способных обеспечить более быстрый доступ к необходимым данным – индексы, хранение данных в отсортированном виде и т.п. Эти методы вполне успешно справлялись со своей задачей, да и до сих пор не потеряли своей актуальности. Однако стремительное увеличение объемов носителей информации и удешевление стоимости хранения данных привело к тому, что объемы баз данных в десятки терабайт не являются уже чем-то необычным и воспринимаются, как обычное явление. Бизнес не может допустить, чтобы эти данные лежали «мертвым грузом», так как всё возрастающая конкуренция в мире заставляет его искать новые подходы к освоению сферы своей деятельности, ведь по крылатому выражению – «Кто владеет информацией, тот владеет миром». Если говорить о времени, то счет идет не на дни, или даже часы, а скорее на минуты – кто сможет быстро получить необходимую информацию, тот и выиграет.
Читать дальше →
Total votes 9: ↑6 and ↓3 +3
Views 7.4K
Comments 11

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity