Язык SQL (четвертого уровня) очень неуклюж и не эффективен для таких задач как пропуски и другие подобные ему, тут старый добрый язык третьего уровня будет куда эффективнее
> То есть никто не пытается на тебя давить, унизить или показать твою никчемность, как это часто бывает в российских компаниях.
Да, стресс-интервью любят проводить в российских компаниях. Я им всегда на это отвечаю, лучше увольте людей которые создают стресс в компании чем подбирать стрессоустойчивых людей.
>Согласно проведенным выше декмопозициям определений — Data mining как бы “выигрывает” у Big Data за счет демократичного подхода к >объему данных.
Объем данных может быть любой, хотя обычно объемы у Big Data больше.
>Согласно списку задач, решаемым при помощи методов Big Data и Data Mining, “выигрывает” уже Big Data, так как решает задачи сбора и >хранения данных.
Это все равно что сравнить что руль от Мерседеса лучше чем Запорожец, т.к. Запорожец еще и едет =)
В целом не очень лаконично, более кратко нужно.
Я бы написал проще:
Data Mining это класс программ для нестандартного анализа данных, который работает только со структурированными данными.
Big Data это стек технологий и архитектурный принцип и т.д. и т.п.… который решает задачи ETL НЕструктурированных данных и в дальнейшем может включать и анализ этих данных. Хотя ничего не мешает после ETL Big Data направить данные уже в структурированном виде в Data Mining.
Хотя так же ничего не мешает Big Data не конвертировать данные в структурированный вид использовать специалезированные средства анализа заточенные именно для Big Data производить аналогичный анализ что делает Data Mining.
В Оракле для любой БД можно создать коннектор. Например мы создали для mysql и писали туда данные из Оракла. Единственный нюанс нужно было писать 2 раза commit
У нас много талантливых криэйторов, но мало хороших внедренцев и продавцов. Людей способных вывести продукт на международный уровень вообще единицы. Я думаю Медведеву нужно заняться именно последним. Или нет?
Опять они все не правильно делают, нужно наоборот принимать компании занимающиеся не исследованием, а коммерцией, чтобы платились налоги, пенсии. Чтобы покровитель Сколокого Медведев, пробивал бюрократические барьеры для коммерсантов.
А у нас как обычно делают наоборот.
Зачем нужны инновации без коммерции? Ты просто выбрасываешь деньги в трубу, чтобы разработать продукт, которым ты потом торговать не сможешь по уставу Сколкого, или я что-то не понял?
>спорное утверждение, когда GreenPlum кластер из 16 серверов :)
смотря какие сервера :)
Стандартная Терадата 2750 года полтора назад имела на борту 432 ядра и 432 винта и 6 Тб оперативки. А сколько у вас?
Я бы сказала даже так, по стоимости хранения будет следующий порядок, по убыванию:
Teradata (+ со всеми фичами типа колоночное хранение)
Exadata
Oracle
Другие MPP
Hadoop
>При этом цены будут различаться примерно в порядок.
Более или менее согласен
Юрия, а вы выбрали Hadoop именно по причине низкой стоимости за Гб или были другие причины?
А почему выбрали Greenplum, а не Vertica, Netezza?
Кстати у Терадаты есть свой Hadoop, называется AsterData, вроде как там стоимость хранения более чем на порядок дешевле, не рассматривали ее?
Вполне!
Статья хорошая, но требует продолжения.
Например, производительность запросов на вышей системе?
Давайте я буду сторонником традиционных подходов и уверен, что на ваших объемах Оракл и Терадата уделают вас в производительности запросов в 10 раз, а вы будите отстаивать противоположную точку зрения? =)
Иначе я пока сомневаюсь в целесообразности использование не стандартных подходов, точно ли у вас конечный формат данных, характер запросов и объемы данных лучше укладываются в стек технологий Big Data нежели традиционные DWH? Я в этом не уверен и не вижу ответа в статьи!
>Как и в классическом DWH, мы выделили основные концептуальные слои данных
Ну если уж совсем придерживаться концепции слоев то RAW это STG, ODD это ODS, а DDS в принципе тоже правильно, но я обычно использую DWH.
>Apache Flume.
Что всегда удивляет, так это никогда не повторяющееся сочетания софта и технологий, они всегда новые =) Нет стабильности в мире BigData =)
На счет того что существует Informatica BDE большой респект! не знал это она есть. Но сразу могу вам дать совет вопрос:
> не хватает всего того множества полезных фич, которые есть в старом PowerCenter
А вы можете его использовать тоже, просто target будет сперва РСУБД, а потом уже Hadoop. Но опять же вопрос, на сколько PowerCenter подходит для ваших данных и ETL.
>Hive
Я не знаток NoSQL технологий, но разве стандартный Hive+Hadoop не тормозной? Слышал что все переходят на parquet, storm, Impala, Drill и т.д. Почему именно остановились на Hive+Hadoop?
Да, стресс-интервью любят проводить в российских компаниях. Я им всегда на это отвечаю, лучше увольте людей которые создают стресс в компании чем подбирать стрессоустойчивых людей.
Объем данных может быть любой, хотя обычно объемы у Big Data больше.
>Согласно списку задач, решаемым при помощи методов Big Data и Data Mining, “выигрывает” уже Big Data, так как решает задачи сбора и >хранения данных.
Это все равно что сравнить что руль от Мерседеса лучше чем Запорожец, т.к. Запорожец еще и едет =)
В целом не очень лаконично, более кратко нужно.
Я бы написал проще:
Data Mining это класс программ для нестандартного анализа данных, который работает только со структурированными данными.
Big Data это стек технологий и архитектурный принцип и т.д. и т.п.… который решает задачи ETL НЕструктурированных данных и в дальнейшем может включать и анализ этих данных. Хотя ничего не мешает после ETL Big Data направить данные уже в структурированном виде в Data Mining.
Хотя так же ничего не мешает Big Data не конвертировать данные в структурированный вид использовать специалезированные средства анализа заточенные именно для Big Data производить аналогичный анализ что делает Data Mining.
Вообще у нас налоги выше чем в США в целом и на уровне Западной Европы.
У нас много талантливых криэйторов, но мало хороших внедренцев и продавцов. Людей способных вывести продукт на международный уровень вообще единицы. Я думаю Медведеву нужно заняться именно последним. Или нет?
А у нас как обычно делают наоборот.
Зачем нужны инновации без коммерции? Ты просто выбрасываешь деньги в трубу, чтобы разработать продукт, которым ты потом торговать не сможешь по уставу Сколкого, или я что-то не понял?
смотря какие сервера :)
Стандартная Терадата 2750 года полтора назад имела на борту 432 ядра и 432 винта и 6 Тб оперативки. А сколько у вас?
Я бы сказала даже так, по стоимости хранения будет следующий порядок, по убыванию:
Teradata (+ со всеми фичами типа колоночное хранение)
Exadata
Oracle
Другие MPP
Hadoop
>При этом цены будут различаться примерно в порядок.
Более или менее согласен
Юрия, а вы выбрали Hadoop именно по причине низкой стоимости за Гб или были другие причины?
А почему выбрали Greenplum, а не Vertica, Netezza?
Кстати у Терадаты есть свой Hadoop, называется AsterData, вроде как там стоимость хранения более чем на порядок дешевле, не рассматривали ее?
Статья хорошая, но требует продолжения.
Например, производительность запросов на вышей системе?
Давайте я буду сторонником традиционных подходов и уверен, что на ваших объемах Оракл и Терадата уделают вас в производительности запросов в 10 раз, а вы будите отстаивать противоположную точку зрения? =)
Иначе я пока сомневаюсь в целесообразности использование не стандартных подходов, точно ли у вас конечный формат данных, характер запросов и объемы данных лучше укладываются в стек технологий Big Data нежели традиционные DWH? Я в этом не уверен и не вижу ответа в статьи!
Ну если уж совсем придерживаться концепции слоев то RAW это STG, ODD это ODS, а DDS в принципе тоже правильно, но я обычно использую DWH.
>Apache Flume.
Что всегда удивляет, так это никогда не повторяющееся сочетания софта и технологий, они всегда новые =) Нет стабильности в мире BigData =)
На счет того что существует Informatica BDE большой респект! не знал это она есть. Но сразу могу вам дать совет вопрос:
> не хватает всего того множества полезных фич, которые есть в старом PowerCenter
А вы можете его использовать тоже, просто target будет сперва РСУБД, а потом уже Hadoop. Но опять же вопрос, на сколько PowerCenter подходит для ваших данных и ETL.
>Hive
Я не знаток NoSQL технологий, но разве стандартный Hive+Hadoop не тормозной? Слышал что все переходят на parquet, storm, Impala, Drill и т.д. Почему именно остановились на Hive+Hadoop?