Comments / Profile of yusman / Habr

Tim @yusman

Пользователь

ProfileArticles2PostsNewsComments177

Big Data головного мозга

yusman Jun 23 2016 at 07:49

А расскажите, пожалуйста, зачем?

Look

Big Data головного мозга

yusman Jun 22 2016 at 18:43

Насколько я знаю, в большинстве коммерческих аналитических МРР-системах имеется в той или иной мере поддержка ML и предиктивной аналитики, в той же Aster или Vertica это имеется. Другое дело насколько эта поддержка удовлетворяет вашим потребностям. Например, в Vertica работа с ML по функционалу и подходу очень напоминает MadLib.

Look

Big Data головного мозга

yusman Jun 22 2016 at 15:26

Надо понимать, что «немного кода на Java», в реальности выливается в сложности:
1. Как обрабатывать исключения, зависания, утечки памяти и т.п.?
2. Логирования ошибок соединенения, загрузки и т.п…
3. Изменение модели данных источника и применика
4. Ковертация типов данных, между различными СУБД, работа с теми же самыми датами.

Тут же уже все давно придумано и, конечно, можно написать свой велосипед, но использовать уже готовые инструменты или фреймворки все же намного проще, благо, существует большое количество OpenSource проектов.

Look

Big Data головного мозга

yusman Jun 22 2016 at 11:50

Алексей, во-первых, вам большой респект за HAWQ (активно слежу за этим проектом)

Spark не MPP, это тот же Batch Processing

Понятие МРР я восринимаю буквально — массивно-параллельный процессинг.
Да, понятие МРР тесно закрепилось за конкретными СУБД(Vertica, GPDB, Teradata и т.д.), но технически MapReduce, Kudu, Spark и т.д. тоже является МРР-системой с распределенной архитектурой.

Kudu не имеет зависимости от HDFS, это как раз более быстрая замена HDFS

Хм… на главной же странице Kudu: A new addition to the open source Apache Hadoop ecosystem, Apache Kudu (incubating) completes Hadoop's storage layer to enable fast analytics on fast data.
Возможно это очередной маркетинговый булшит, покапаюсь глубже в этой теме.

MPP over Hadoop востребована

А чем именно обуслевлена данная востребованность? Популярностью Hadoop или реальными потребностями рынка?

Look

Big Data головного мозга

yusman Jun 22 2016 at 08:42

Софт — бесплатно

Открою для вас горькую правду — ничего бесплатного в нашем мире нет. Используя CDH или Hortonworks, вы должны купить подписку на поддержку, которая, кстати, не бесплатная.
Если вы собираете свой дистриубутив Hadoop, то да — это бесплатно, но вы уйдете с проекта, кто это все поддерживать будет если оно сломается??

Опробовать статистические методы

Все это есть в любой аналитической МРР системе, в том же Greenplum — библиотека MadLib, умеет делать очень много и на SQL-подобном языке.

просто не хотите слазить с SQL-ориентированных задач. Увы, не всё в мире сводится к JOIN-у двух таблиц.

Согласен, не все так категорично, но перед тем как эти две таблички связать, необходимо провести много работы и не обязательно для этого использовать инструменты из зоопарка Hadoop.

Look

Big Data головного мозга

yusman Jun 22 2016 at 08:16

Тоже самое, что и для Spark Streaming, все же потоковые вычисления не совсем то, о чем я хотел рассказать.
Думаю, определенную нишу эти продукты найдут.
Но опять же, нужно каждый раз думать, необходимо ли использовать этот инструмент
Как уже писал уважаемый vais в комментарии выше, цепочка из такого зоопарка выглядит как минимум… кхм… странной:
postgresql->.net service-> logstash -> kafka ->spark streaming -> hive — > Informatica -> MSSql

Look

Big Data головного мозга

yusman Jun 22 2016 at 08:06

Спасибо, есть и большое количество OpenSource ETL, например Pentaho, Talend. Для семи табличек можно было обойтись без Informatica PowerCenter/

Look

Big Data головного мозга

yusman Jun 22 2016 at 08:04

Я не знаток Монги, но могу предложить, что все, что продается там под соусом MapReduce — это не MapReduce.
Это просто распределенные вычисления(извиняюсь за каламбур, но не каждое распределенное вычисление — это MapReduce)

Look

Big Data головного мозга

yusman Jun 22 2016 at 08:00

Спасибо. Из плюсов
1. Убираем лишний слой абстракции над файловой системой, позволяющий выстрелить в ногу. Пример, под Hadoop лежит «еще одна» файловая система, приводящая к фрагментации и рандому при чтении.
2. Если у вас нормальные, структурированные данные — вам не нужен HDFS, это лишние издержки.

Из минусов — лишаемся возможности развести помойку разрозненных данных на HDFS)))

Look

10 лайфхаков для браузера Vivaldi

yusman Jun 17 2016 at 12:52

Подскажите пожалуйста, как сделать так, что бы размытие (первых хак) включалось на новых страницах?

Look

Пишем приложение для анализа твитов в real-time режиме за 30 минут

yusman Jun 16 2016 at 12:35

Спасибо за обзор. Интересное решение, особенно порадовала площадка для обмена нодами и потоками.
Кстати, решение очень похоже на Apache NiFi.

Look

Яндекс открывает ClickHouse

yusman Jun 15 2016 at 14:19

Яндекс, спасибо!
Сколько же аналитических МРР-систем вышло в Open-Source в последнее время!
В начале статьи вы не совсем правильно провели аналитику рынка, разделив его на 5 сегментов и противопоставив себя каждому.
Все перечисленные решения в сравнении плюс/минус тоже самое(кроме платных).
Геораспределенность в аналитической системе? зачем? «Надстройки над Hadoop» это полноценные аналитические МРР-системы и от вашего решения отличаются практически ничем, умеют делать такие же SQL запросы, имеют почти такое же колоночное хранилище, с сжатием. Приближенные вычисления — интересно.
Я не знаю конечно какие цели были у Яндекса, но конкурировать будет с кем.
А вы не думали сделать аналог BigQuery на его основе? Мне кажется было бы интересно, тем более у вас имеются преимущества.

Look

Различие работы в использовании индексов в условии 'OR' баз данных Mysql и PostgeSQL

yusman Jun 6 2016 at 14:52

А покажите, пожалуйста, как оно будет работать на объемах 5 и 10 млн записей?

Look

Как использовать Python для «выпаса» ваших неструктурированных данных

yusman Jun 3 2016 at 09:56

Нет, не считаю.
По факту это просто «грязные» данные, которые автор чистил и сводил в одном месте, с помощью удобного инструмента.
Можно конечно долго размышлять — что есть структура и т.п., но смысла в этом мало — это всего лищь терминология)))
В любом случае статья интересная, спасибо.

Look

Как использовать Python для «выпаса» ваших неструктурированных данных

yusman Jun 3 2016 at 09:38

хм… Стуктура у данных хоть и разрозенная, но все же была.

Look

Сравнение Tarantool с конкурентами в Microsoft Azure

yusman Apr 18 2016 at 14:54

Скажите пожалуйста, а в tarantool появилась поддержка SQL?

-2

Look

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH

yusman Apr 8 2016 at 07:18

Спасибо за статью, но…
GPDB уже сейчас поддерживает AVRO, PARQUET в качестве внешних таблиц в HDFS
Например:
CREATE EXTERNAL TABLE tab (column_spec) LOCATION ( 'gphdfs://location') FORMAT 'AVRO'

Разве этого не достаточно?

Look

16 ядер и 30 Гб под капотом Вашего Jupyter за $0.25 в час

yusman Mar 31 2016 at 13:51

Скорее всего в такой виртуалке вы не сможете использовать ресурсы CPU и RAM на полную, а только 20-30% от номинальной(в лучшем случае), если это OpenVZ.
KVM точно не будут стоить таких денег

Look

Блеск и нищета Big Data

yusman Mar 30 2016 at 06:40

Без обид, но ваша статья — какая-то «вода», прикрытая «Бихдатой».

Look

Еженедельная сборка Vivaldi 1.0.425.3 с сюрпризом

yusman Mar 21 2016 at 13:01

Спасибо, теперь мой любимый браузер!!!
Но есть вещь, которая просто бесит:
Верхняя рамочка между верхним краем экрана и панелью табов? можно ли ее как то убрать, как в Chrome?
Вот пример: http://snag.gy/IJcag.jpg

Look

1 2 3

5 6 7 8 9