Pull to refresh
  • by relevance
  • by date
  • by rating

Вредоносное ПО Hive теперь шифрует системы на Linux и FreeBSD

Information Security *Virtualization *

Пока специалисты Sonatype разбираются со злоумышленниками, распространяющими зловредные NPM-пакеты на Windows, эксперты компании из Словакии ESET обнаружили вредоносное ПО для операционных систем семейства Linux и FreeBSD.

Читать далее
Total votes 12: ↑9 and ↓3 +6
Views 16K
Comments 19

Московская служба спасения на воде протестировала российский автономный дронопорт

Multicopters Transport

В Троицком городском округе Москвы завершились испытания, в ходе которых ГКУ «Московская городская поисково-­спасательная служба на водных объектах» и Агентство инноваций Москвы провели полеты первого российского серийного дронопорта Hive в реальных условиях. Испытания шли две недели.

Читать далее
Total votes 7: ↑7 and ↓0 +7
Views 417
Comments 0

Тест-драйв киевского коворкинга «Вулык»

Offices of IT companies
http://2buy.ua/files/editor/image/12.jpg

В рамках работы с проектом 2buy.ua я провёл один тестовый рабочий день в коворкинге «Вулык». В целом — остался доволен. Единственные лёгкие запритыки это география и еда. Очень хотелось бы, чтобы коворкинги появлялись как можно ближе к центру города. Просто я сам живу в центре, и мне было бы удобнее ходить на работу пешком, как я и люблю. К тому же, большая часть клиентов тоже тусуется в центре, встречаться с ними там было бы удобнее и быстрее.

Насчет еды могу сказать, что там есть несколько точек, где можно поесть, но совсем немного. Рядом также есть супермаркет с кулинарией, так что проблем быть не должно. В общем, если бы я там действительно работал, подписался бы на какую-нибудь доставку обедов.

Ещё один момент — относительно небольшая площадь помещения «Вулыка». Это как раз для любителей уюта. Лично мне было бы проще работать в здоровенном открытом помещении, где тусуются десятки людей. Я очень надеюсь, что коворкинги будут делать из бывших заводских помещений.

В целом — клёво и полезно. Подробнее о тестировании «Вулыка» можно почитать вот здесь, там же есть и фотографии. Если есть вопросы — задавайте здесь, постараюсь ответить.
Total votes 20: ↑16 and ↓4 +12
Views 399
Comments 41

Анализ данных Twitter в облаке с помощью Apache Hadoop и Hive

Microsoft corporate blog Open source *
Translation
Tutorial
image

В данном руководстве описаны процедуры запроса, изучения и анализа данных Twitter с помощью служб на базе Apache Hadoop для Windows Azure, а также Hive-запрос в Excel. Социальные сети — это главный источник больших данных. Поэтому общедоступные API таких социальных медиа, как Twitter, служат источником полезной информации и помогают лучше понять сетевые тренды.

Руководство состоит из следующих разделов.

  1. Поиск, загрузка, установка и использование Microsoft Analytics для Twitter
  2. Получение фидов Twitter с помощью cURL и Twitter Streaming API
  3. Запрос и настройка нового Hadoop на кластере Windows Azure
  4. Обработка данных Twitter с помощью Hive на Hadoop в кластере Windows
  5. Настройка Hive ODBC и панели Hive в Excel для получения данных Hive

Читать дальше →
Total votes 22: ↑19 and ↓3 +16
Views 9.4K
Comments 1

Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive

Big Data *Microsoft Azure Hadoop *
Translation
Tutorial
image

Некоторое время назад, в рамках конференции Strata + Hadoop World был анонсирован выход в коммерческой эксплуатацию Windows Azure HDInsight — облачного сервиса 100% совместимого с Apache Hadoop. Подробности о истории появления сервиса и его возможностях можно найти в этой статье на Хабре. Об анонсах конференции Strata + Hadoop World можно прочитать в другой свежей статье.

В этой статье речь пойдет о внутреннем устройстве кластеров HDInsight, старте работы с ними и первых задачах и запросах к Hive. В конце статьи приводятся реальные примеры использования Windows Azure HDInsight крупными международными организациями.


Читать дальше →
Total votes 18: ↑15 and ↓3 +12
Views 7.6K
Comments 0

Hive vs Pig. На что мне столько ETL?

Data Mining *Big Data *Hadoop *
Tutorial
image

Лучше день потерять, но потом за пять минут долететь (с)



Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.
Читать дальше →
Total votes 25: ↑22 and ↓3 +19
Views 18K
Comments 38

Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop

TINKOFF corporate blog SQL *Big Data *Hadoop *
В этой статье я хочу рассказать про следующий этап развития DWH в Тинькофф Банке и о переходе от парадигмы классического DWH к парадигме Data Lake.

Свой рассказ я хочу начать с такой вот веселой картинки:



Да, ещё несколько лет назад картинка была актуальной. Но сейчас, с развитием технологий, входящих в эко-систему Hadoop и развитием ETL платформ правомерно утверждать то, что ETL на Hadoop не просто существует но и то, что ETL на Hadoop ждет большое будущее. Далее в статье расскажу про то, как мы строим ETL на Hadoop в Тинькофф Банке.
Читать дальше →
Total votes 19: ↑17 and ↓2 +15
Views 74K
Comments 39

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH

TINKOFF corporate blog SQL *Big Data *Hadoop *
В этой статье я хочу рассказать про важную задачу, о которой нужно думать и нужно уметь решать, если в аналитической платформе для работы с данными появляется такой важный компонент как Hadoop — задача интеграции данных Hadoop и данных корпоративного DWH. В Data Lake в Тинькофф Банке мы научились эффективно решать эту задачу и дальше в статье я расскажу, как мы это сделали.



Данная статья является продолжением цикла статей про Data Lake в Тинькофф Банке (предыдущая статья Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop).

Читать дальше →
Total votes 13: ↑9 and ↓4 +5
Views 20K
Comments 8

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

Big Data *Hadoop *
Tutorial
Привет, Хабр! Мы продолжаем наш цикл статьей, посвященный инструментам и методам анализа данных. Следующие 2 статьи нашего цикла будут посвящены Hive — инструменту для любителей SQL. В предыдущих статьях мы рассматривали парадигму MapReduce, и приемы и стратегии работы с ней. Возможно многим читателям некоторые решения задач при помощи MapReduce показались несколько громоздкими. Действительно, спустя почти 50 лет после изобретения SQL,  кажется довольно странным писать больше одной строчки кода для решения задач вроде «посчитай мне сумму транзакций в разбивке по регионам».

С другой стороны, классические СУБД, такие как Postgres, MySQL или Oracle не имеют такой гибкости в масштабировании при обработке больших массивов данных и при достижении объема большего дальнейшая поддержка становится большой головоной болью.



Собственно, Apache Hive был придуман для того чтобы объединить два этих достоинства:

  • Масштабируемость MapReduce
  • Удобство использования SQL для выборок из данных.

Под катом мы расскажем каким образом это достигается, каким образом начать работать с Hive, и какие есть ограничения на его применения.
Читать дальше →
Total votes 17: ↑15 and ↓2 +13
Views 68K
Comments 1

Big Data от A до Я. Часть 5.2: Продвинутые возможности hive

DCA (Data-Centric Alliance) corporate blog Big Data *
Tutorial
Привет, Хабр! В этой статье мы продолжим рассматривать возможности hive — движка, транслирующего SQL-like запросы в MapReduce задачи.

В предыдущей статье мы рассмотрели базовые возможности hive, такие как создание таблиц, загрузка данных, выполнение простых SELECT-запросов. Теперь поговорим о продвинутых возможностях, которые позволят выжимать максимум из Hive.


Читать дальше →
Total votes 20: ↑18 and ↓2 +16
Views 22K
Comments 1

Call-центр для небольшой компании: Симбиоз amoCRM и Hive

IPtelefon corporate blog ZEON PBX corporate blog Web analytics *Internet marketing Increasing Conversion Rate *
Recovery mode

Любой клиент подтвердит, что Call-центр – это круто: приятно, когда при звонке сразу берут трубку, хорошо, если можно ввести «внутренний номер абонента» и поговорить со своим менеджером, и очень приятно, когда вас узнают по номеру телефона. И сегодня мы расскажем, как работает доступный call-центр на базе двух простых облачных решений – amoCRM и Hive.


Читать дальше →
Total votes 13: ↑11 and ↓2 +9
Views 5.2K
Comments 2

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

VK corporate blog Open source *Python *SQL *Big Data *

image


Привет, Хабр! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.


Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.

Читать дальше →
Total votes 29: ↑26 and ↓3 +23
Views 109K
Comments 25

Сказ о том, как SQL время экономит

Microsoft corporate blog High performance *SQL *Microsoft SQL Server *Data storages *
Translation
Существует компания, предоставляющая платформу для работы с большими данными. Эта платформа позволяет хранить генетические данные и эффективно управлять ими. Для полноценной работы платформы требуется возможность обрабатывать динамические запросы в среде выполнения не более чем за две секунды. Но как преодолеть этот барьер? Для трансформации существующей системы было решено использовать хранилище данных SQL. Заглядывайте под кат за подробностями!

Читать дальше →
Total votes 16: ↑12 and ↓4 +8
Views 9.7K
Comments 1

Плюсы «правильного» виртуального номера

IPtelefon corporate blog IT Infrastructure *Network technologies *
Виртуальные номера давно уже стали стандартным инструментом бизнеса. Однако, в некоторых случаях, например, при размещении частных объявлений, требуются так называемые DEF-номера. Это мобильные номера (в коде 958), которые «приземляются» на вашу АТС. Данные о звонках попадают в CRM. Сегодня мы расскажем о том, какие преимущества есть у виртуального DEF-номеров, и рассмотрим несколько бизнес-сценариев их использования.

Читать дальше →
Total votes 37: ↑29 and ↓8 +21
Views 8.9K
Comments 8

Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data

JUG Ru Group corporate blog Java *Big Data *Machine learning *Hadoop *
Все мы любим посмеяться над дремучим legacy на Java, которое якобы живёт в банках. После прочтения этой статьи у вас появится понимание другой грани этой истории. Оказывается, конкретно в Сбербанк-Технологиях есть целые большие отделы, занимающиеся прорывными технологиями и направлениями, включая Big Data и Machine Learning. Более того, скоро мы можем оказаться в мире, где Machine Learning встроен чуть ли не в каждую кофеварку. К добру или к худу, но Internet of Things, следящий за нами тысячью глаз из каждого банкомата, — куда более актуальное прочтение этой старой шутки.

Как вы, наверное, заметили, я пишу на Хабре про виртуальные машины, внутренности OpenJDK, JVM и другую системную разработку. Почему эта статья — о банковском софте? Потому что это актуально как никогда. Вот представьте, вы такой весь в белом, дважды Data Scientist и четырежды важный гуру JIT-компиляции. Что дальше? Кому всё это может быть нужно прямо здесь и сейчас? Часто слышу рассуждения на тему: «Вот сейчас ты ковыряешься в своей любимой Java, а завтра никто тебя на работу не возьмёт». Это очень забавное и опасное заблуждение. Благодаря таким товарищам, о которых пойдёт речь в этой статье, работа у нас будет всегда.

Конечно, на слово мне никто верить не должен, поэтому специально для Хабра я сорвался на самолёт в Москву, чтобы пообщаться с начальником отдела разработки спецпроектов в Сбербанк-Технологиях. Вадим Сурпин потратил на меня чуть больше часа, а в этом интервью будут только самые важные мысли из нашего разговора. Кроме того, удалось уговорить Вадима подать заявку на участие в нашей конференции JBreak. Более того, Вадим — первый человек, который показался мне достойным инвайта на Хабр: vadsu (инвайт был честно заработан статьей про хакинг ChromeDriver).

Читать дальше →
Total votes 46: ↑40 and ↓6 +34
Views 29K
Comments 24

«Сумасшедшие» термостаты Hive сами устанавливают температуру 32ºC

IOT
«Умные» домашние приборы иногда становятся слишком умными. Это показывает пример домашних термостатов Hive, которые внезапно начали поджаривать своих владельцев.

Производитель British Gas сегодня прислал в редакцию The Memo заявление: «Мы осведомлены о температурном сбое, который затронул очень маленькое количество пользователей: определённая последовательность команд в приложении Hive под iOS могла привести к повышению температуры до 32ºC».
Читать дальше →
Total votes 11: ↑8 and ↓3 +5
Views 9K
Comments 13

Считаем статистику по экспериментам на hh.ru

HeadHunter corporate blog Web analytics *Product Management *Statistics in IT
Всем привет!

Сегодня я расскажу вам, как мы в hh.ru считаем ручную статистику по экспериментам. Мы посмотрим откуда появляются данные, как мы их обрабатываем и на какие подводные камни натыкаемся. В статье я поделюсь общими архитектурой и подходом, реальных скриптов и кода будет по минимуму. Основная аудитория — начинающие аналитики, которым интересно, как устроена инфраструктура анализа данных в hh.ru. Если данная тема будет интересна — пишите в комментариях, можем углубиться в код в следующих статьях.

О том, как считаются автоматические метрики по А/Б-экспериментам, можно почитать в нашей другой статье.

image
Читать дальше →
Total votes 28: ↑28 and ↓0 +28
Views 6.1K
Comments 14

Как мы строим систему обработки, хранения и анализа данных в СИБУРе

Цифровой СИБУР corporate blog Data storage *Machine learning *Hadoop *
В начале 2018 года у нас активно пошел процесс цифровизации производства и процессов в компании. В секторе нефтехимии это не просто модный тренд, а новый эволюционный шаг в сторону повышения эффективности и конкурентоспособности. Учитывая специфику бизнеса, который и без всякой цифровизации показывает неплохие экономические результаты, перед «цифровизаторами» стоит непростая задача: всё-таки менять устоявшиеся процессы в компании — довольно кропотливая работа.

Наша цифровизация началась с создания двух центров и соответствующих им функциональных блоков.

Это «Функция цифровых технологий», в которую включены все продуктовые направления: цифровизация процессов, IIoT и продвинутая аналитика, а также центр управления данными, ставший самостоятельным направлением.



И вот как раз главная задача дата-офиса заключается в том, чтобы полноценно внедрить культуру принятия решений, основанных на данных (да, да, data-driven decision), а также в принципе упорядочить всё, что касается работы с данными: аналитика, обработка, хранение и отчетность. Особенность в том, что все наши цифровые инструменты должны будут не только активно использовать собственные данные, то есть те, которые генерируют сами (например, мобильные обходы, или датчики IIoT), но и внешние данные, с четким пониманием, где и зачем их нужно использовать.

Меня зовут Артем Данилов, я руководитель направления «Инфраструктура и технологии» в СИБУРе, в этом посте я расскажу, как и на чем мы строим большую систему обработки и хранения данных для всего СИБУРа. Для начала поговорим только о верхнеуровневой архитектуре и о том, как можно стать частью нашей команды.
Total votes 18: ↑17 and ↓1 +16
Views 16K
Comments 29

Как геокодировать миллион точек на Spark по-быстрому?

Programming *Big Data *Hadoop *
В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это процедура, которая паре широта-долгота ставит в соответствие адрес или название объекта на карте, к которому принадлежит или близка заданная координатами точка. То есть, берем координаты, скажем такие: @55.7602485,37.6170409, и получаем результат либо «Россия, Центральный федеральный округ, Москва, Театральная площадь, дом такой-то», либо например «Большой театр».

Если на входе адрес или название, а на выходе координаты, то эта операция — прямое геокодирование, об этом мы, надеюсь, поговорим позже.

В качестве исходных данных у нас на входе было примерно 100 или 200 тысяч точек, которые лежали в кластере Hadoop в виде таблицы Hive. Это чтобы был понятен масштаб задачи.

В качестве инструмента обработки в конце концов был выбран Spark, хотя в процессе мы попробовали как MapReduce, так и Apache Crunch. Но это отдельная история, возможно заслуживающая своего поста.
Читать дальше →
Total votes 18: ↑18 and ↓0 +18
Views 4.6K
Comments 23

Как загрузить OpenStreetMap в Hive?

Programming *OpenStreetMap *Geoinformation services *Big Data *Hadoop *
В прошлой статье я рассмотрел обратное геокодирование средствами Spark. Теперь представим, что перед нами встала задача прямого геокодирования почтовых адресов. То есть, получения для записанного текстом адреса неких географических координат.

Адреса для определенности российские, и главное — зачастую написаны криво, то есть с ошибками, неоднозначностями и прочими прелестями. И находятся эти адреса в базе данных Hive, на кластере Hadoop.


Ну казалось бы — берем Google Maps Geocoding API (или, если вы сторонник импортозамещения, то Yandex Maps API), и работаем. Но тут нас, как впрочем и c обратным геокодированием, ждет небольшая засада.
Читать дальше →
Total votes 18: ↑16 and ↓2 +14
Views 3K
Comments 18
1