Как стать автором
Обновить

Вредоносное ПО Hive теперь шифрует системы на Linux и FreeBSD

Время на прочтение 2 мин
Количество просмотров 18K
Информационная безопасность *Виртуализация *

Пока специалисты Sonatype разбираются со злоумышленниками, распространяющими зловредные NPM-пакеты на Windows, эксперты компании из Словакии ESET обнаружили вредоносное ПО для операционных систем семейства Linux и FreeBSD.

Читать далее
Всего голосов 12: ↑9 и ↓3 +6
Комментарии 19

Московская служба спасения на воде протестировала российский автономный дронопорт

Время на прочтение 2 мин
Количество просмотров 873
Мультикоптеры Транспорт

В Троицком городском округе Москвы завершились испытания, в ходе которых ГКУ «Московская городская поисково-­спасательная служба на водных объектах» и Агентство инноваций Москвы провели полеты первого российского серийного дронопорта Hive в реальных условиях. Испытания шли две недели.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Группировка Hive взломала американскую медицинскую организацию Partnership HealthPlan

Время на прочтение 1 мин
Количество просмотров 1.1K
Информационная безопасность *

Группировка Hive, известная атаками на сферу здравоохранения, заявила о взломе медицинской организации Partnership HealthPlan of California. Вымогатели украли 850 тыс. записей с персональными данными пациентов и 400 ГБ файлов с сервера организации.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Hive купила производство дронов «Пеликан»

Время на прочтение 1 мин
Количество просмотров 1.3K
Финансы в IT Мультикоптеры IT-компании

Отечественный создатель дронопортов, компания Hive, купила часть бизнеса производителя дронов COEX («Коптер Экспресс»). Выкуплена была часть, связанная с производством промышленных беспилотников «Пеликан». У Hive системы поставляются с дронами DJI, но так как DJI приостановил работу в России, его продукция будет заменена на российскую. Дронопорты представляют собой место для выгрузки летательными аппаратами собранных данных и замены батарей в автоматизированном режиме. 

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 0

Тест-драйв киевского коворкинга «Вулык»

Время на прочтение 1 мин
Количество просмотров 869
Офисы IT-компаний
http://2buy.ua/files/editor/image/12.jpg

В рамках работы с проектом 2buy.ua я провёл один тестовый рабочий день в коворкинге «Вулык». В целом — остался доволен. Единственные лёгкие запритыки это география и еда. Очень хотелось бы, чтобы коворкинги появлялись как можно ближе к центру города. Просто я сам живу в центре, и мне было бы удобнее ходить на работу пешком, как я и люблю. К тому же, большая часть клиентов тоже тусуется в центре, встречаться с ними там было бы удобнее и быстрее.

Насчет еды могу сказать, что там есть несколько точек, где можно поесть, но совсем немного. Рядом также есть супермаркет с кулинарией, так что проблем быть не должно. В общем, если бы я там действительно работал, подписался бы на какую-нибудь доставку обедов.

Ещё один момент — относительно небольшая площадь помещения «Вулыка». Это как раз для любителей уюта. Лично мне было бы проще работать в здоровенном открытом помещении, где тусуются десятки людей. Я очень надеюсь, что коворкинги будут делать из бывших заводских помещений.

В целом — клёво и полезно. Подробнее о тестировании «Вулыка» можно почитать вот здесь, там же есть и фотографии. Если есть вопросы — задавайте здесь, постараюсь ответить.
Всего голосов 20: ↑16 и ↓4 +12
Комментарии 41

Анализ данных Twitter в облаке с помощью Apache Hadoop и Hive

Время на прочтение 8 мин
Количество просмотров 9.8K
Блог компании Microsoft Open source *
Туториал
Перевод
image

В данном руководстве описаны процедуры запроса, изучения и анализа данных Twitter с помощью служб на базе Apache Hadoop для Windows Azure, а также Hive-запрос в Excel. Социальные сети — это главный источник больших данных. Поэтому общедоступные API таких социальных медиа, как Twitter, служат источником полезной информации и помогают лучше понять сетевые тренды.

Руководство состоит из следующих разделов.

  1. Поиск, загрузка, установка и использование Microsoft Analytics для Twitter
  2. Получение фидов Twitter с помощью cURL и Twitter Streaming API
  3. Запрос и настройка нового Hadoop на кластере Windows Azure
  4. Обработка данных Twitter с помощью Hive на Hadoop в кластере Windows
  5. Настройка Hive ODBC и панели Hive в Excel для получения данных Hive

Читать дальше →
Всего голосов 22: ↑19 и ↓3 +16
Комментарии 1

Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive

Время на прочтение 9 мин
Количество просмотров 8.1K
Big Data *Microsoft Azure *Hadoop *
Туториал
Перевод
image

Некоторое время назад, в рамках конференции Strata + Hadoop World был анонсирован выход в коммерческой эксплуатацию Windows Azure HDInsight — облачного сервиса 100% совместимого с Apache Hadoop. Подробности о истории появления сервиса и его возможностях можно найти в этой статье на Хабре. Об анонсах конференции Strata + Hadoop World можно прочитать в другой свежей статье.

В этой статье речь пойдет о внутреннем устройстве кластеров HDInsight, старте работы с ними и первых задачах и запросах к Hive. В конце статьи приводятся реальные примеры использования Windows Azure HDInsight крупными международными организациями.


Читать дальше →
Всего голосов 18: ↑15 и ↓3 +12
Комментарии 0

Hive vs Pig. На что мне столько ETL?

Время на прочтение 8 мин
Количество просмотров 19K
Data Mining *Big Data *Hadoop *
Туториал
image

Лучше день потерять, но потом за пять минут долететь (с)



Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.
Читать дальше →
Всего голосов 25: ↑22 и ↓3 +19
Комментарии 38

Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop

Время на прочтение 6 мин
Количество просмотров 83K
Блог компании TINKOFF SQL *Big Data *Hadoop *
В этой статье я хочу рассказать про следующий этап развития DWH в Тинькофф Банке и о переходе от парадигмы классического DWH к парадигме Data Lake.

Свой рассказ я хочу начать с такой вот веселой картинки:



Да, ещё несколько лет назад картинка была актуальной. Но сейчас, с развитием технологий, входящих в эко-систему Hadoop и развитием ETL платформ правомерно утверждать то, что ETL на Hadoop не просто существует но и то, что ETL на Hadoop ждет большое будущее. Далее в статье расскажу про то, как мы строим ETL на Hadoop в Тинькофф Банке.
Читать дальше →
Всего голосов 19: ↑17 и ↓2 +15
Комментарии 39

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH

Время на прочтение 6 мин
Количество просмотров 22K
Блог компании TINKOFF SQL *Big Data *Hadoop *
В этой статье я хочу рассказать про важную задачу, о которой нужно думать и нужно уметь решать, если в аналитической платформе для работы с данными появляется такой важный компонент как Hadoop — задача интеграции данных Hadoop и данных корпоративного DWH. В Data Lake в Тинькофф Банке мы научились эффективно решать эту задачу и дальше в статье я расскажу, как мы это сделали.



Данная статья является продолжением цикла статей про Data Lake в Тинькофф Банке (предыдущая статья Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop).

Читать дальше →
Всего голосов 13: ↑9 и ↓4 +5
Комментарии 8

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

Время на прочтение 9 мин
Количество просмотров 83K
Big Data *Hadoop *
Туториал
Привет, Хабр! Мы продолжаем наш цикл статьей, посвященный инструментам и методам анализа данных. Следующие 2 статьи нашего цикла будут посвящены Hive — инструменту для любителей SQL. В предыдущих статьях мы рассматривали парадигму MapReduce, и приемы и стратегии работы с ней. Возможно многим читателям некоторые решения задач при помощи MapReduce показались несколько громоздкими. Действительно, спустя почти 50 лет после изобретения SQL,  кажется довольно странным писать больше одной строчки кода для решения задач вроде «посчитай мне сумму транзакций в разбивке по регионам».

С другой стороны, классические СУБД, такие как Postgres, MySQL или Oracle не имеют такой гибкости в масштабировании при обработке больших массивов данных и при достижении объема большего дальнейшая поддержка становится большой головоной болью.



Собственно, Apache Hive был придуман для того чтобы объединить два этих достоинства:

  • Масштабируемость MapReduce
  • Удобство использования SQL для выборок из данных.

Под катом мы расскажем каким образом это достигается, каким образом начать работать с Hive, и какие есть ограничения на его применения.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 1

Big Data от A до Я. Часть 5.2: Продвинутые возможности hive

Время на прочтение 7 мин
Количество просмотров 24K
Блог компании DCA (Data-Centric Alliance) Big Data *
Туториал
Привет, Хабр! В этой статье мы продолжим рассматривать возможности hive — движка, транслирующего SQL-like запросы в MapReduce задачи.

В предыдущей статье мы рассмотрели базовые возможности hive, такие как создание таблиц, загрузка данных, выполнение простых SELECT-запросов. Теперь поговорим о продвинутых возможностях, которые позволят выжимать максимум из Hive.


Читать дальше →
Всего голосов 20: ↑18 и ↓2 +16
Комментарии 1

Call-центр для небольшой компании: Симбиоз amoCRM и Hive

Время на прочтение 4 мин
Количество просмотров 5.8K
Блог компании IPtelefon Блог компании ZEON PBX Веб-аналитика *Интернет-маркетинг *Повышение конверсии *
Recovery mode

Любой клиент подтвердит, что Call-центр – это круто: приятно, когда при звонке сразу берут трубку, хорошо, если можно ввести «внутренний номер абонента» и поговорить со своим менеджером, и очень приятно, когда вас узнают по номеру телефона. И сегодня мы расскажем, как работает доступный call-центр на базе двух простых облачных решений – amoCRM и Hive.


Читать дальше →
Всего голосов 13: ↑11 и ↓2 +9
Комментарии 2

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

Время на прочтение 7 мин
Количество просмотров 167K
Блог компании VK Open source *Python *SQL *Big Data *

image


Привет, Хабр! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.


Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.

Читать дальше →
Всего голосов 29: ↑26 и ↓3 +23
Комментарии 26

Сказ о том, как SQL время экономит

Время на прочтение 5 мин
Количество просмотров 10K
Блог компании Microsoft Высокая производительность *SQL *Microsoft SQL Server *Хранилища данных *
Перевод
Существует компания, предоставляющая платформу для работы с большими данными. Эта платформа позволяет хранить генетические данные и эффективно управлять ими. Для полноценной работы платформы требуется возможность обрабатывать динамические запросы в среде выполнения не более чем за две секунды. Но как преодолеть этот барьер? Для трансформации существующей системы было решено использовать хранилище данных SQL. Заглядывайте под кат за подробностями!

Читать дальше →
Всего голосов 16: ↑12 и ↓4 +8
Комментарии 1

Плюсы «правильного» виртуального номера

Время на прочтение 3 мин
Количество просмотров 9.6K
Блог компании IPtelefon IT-инфраструктура *Сетевые технологии *
Виртуальные номера давно уже стали стандартным инструментом бизнеса. Однако, в некоторых случаях, например, при размещении частных объявлений, требуются так называемые DEF-номера. Это мобильные номера (в коде 958), которые «приземляются» на вашу АТС. Данные о звонках попадают в CRM. Сегодня мы расскажем о том, какие преимущества есть у виртуального DEF-номеров, и рассмотрим несколько бизнес-сценариев их использования.

Читать дальше →
Всего голосов 37: ↑29 и ↓8 +21
Комментарии 8

Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data

Время на прочтение 27 мин
Количество просмотров 31K
Блог компании JUG Ru Group Java *Big Data *Машинное обучение *Hadoop *
Все мы любим посмеяться над дремучим legacy на Java, которое якобы живёт в банках. После прочтения этой статьи у вас появится понимание другой грани этой истории. Оказывается, конкретно в Сбербанк-Технологиях есть целые большие отделы, занимающиеся прорывными технологиями и направлениями, включая Big Data и Machine Learning. Более того, скоро мы можем оказаться в мире, где Machine Learning встроен чуть ли не в каждую кофеварку. К добру или к худу, но Internet of Things, следящий за нами тысячью глаз из каждого банкомата, — куда более актуальное прочтение этой старой шутки.

Как вы, наверное, заметили, я пишу на Хабре про виртуальные машины, внутренности OpenJDK, JVM и другую системную разработку. Почему эта статья — о банковском софте? Потому что это актуально как никогда. Вот представьте, вы такой весь в белом, дважды Data Scientist и четырежды важный гуру JIT-компиляции. Что дальше? Кому всё это может быть нужно прямо здесь и сейчас? Часто слышу рассуждения на тему: «Вот сейчас ты ковыряешься в своей любимой Java, а завтра никто тебя на работу не возьмёт». Это очень забавное и опасное заблуждение. Благодаря таким товарищам, о которых пойдёт речь в этой статье, работа у нас будет всегда.

Конечно, на слово мне никто верить не должен, поэтому специально для Хабра я сорвался на самолёт в Москву, чтобы пообщаться с начальником отдела разработки спецпроектов в Сбербанк-Технологиях. Вадим Сурпин потратил на меня чуть больше часа, а в этом интервью будут только самые важные мысли из нашего разговора. Кроме того, удалось уговорить Вадима подать заявку на участие в нашей конференции JBreak. Более того, Вадим — первый человек, который показался мне достойным инвайта на Хабр: vadsu (инвайт был честно заработан статьей про хакинг ChromeDriver).

Читать дальше →
Всего голосов 46: ↑40 и ↓6 +34
Комментарии 24

«Сумасшедшие» термостаты Hive сами устанавливают температуру 32ºC

Время на прочтение 2 мин
Количество просмотров 9.1K
Интернет вещей
«Умные» домашние приборы иногда становятся слишком умными. Это показывает пример домашних термостатов Hive, которые внезапно начали поджаривать своих владельцев.

Производитель British Gas сегодня прислал в редакцию The Memo заявление: «Мы осведомлены о температурном сбое, который затронул очень маленькое количество пользователей: определённая последовательность команд в приложении Hive под iOS могла привести к повышению температуры до 32ºC».
Читать дальше →
Всего голосов 11: ↑8 и ↓3 +5
Комментарии 13

Считаем статистику по экспериментам на hh.ru

Время на прочтение 8 мин
Количество просмотров 6.8K
Блог компании HeadHunter Веб-аналитика *Управление продуктом *Статистика в IT
Всем привет!

Сегодня я расскажу вам, как мы в hh.ru считаем ручную статистику по экспериментам. Мы посмотрим откуда появляются данные, как мы их обрабатываем и на какие подводные камни натыкаемся. В статье я поделюсь общими архитектурой и подходом, реальных скриптов и кода будет по минимуму. Основная аудитория — начинающие аналитики, которым интересно, как устроена инфраструктура анализа данных в hh.ru. Если данная тема будет интересна — пишите в комментариях, можем углубиться в код в следующих статьях.

О том, как считаются автоматические метрики по А/Б-экспериментам, можно почитать в нашей другой статье.

image
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Комментарии 14

Как мы строим систему обработки, хранения и анализа данных в СИБУРе

Время на прочтение 6 мин
Количество просмотров 19K
Блог компании Цифровой СИБУР Хранение данных *Машинное обучение *Hadoop *
В начале 2018 года у нас активно пошел процесс цифровизации производства и процессов в компании. В секторе нефтехимии это не просто модный тренд, а новый эволюционный шаг в сторону повышения эффективности и конкурентоспособности. Учитывая специфику бизнеса, который и без всякой цифровизации показывает неплохие экономические результаты, перед «цифровизаторами» стоит непростая задача: всё-таки менять устоявшиеся процессы в компании — довольно кропотливая работа.

Наша цифровизация началась с создания двух центров и соответствующих им функциональных блоков.

Это «Функция цифровых технологий», в которую включены все продуктовые направления: цифровизация процессов, IIoT и продвинутая аналитика, а также центр управления данными, ставший самостоятельным направлением.



И вот как раз главная задача дата-офиса заключается в том, чтобы полноценно внедрить культуру принятия решений, основанных на данных (да, да, data-driven decision), а также в принципе упорядочить всё, что касается работы с данными: аналитика, обработка, хранение и отчетность. Особенность в том, что все наши цифровые инструменты должны будут не только активно использовать собственные данные, то есть те, которые генерируют сами (например, мобильные обходы, или датчики IIoT), но и внешние данные, с четким пониманием, где и зачем их нужно использовать.

Меня зовут Артем Данилов, я руководитель направления «Инфраструктура и технологии» в СИБУРе, в этом посте я расскажу, как и на чем мы строим большую систему обработки и хранения данных для всего СИБУРа. Для начала поговорим только о верхнеуровневой архитектуре и о том, как можно стать частью нашей команды.
Всего голосов 18: ↑17 и ↓1 +16
Комментарии 29