Как стать автором
Поиск
Написать публикацию
Обновить
75.71

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Технологии фондового рынка: 10 заблуждений о нейронных сетях

Время на прочтение17 мин
Количество просмотров55K
image

Нейронные сети – один из самых популярных классов алгоритмов для машинного обучения. В финансовом анализе они чаще всего применяются для прогнозирования, создания собственных индикаторов, алгоритмического трейдинга и моделирования рисков. Несмотря на все это, репутация у нейронных сетей подпорчена, поскольку результаты их применения можно назвать нестабильными.

Количественный аналитик хедж-фонда NMRQL Стюарт Рид в статье на сайте TuringFinance попытался объяснить, что это означает, и доказать, что все проблемы кроются в неадекватном понимании того, как такие системы работают. Мы представляем вашему вниманию адаптированный перевод его статьи.
Читать дальше →

Перепись российского и русскоязычного сообщества по открытым данным

Время на прочтение1 мин
Количество просмотров2K


Вы все, наверняка, видите что мы уже много лет занимаемся темой открытых данных, организуем мероприятия, конкурсы, митапы и многое другое.

За эти годы в России сложилось активное сообщество и мы знаем что многие занимаются открытыми данными от участия в хакатонах до организации собственных мероприятий, проведения исследований и не только.

Где-то нам удаётся взаимодействовать с представителями государства, где-то пока нет, а где-то чиновники сами являются инициаторами проектов по открытых данных.

И вот, чтобы понять кто-то происходит в нашей большой стране, мы организуем перепись сложившегося сообщества.

Для участия просим Вас заполнить анкету по адресу — https://infoculture.typeform.com/to/QXF6a6

Читать дальше →

Работа с данными: Как это делают крупные компании

Время на прочтение5 мин
Количество просмотров10K


/ фото Jason Tester Guerrilla Futures CC

Компания IDC сообщает, что в 2011 году человечеством было сгенерировано 1,8 зеттабайт информации. В 2012 году эта цифра составила уже 2,8 зеттабайт, а к 2020 она увеличится до 40 зеттабайт.

Существенную часть этих данных генерируют крупные мировые компании, такие как Google, Facebook, Apple. Им нужно не просто хранить данные, но и выполнять резервное копирование, следить за их актуальностью, обрабатывать, причем делать это с минимальными затратами. Поэтому ИТ-отделы крупных организаций разрабатывают собственные системы для решения этих задач.
Читать дальше →

Всероссийская инженерная олимпиада для старшеклассников: BigData и Интеллектуальные энергетические системы

Время на прочтение23 мин
Количество просмотров15K


— Вовочка, бросай свои эксперименты с холодным ядерным синтезом, иди к ЕГЭ готовься.
— Ща, мам.

Олимпиады — это круто. Они позволили такому раздолбаю свободолюбивому и умном, как я, поступить в университет без экзаменов.

Помню пришли мы в приемную комиссию с приятелем, в шортах и с рюкзаками, в которых были полотенца и волейбольный мяч, заполнили анкеты, выложили по пачке дипломов с олимпиад и поехали на море.

— Что вы сегодня на час опоздали?
— Да так, в универ поступали.

Я очень рад, что нашлись инициативные ребята, которым не все равно, что талантливый школьник-инженер тратит свои последние беззаботные годы, судорожно готовясь к сдаче ЕГЭ, вместо того, чтобы строить реактивные ранцы или программировать зародыш искусственного интеллекта.

Чтобы создать лазейку для молодых талантливых инженеров, они придумали следующую штуковину — давайте замутим инженерную олимпиаду, которая дает возможность поступить в вуз.

Недавно в ВДЦ «Орленок» прошел «тест-драйв» Всероссийской инженерной олимпиады. Участвовали 5000 детей со всей России, до финала дошли около 100 человек. Призов много, но самое полезное — по +10 очков к ЕГЭ.

Я за всем присматривал и готов поделиться своими впечатлениями.

Олимпиада шла по четырем профилям.

Про первые два профиля расскажу здесь (чуток задач и фоток), про вторые два — немного попозже на GT.
(UPDотчет про «Космические системы».)
Читать дальше →

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

Время на прочтение13 мин
Количество просмотров16K
bayesian

Почему?


Сейчас Relap.io генерирует 40 миллиардов рекомендаций в месяц на 2000 медиаплощадках Рунета. Почти любая рекомендательная система, рано или поздно, приходит к необходимости брать в расчет содержимое рекомендуемого контента, и довольно быстро упирается в необходимость как-то его классифицировать: найти какие-то кластеры или хотя бы понизить размерность для описания интересов пользователей, привлечения рекламодателей или еще для каких-то темных или не очень целей.

Задача звучит довольно очевидно и существует немало хорошо зарекомендовавших себя алгоритмов и их реализаций: Латентное размещение Дирихле (LDA), Вероятностный латентно-семантический анализ (pLSA), явный семантический анализ (ESA), список можно продолжить. Однако, мы решили попробовать придумать что-нибудь более простое, но вместе с тем, жизнеспособное.
Читать дальше →

R в Microsoft Azure для победы на хакатоне. Инструкция по применению

Время на прочтение9 мин
Количество просмотров7.3K
Стандартный план любого хакатона
Microsoft Azure Machine Learning Hackathon
R, один из популярнейших языков программирования среди data scientist'ов, получает все большую и большую поддержку как среди opensource-сообщества, так и среди частных компаний, которые традиционно являлись разработчиками проприетарных продуктов. Среди таких компаний – Microsoft, чья интенсивно увеличивающая поддержка языка R в своих продуктах/сервисах, привлекла к себе и мое внимание.

Одним из «локомотивов» интеграции R с продуктами Майкрософт является облачная платформа Microsoft Azure. Кроме того, появился отличный повод повнимательнее взглянуть на связку R + Azure – это проходящий в эти выходные (21-22 мая) хакатон по машинному обучению, организованный Microsoft.

Хакатон – мероприятие, где кофе время чрезвычайно ценный ресурс. В контексте этого я ранее писал о best practices обучения моделей в Azure Machine Learning. Но Azure ML – это не инструмент для прототипирования; это скорее сервис для создания продукта с SLA со всеми вытекающими отсюда затратами как на время разработки, так и на стоимость владения.

R же прекрасно подходит для создания прототипов, для копания (mining) в данных, для быстрой проверки своих гипотез – то есть
всего того, что нам нужно на такого типа соревнованиях! Ниже я расскажу, как использовать всю мощь R в Azure – от создания прототипа до публикации готовой модели в Azure Machine Learning.
Читать дальше →

Анонс: 8 июня пройдет виртуальный форум Microsoft «Данные. Технологии. SQL Server 2016»

Время на прочтение2 мин
Количество просмотров3.6K
Мы рады пригласить Вас на ключевое событие года в мире данных – Виртуальный Форум Microsoft «Данные. Технологии. SQL Server 2016», который состоится 8 июня 2016 года. Форум приурочен к выходу новой версии платформы управления данными Microsoft на базе SQL Server 2016, лидеру квадранта Gartner по системам управления базами данных*.


Успех цифровой трансформации бизнеса сегодня напрямую зависит от способности организации использовать передовые технологии и инструменты по работе с данными, которые становятся важнейшим ресурсом развития бизнеса – сравнимым, пожалуй, с ролью электричества в эпоху трансформации XIX века. В рамках форума мы обсудим, какие требования сегодня предъявляются к современным платформам по работе с данными, какие ключевые технологии must have в арсенале любой компании.

Основная программа форума состоит из трех паралельных технологических сесссий:
  • SQL Server 2016: новые стандарты в мире транзакции;
  • Бизнес-aналитика: SQL, Power BI, R, Mobile;
  • Azure: новое поколение решений для аналитики, Big Data& IoT.

Подробная программа доступна на сайте мероприятия.
Читать дальше →

Как работает кросс-девайс реклама: сложности и перспективы развития технологии

Время на прочтение11 мин
Количество просмотров16K

Введение


Все большее число пользователей выходят в сеть с помощью различных устройств. При этом взаимодействие рекламодателя с потенциальным покупателем происходит с использованием множества рекламных каналов. Часто, устройство с которого человек потребляет контент и определяет этот канал взаимодействия. Пользователь может заинтересоваться телевизионной рекламой или наоборот — отвлечься во время её показа для общения в социальной сети на мобильном телефоне или персональном компьютере. Потенциальный покупатель на своем пути от первого контакта с брендом или товаром до момента покупки может сменить не одно устройство, и при этом не всегда оно будет персональным.


Читать дальше →

Ожидания направлений развития в сфере хранения и обработки данных до 2020 года. Основные тренды

Время на прочтение13 мин
Количество просмотров7K


Развитие ИТ-инфраструктуры — это неуклонный процесс, который был, есть и непременно будет, набирая все только большие обороты. Взяв очередную высоту стандартов осуществления своей деятельности, перед сетевыми инженерами открываются новые горизонты, достижение которых становится для них очередным вызовом и основой их повседневных трудов. Для успешного функционирования ИТ-компаний всегда было очень важным точно определить цели, направления развития, самые актуальные тренды ведь как можно наблюдать именно ИТ-сфера находится на самом острие технологического прогресса и особо подвержена внедрению нововведений. В древности, за возможностью заглянуть в день грядущий, люди обращались к оракулам и вещунам, сейчас же эту столь вакантную деятельность «окучивают» профессиональные ассоциации, проводя всевозможные опросы и создавая на их основе самые разносторонне направленные отчеты.

Именно таким отчетом, совсем недавно, порадовала ИТ-сообщество AFCOM(Association for Computer Operation Management). Предметом полномасштабного исследования стало функционирование дата-центров. Со слов представителей AFCOM представленный отчет является настоящим событием, поскольку охватил самые широкие слои специалистов задействованных в работе ЦОД(Центр Оброботки Данных). Сетевые инженеры, менеджеры, программисты и владельцы компаний-провайдеров в представленном докладе дадут нам более четкое виденье той ситуации, в которой отрасль находится сейчас и где она окажется в ближайшие 3-4 года. Далее в статье будут представлены основные акценты на которых базируется вышеупомянутый отчет, что претендует быть наиболее репрезентативным и наиболее актуальным среди всех аналогичных проведеных в 2015 году.

Читать дальше →

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

Время на прочтение9 мин
Количество просмотров100K
Привет, Хабр! Мы продолжаем наш цикл статьей, посвященный инструментам и методам анализа данных. Следующие 2 статьи нашего цикла будут посвящены Hive — инструменту для любителей SQL. В предыдущих статьях мы рассматривали парадигму MapReduce, и приемы и стратегии работы с ней. Возможно многим читателям некоторые решения задач при помощи MapReduce показались несколько громоздкими. Действительно, спустя почти 50 лет после изобретения SQL,  кажется довольно странным писать больше одной строчки кода для решения задач вроде «посчитай мне сумму транзакций в разбивке по регионам».

С другой стороны, классические СУБД, такие как Postgres, MySQL или Oracle не имеют такой гибкости в масштабировании при обработке больших массивов данных и при достижении объема большего дальнейшая поддержка становится большой головоной болью.



Собственно, Apache Hive был придуман для того чтобы объединить два этих достоинства:

  • Масштабируемость MapReduce
  • Удобство использования SQL для выборок из данных.

Под катом мы расскажем каким образом это достигается, каким образом начать работать с Hive, и какие есть ограничения на его применения.
Читать дальше →

Объектное хранилище NetApp StorageGrid

Время на прочтение9 мин
Количество просмотров14K
В этой статье я отклонюсь от традиционной для меня темы систем хранения FAS и подниму тему объектного хранения данных в системах NetApp StorageGrid WebScale. Если кратко, то объектное хранение — это третий тип хранения наряду с NAS и SAN. Представьте себе, что каждый файл состоит из данных и метаинформации (владелец, права, время модификации и т.д.), так вот объектное хранение позволяет разъединить эти части и хранить их в виде «ключ/значение». Такой подход хранения информации открывает возможности децентрализованного, распределённого хранения данных огромных масштабов с прозрачной миграцией данных, репликацией и прозрачным переключением конечных потребителей между нодами объектного кластера. В широком смысле объектное хранилище может быть реализовано как на уровне устройства (жесткого диска), при помощи специализированных SCSI команд (Object-based Storage Device Commands), так и на уровне протокола доступа к системе хранения, которая состоит из нескольких дисков (которые, в свою очередь, вовсе не обязаны быть объектными). В обоих случаях используется Ethernet для подключения и IP протокол для передачи данных. Примером реализации объектного хранилища на уровне устройства являются жесткие диски линейки Seagate Kinetic Open Storage platform. Примером систем хранения данных в облаке может быть Microsoft Azure BLOB, Amazon S3. В этой статье я остановлюсь на объектных СХД, которые можно развернуть у себя на сайте и при необходимости подключить к облаку. Широкую популярность приобрели объектные протоколы S3, SWIFT, CDMI, все они являются надстройкой над HTTP.

Читать про Объектные Хранилища

Укрощаем слона или что такое HUE

Время на прочтение6 мин
Количество просмотров40K
Пост будет о том, как сделать работу на Хадупе немного комфортнее.



В данной статье я хочу рассмотреть один из компонентов экосистемы Hadoop – HUE. Произносим правильно «Хьюи» или «Эйч Ю И», но не другими, созвучными с широко известным русским словом, вариантами.
Читать дальше →

Как дата-центры меняются прямо сейчас: Энергоэффективность, хранение данных и «облака»

Время на прочтение5 мин
Количество просмотров12K


На этой неделе мы говорили о плюсах и минусах виртуальной ИТ-инфраструктуры и рассказывали о том, как выбрать направление для развития ИТ-проекта на основе своего опыта работы над провайдером виртуальной инфраструктуры 1cloud.

Сегодня хотелось бы поговорить о технологических трендах и направлениях, которые развиваются в сфере хранения и управления данными, ИТ-инфраструктурой и дата-центрами. Появление новых технологий и подходов к построению инфраструктуры оказывает серьезное влияние на то, как сейчас выглядят дата-центры и на то, какими они будут уже в ближайшем будущем.
Читать дальше →

Ближайшие события

Интернет пчел, или Зеленое будущее M2M приложений

Время на прочтение7 мин
Количество просмотров7.8K
Все обсуждение вокруг феномена Интернета вещей обычно сводится к тем потенциальным преимуществам для бизнеса и к тем удобствам для пользователей, которые предлагают наши интеллектуальные устройства и объекты, окружающие нас в повседневной жизни. При этом многие аналитики не исключают вероятности того, что мы находимся на пороге второй цифровой революции.

Однако недавно прошедший День Земли натолкнул нас на идею рассмотреть вопрос шире – это был отличный повод изучить, каким образом Интернет вещей, и даже скорее индустриальный Интернет вещей (M2M – machine-to-machine), то есть беспроводная передача данных и информации между устройствами и объектами, сможет оказать благотворное влияние на нашу жизнь и будет способствовать устойчивому развитию и защите окружающей среды на нашей взаимосвязанной планете.


Читать дальше: Любопытные реализации IoT для 'зеленого' будущего

Big Data: «Серебряная пуля» или еще один инструмент

Время на прочтение7 мин
Количество просмотров11K


Термин «Большие данные» появился не так давно — впервые его использовали в журнале Nature в 2008 году. В том номере (от 3 сентября) большими данными читателям было предложено называть набор специальных методов и инструментов для обработки огромных объемов информации и представления её в виде, понятном пользователю.

Очень скоро исследователи новоявленной области пришли к выводу, что большие данные не просто годятся для анализа, а могут оказаться полезными в целом ряде областей: от предсказания вспышек гриппа по результатам анализа запросов в Google до определения выгодной стоимости билетов на самолет на основе огромного массива авиационных данных.

Апологеты этого направления утверждают даже, что тандем мощных современных технологий и «мощных» объемов информации, доступных в цифровую эпоху, обещает стать грозным инструментом для решения практически любой проблемы: расследования преступлений, охраны здоровья, образования, автомобильной промышленности и так далее. «Нужно лишь собрать и проанализировать данные».
Читать дальше →

Приглашаем на конференцию по искусственному интеллекту и большим данным AI&BigData Lab 4 июня

Время на прочтение3 мин
Количество просмотров4.1K


4 июня в Одессе, наша команда FlyElephant совместно с GeeksLab будет проводить третью ежегодную техническую конференцию по искусственному интеллекту и большим данным — AI&BigData Lab.

На конференции разработчики обсудят вопросы реализации и применения различных алгоритмов, инструментов и новых технологий для работы с большими данными и искусственным интеллектом. Будут представлены воплощенные в жизнь проекты, рассказано о функционале и принципах их работы.

Программа конференции AI&BigData Lab уже частично сформирована. Среди принятых докладов можно отметить:
Читать дальше →

Производительность Apache Parquet

Время на прочтение9 мин
Количество просмотров15K

Плохой пример хорошего теста


В последнее время в курилках часто возникали дискуссии на тему сравнения производительности различных форматов хранения данных в Apache Hadoop — включая CSV, JSON, Apache Avro и Apache Parquet. Большинство участников сразу отметают текстовые форматы как очевидных аутсайдеров, оставляя главную интригу состязанию между Avro и Parquet.


Господствующие мнения представляли собой неподтвержденные слухи о том, что один формат выглядит "лучше" при работе со всем датасетом, а второй "лучше" справляется с запросами к подмножеству столбцов.


Как любой уважающий себя инженер, я подумал, что было бы неплохо провести полноценные performance-тесты, чтобы наконец проверить, на чьей стороне правда. Результат сравнения — под катом.


Apache Parquet Logo

Читать дальше →

Какие факторы влияют на производительность систем хранения и как?

Время на прочтение13 мин
Количество просмотров35K
Системы хранения данных для подавляющего большинства веб-проектов (и не только) играют ключевую роль. Ведь зачастую задача сводится не только к хранению определенного типа контента, но и к обеспечению его отдачи посетителям, а также обработки, что накладывает определенные требования к производительности.

В то время, как при производстве накопителей используется множество других метрик, чтоб описать и гарантировать должную производительность, на рынке систем хранения и дисковых накопителей, принято использовать IOPS, как сравнительную метрику, с целью «удобства» сравнения. Однако производительность систем хранения, измеряемая в IOPS (Input Output Operations per Second), операциях ввода / вывода (записи / чтения), подвержена влиянию большого множества факторов.

В этой статье я хотел бы рассмотреть эти факторы, чтобы сделать меру производительности, выраженную в IOPS, более понятной.

Начнем с того, что IOPS вовсе не IOPS и даже совсем не IOPS, так как существует множество переменных, которые определяют сколько IOPS мы получим в одних и других случаях. Также следует принять во внимание, что системы хранения используют функции чтения и записи и обеспечивают различное количество IOPS для этих функций в зависимости от архитектуры и типа приложения, в особенности в случаях, когда операции ввода / вывода происходят в одно и тоже время. Различные рабочие нагрузки предъявляют различные требования к операциям ввода / вывода (I/O). Таким образом, системы хранения, которые на первый взгляд должны были бы обеспечивать должную производительность, в действительности могут не справится с поставленной задачей.
Читать дальше →

Книга «От хранения данных к управлению информацией»

Время на прочтение9 мин
Количество просмотров11K
Привет, Хаброжители! При помощи компании EMC мы выпустили книгу, которая (что не часто случается с переводными книгами) получила гриф учебника:

imageЗа несколько лет, прошедших со времени выхода первого издания, известный нам мир претерпел невероятные изменения. Мы живем в эпоху цифровых технологий, когда объем имеющейся в мире информации увеличивается за два года более чем вдвое, а в следующем десятилетии IT-отделам придется справляться с информационными объемами, увеличившимися более чем в 50 раз, и это при том, что количество специалистов в области информационных технологий возрастет всего лишь в полтора раза. Теперь виртуализация и облачные вычисления для предприятий уже не просто один из возможных вариантов, а настоятельное условие для выживания на рынке. А так называемые большие данные предоставляют организациям новые, весьма действенные возможности анализа, обработки и управления возросшим объемом своего наиболее ценного актива — информации и приобретения весомых конкурентных преимуществ.

С приходом облачных вычислений появились совершенно новые технологии, компьютерные модели и дисциплины, сильно изменившие способы построения и запуска информационных технологий, а также управления ими. Чтобы идти в ногу с этими преобразованиями, были введены новые специальности, такие как технолог и архитектор облачных сред.

Книга раскроет перед вами новые перспективы и позволит разобраться с новыми технологиями и навыками, востребованными в наши дни для разработки, реализации, оптимизации и использования виртуализированных инфраструктур, а также управления ими с целью достижения тех преимуществ, которые бизнес может получить от применения облачных технологий.
Читать дальше →

Flume — управляем потоками данных. Часть 2

Время на прочтение23 мин
Количество просмотров14K
Привет, Хабр! Мы продолжаем цикл статей, посвященный Apache Flume. В предыдущей части мы поверхностно рассмотрели этот инструмент, разобрались с тем, как его настраивать и запускать. В этот раз статья будет посвящена ключевым компонентам Flume, с помощью которых не страшно манипулировать уже настоящими данными.

Читать дальше →

Вклад авторов