Все потоки

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

1cloud 3 июн 2015 в 08:59

От эксперимента к продукту: Hadoop и Big Data

3 мин

8.3K

Блог компании 1cloud.ruBig Data * Разработка под e-commerce * Hadoop * Интернет вещей

Сегодня мы обсудим тему облачной инфраструктуры и интеграции возможностей Big Data в традиционные ИТ-системы. Отправной точкой этого обзора послужили заметки ряда экспертов данной отрасли.

Читать дальше →

+5

alex4 1 июн 2015 в 16:17

Болты в чае, или вебинар по теории вероятностей на практике

2 мин

9K

Блог компании Zero to HeroBig Data * Математика * Машинное обучение *

В статье "Применение Теории вероятностей в IT" автор (преподаватель теории вероятностей в ВУЗе) пишет:

из года в год я сталкиваюсь с таким явлением, что студенты не понимают, зачем и почему им учить эту дисциплину.

Это действительно важная проблема. Владелец компании минималистичных видео-уроков Common Craft и заодно автор книги "Искусство объяснять" пишет, что человеку очень важно сначала ответить себе на вопрос «зачем?», и только тогда он заинтересуется ответом на вопрос «как?» (наверное, поэтому ему заказывали создание роликов в стиле Common Craft и Google, и Dropbox, и Twitter).

Поэтому я решил разобраться в теории вероятностей: накупил разных книжек типа "Удовольствие от икс", да потом ещё нанял двух репетиторов по Skype.

В итоге всё стало проясняться, и было решено поделиться своими инсайдами с широкой аудиторией.

Самый красивый пример, из тех, что я нашёл — это болты в чае. В советские времена был ГОСТ на максимальное содержание болтов\гаек в чае, которые попадали туда при уборке урожая: «массовая доля металломагнитной примеси» не должна была превышать 5-7 грамм на тонну. Для этого проверяли выборку и по ней делали заключение по всей партии чая.

И от этого примера можно переходить к более глобальному примеру применения статистического анализа — к японскому экономическому чуду.

В общем, всё это упоминается в тизере вебинара:

Давай посмотрим

+8

yuryemeliyanov 30 мая 2015 в 11:45

Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop

6 мин

95K

Блог компании Т-БанкBig Data * Hadoop * SQL *

В этой статье я хочу рассказать про следующий этап развития DWH в Тинькофф Банке и о переходе от парадигмы классического DWH к парадигме Data Lake.

Свой рассказ я хочу начать с такой вот веселой картинки:

Да, ещё несколько лет назад картинка была актуальной. Но сейчас, с развитием технологий, входящих в эко-систему Hadoop и развитием ETL платформ правомерно утверждать то, что ETL на Hadoop не просто существует но и то, что ETL на Hadoop ждет большое будущее. Далее в статье расскажу про то, как мы строим ETL на Hadoop в Тинькофф Банке.

Читать дальше →

+14

nukeduke 27 мая 2015 в 13:56

«Умные города» и Большие Данные

5 мин

17K

Блог компании FujitsuBig Data *

Во всём мире наблюдается рост городского населения. По оценкам учёных, к 2050 году оно будет составлять 70% населения планеты. С укрупнением мегаполисов возникают многочисленные проблемы, связанные с высокой плотностью населения, городским трафиком, эффективным использованием ресурсов. Во многих странах реализуются амбициозные проекты по развитию современной городской инфраструктуры на базе использования современных технологий – эта концепция получила название Smart City. «Умный город» должен характеризоваться высокоэффективными экономикой и управлением, высоким уровнем жизни, мобильностью, бережным отношением к окружающей среде для долгосрочного устойчивого развития.

Для «умного города» важно иметь эффективный управленческий и аналитический инструментарий, чтобы максимально просчитывать возможные негативные тенденции. Для решения проблем современных городов разрабатываются и тестируются ИТ-системы нового поколения, в которых используется аналитика Больших Данных, комплексное компьютерное моделирование, применяются результаты новейших научных исследований в области социологии и поведения людей.

Читать дальше →

+14

rzykov 26 мая 2015 в 08:22

Анализ данных на Scala. Считаем корреляцию 21-го века

8 мин

22K

Блог компании Retail RocketBig Data * Data Mining * Hadoop * Scala *

Очень важно выбрать правильный инструмент для анализа данных. На форумах Kaggle.com, где проводятся международные соревнования по Data Science, часто спрашивают, какой инструмент лучше. Первые строчки популярноcти занимают R и Python. В статье мы расскажем про альтернативный стек технологий анализа данных, сделанный на основе языка программирования Scala и платформы распределенных вычислений Spark.

Как мы пришли к этому? В Retail Rocket мы много занимаемся машинным обучением на очень больших массивах данных. Раньше для разработки прототипов мы использовали связку IPython + Pyhs2 (hive драйвер для Python) + Pandas + Sklearn. В конце лета 2014 года приняли принципиальное решение перейти на Spark, так как эксперименты показали, что мы получим 3-4 кратное повышение производительности на том же парке серверов.

Подробности

+18

1cloud 25 мая 2015 в 18:57

«Под капотом» Netflix: Анализ мирового кинематографа

3 мин

34K

Блог компании 1cloud.ruBig Data * Машинное обучение * Веб-разработка *

/ фото Brian Cantoni CC

Ранее в нашем блоге мы уже рассказывали о том, как большие данные меняют облик компаний и обсуждали интересные способы использования облачных сервисов. Сегодня мы поговорим о том, как изменился кинематографический ландшафт с приходом на рынок сервисов вроде Netflix.

Читать дальше →

+40

Diana_Kruglova 24 мая 2015 в 08:14

Уникальный TechTalk c Майклом Монти Видениусом

1 мин

7.7K

Блог компании AcronisBig Data * MySQL * SQL *

Если вы интересуетесь ИТ, то вам, скорее всего, не нужно объяснять, что такое MySQL. А если вы знаете про MySQL, то наверняка вам знакомо имя Майкла Монти Видениуса. Для всех остальных и тех, кто подзабыл, напоминаем: MySQL – самая популярная в мире система управления базами данных, а Монти – её создатель, основатель компании MySQL AB, знаменитый ИТ-гуру и просто горячий финский парень.

25 мая, то есть в ближайший понедельник, Монти будет в Москве и проведёт мастер-класс, на котором поделится секретами вывода софтверных проектов на рынок, расскажет о том, как построить карьеру в ИТ, как продать компанию за миллиард долларов и начать всё сначала, приоткроет свои планы на будущее.

Читать дальше →

+17

OzzyTech 23 мая 2015 в 15:05

Сериал: Big Data — как мечта. 9-я серия: Почему IBM был вынужден купить «Алхимиков» за $100млн

4 мин

3.9K

Блог компании PalitrumLabСемантические сети * Анализ и проектирование систем * Data Mining * Big Data *

В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. В этой серии поговорим о лингво-аналитике высокоскоростных потоков неструктурированных текстов и сообщений соцмедиа и представим «Эврику» — наш ответ «Алхимикам».

Интернет, в своем нынешнем восприятии обществом, это связанный набор сообщений: личной переписки в мессенджерах, ссылки между статьями в СМИ, обсуждений в блогах, игровые чаты, тематические сериалы на Хабре, или, как преобразилось в мировоззрении новых поколений — ссылки на ответы поисковика после набора запроса «Чем сегодня заняться?»

Если приглядеться, то основа основ: Связи и Тематики. Про аналитику «связей» говорить не будем (это к АНБ, на чьи возможности по электронной слежке сегодня отказался покушаться даже «всемогущий Сенат США»). А вот Тематическая аналитика (что недавно получило свое название — Brand Analytics — в пресс-релизе между Facebook и DataSift, а в России существует уже 3 года в виде названия проекта) и связанные с ней разнообразные вкусности — прекрасная тема (! :-) ) для новой серии.

Читать дальше →

0

GearHead 22 мая 2015 в 16:27

Мой опыт внедрения Apache Cassandra

3 мин

57K

NoSQL * Big Data *

Как и большинство NoSQL-решений, C* подвержена одной крайне неприятной эпидемии: она является отличным инструментом для узкого класса задач, но позиционируется евангелистами как очередная серебряная пуля по хранению данных. В этой статье я расскажу о своём опыте внедрения C* в (сравнительно) нагруженный проект веб-аналитики. Она будет полезна всем, кто стоит перед выбором масштабируемого хранилища данных, и развенчает мифы и заблуждения об этом инструменте.

Читать дальше →

+24

luciana 21 мая 2015 в 15:54

Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

3 мин

4.3K

Блог компании Content AIBig Data * Семантические сети * Машинное обучение *

С 27 по 30 мая в Российском государственном гуманитарном университете (РГГУ) пройдет международная научная конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы писали здесь .

Основные темы конференции этого года:

Анализ текстов социальных медиа. С одной стороны, лингвистов интересует живой динамичный язык социальных сетей, а с другой, эти сети порождают огромное количество актуальной информации, в том числе – оценочной, которая интересует всех, от политиков до создателей фотокамер и кинофильмов.

Проблемы связывания различных лингвистических ресурсов, созданных для разных языков, в единое информационное целое (т.н. Linked Data).

Поскольку «Диалог» – международная конференция, традиционно в ней принимают участие специалисты по компьютерной лингвистике мирового масштаба

Читать дальше →

+21

Videoanalitic 21 мая 2015 в 09:11

Два противоположных направления ВИДЕОАНАЛИТИКИ: «жесткая» и «гибкая», кто сильней?

5 мин

6.6K

Обработка изображений * Алгоритмы * Big Data *

Проблема – сокращения избыточной видео информации – крайне актуальна для сегодняшнего видеонаблюдения, объем данных которого не способен уже переварить человек. Только каждый решает ее по-разному: одни – путем поиска важных моментов, другие – путем фильтрации незначительных. Что эффективнее?

Читать дальше →

+3

netgt 19 мая 2015 в 10:58

Object Storage — Ближайшее будущее систем хранения данных

7 мин

22K

Блог компании Dell TechnologiesВеб-разработка * Hadoop * Big Data * Amazon Web Services *

Девять лет назад «Международный день телекоммуникаций» был переименован в «Международный день телекоммуникаций и информационного общества». Для золотого миллиарда будущее уже наступило: интернет стал одной из важнейших частей нашей жизни. Ежесекундно по всему миру создаются и потребляются колоссальные объёмы информации, а рынок всевозможных онлайн-сервисов является одним из самых быстрорастущих.

Одной из главных тенденций последнего времени стало развитие облачных технологий. Они используются повсеместно, от файлообменников и видеохостингов до мобильных приложений, сервисов заказа услуг и внутренних корпоративных систем. Подавляющее большинство подобных проектов оперируют неструктурированной информацией, причём ёмкость файловых хранилищ ежегодно увеличивается примерно на 53%. И с ростом объёмов генерируемой и хранимой информации трансформируются и требования к системам хранения данных.

Читать дальше →

+10

varagian 19 мая 2015 в 06:19

5 инструментов в помощь аналитику

5 мин

92K

Блог компании NaviconBig Data * Data Mining * Microsoft SQL Server * Анализ и проектирование систем *

Данных становится всё больше и больше, поэтому сейчас как никогда важно иметь необходимый инструментарий для анализа данных и принятия решений. Сегодня мы поговорим о пяти популярных аналитических системах.

Содержание

Читать дальше →

+6

GearHead 19 мая 2015 в 05:06

Граф жизни сайта, или визуализация связи между страницами

4 мин

14K

Big Data * Data Mining * Визуализация данных * Открытые данные *

Когда я начал работать над виджетом рекомендаций aka «Читайте также», я даже не подозревал о том, что данные, полученные для формирования рекомендаций могут быть не менее полезны, чем сами рекомендации. Собственно, этими данными я и хочу сегодня с вами поделиться в топике. Из них вы можете почерпнуть интересные знания о специфике посещаемости разных сайтов. Под катом вас ждёт ~~geek porn~~ краткий экскурс с описанием, как эти данные формируются, разбор графов нескольких типовых подопытных, а также бонус 18+.

Для подогрева интереса вот вам картинка одного из подопытных:

Читать дальше →

+8

1cloud 18 мая 2015 в 14:09

AI, Big Data и дезинформация технологий

3 мин

29K

Блог компании 1cloud.ruBig Data * Разработка под e-commerce * Машинное обучение * Интернет вещей

/ фото KamiPhuc CC

Обычно в нашем блоге мы рассказываем об облачных сервисах, хостинге и соответствующих технологиях. Сегодня мы поговорим о сложностях развития технологий в целом, искусственном интеллекте, больших данных и Майкле Джордане (не баскетболисте).

Читать дальше →

+21

Dmitry21 17 мая 2015 в 15:09

Лекции Техносферы. 2 семестр. Методы распределенной обработки больших объемов данных в Hadoop

5 мин

36K

Блог компании VKBig Data * Hadoop * Высоконагруженные системы * Математика *

Туториал

Предлагаем вашему вниманию новый курс лекций Техносферы. Он представляет собой введение в Hadoop, фокусируясь на проектировании и реализации распределенных алгоритмов, которые могут применяться в различных сферах: обработка текстов, графов, связанных данных и т.п. Также рассматриваются различные компоненты платформы Hadoop и программные модели. Целью курса является знакомство студентов со стеком технологий Hadoop, применяемых для хранения, доступа и обработки больших объемов данных. Преподаватели курса: Алексей Романенко, Михаил Фирулик, Николай Анохин.

Лекция 1. Введение в Big Data и MapReduce

Что такое «большие данные». История возникновения этого явления. Необходимые знания и навыки для работы с большими данными. Что такое Hadoop, где он применяется. Что такое «облачные вычисления», история возникновения и развития технологии. Web 2.0. Вычисление как услуга (utility computing). Виртуализация. Инфраструктура как сервис (IaaS). Вопросы параллелизма. Управление множеством воркеров. Дата-центры и масштабируемость. Типичные задачи Big Data. MapReduce: что это такое, примеры. Распределённая файловая система. Google File System. HDFS как клон GFS, его архитектура.

Читать дальше →

+33

Olga_Volodko 7 мая 2015 в 13:42

Записки на полях Big Data Week Moscow

4 мин

9.7K

Блог компании New Professions LabBig Data * Data Mining * Машинное обучение *

В продолжение к нашему предыдущему посту с презентациями с Big Data Week Moscow, мы собрали несколько заявлений российских и международных спикеров, которые нам особенно запомнились и показались заслуживающими внимания.

Читать дальше →

+11

m31 7 мая 2015 в 08:42

AI, BigData & HPC дайджест #0. Пилотный выпуск

2 мин

10K

Блог компании FlyElephantBig Data * Data Mining * R * Высоконагруженные системы *

Привет, Хабр!
Меня зовут Дмитрий Сподарец. Я основатель проекта FlyElephant, который предоставляет научным сотрудникам и инженерам среду для выполнения вычислительных программ. В нашей команде мы активно следим за тремя направлениями: искусственный интеллект, большие данные и высокопроизводительные вычисления. Нам постоянно попадаются интересные материалы, с которыми мы будем знакомить вас в рамках этого дайджеста.

Читать дальше →

+14

Moscow_Exchange 6 мая 2015 в 17:38

Аналитический обзор рынка Big Data

24 мин

117K

Блог компании MOEXBig Data *

«Big Data» — тема, которая активно обсуждается технологическими компаниями. Некоторые из них успели разочароваться в больших данных, другие — напротив, максимально используют их для бизнеса… Свежий аналитический обзор отечественного и мирового рынка «Big Data», подготовленный Московской Биржей совместно с аналитиками «IPOboard», показывает, какие тренды наиболее актуальны сейчас на рынке. Надеемся, информация будет интересной и полезной.

Читать полностью...

+10

itadapter 4 мая 2015 в 18:20

NFX — Ультраэффективная Бинарная Сериализация в CLR

8 мин

21K

.NET * Big Data * C# *

Требования

В данной статье мы рассмотрим задачи переноса сложных объектов между процессами и машинами. В наших системах было много мест, где требовалось перемещать большое кол-во бизнес объектов различной структуры, например:

самозацикленные графы объектов (деревья с back-references)
массивы структур (value types)
классы/структуры с readonly полями
инстансы существующих .Net коллекций (Dictionary, List), которые внутренне используют custom-сериализацию
большое кол-во инстансов типов, специализированных для конкретной задачи

Речь пойдёт о трёх аспектах, которые очень важны в распределённых кластерных системах:

скорость сериализации/десериализации
объём объектов в сериализированном виде
возможность использовать существующие объекты без надобности “украшения” этих объектов и их полей вспомогательными атрибутами для сериализации

Читать дальше →

+13

1 2 ...

189

190 191 ...