Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

m31 1 мая 2014 в 08:44

Отчет о конференции «AI&BigData Lab»

5 мин

4.9K

Блог компании RootUA MediaBig Data *

12 апреля в Одессе впервые прошла конференция «Al&BigData Lab», посвященная искусственному интеллекту и большим данным. Если проблема искусственного интеллекта исследуется давно, то понятие «большие данные» появилось относительно недавно и до сегодняшнего дня остается довольно расплывчатым. Основной целью мероприятия виделось прежде всего обмен опытом среди разработчиков, объединение сообщества для более эффективного развития проектов по этой проблематике, а также создание и продвижение решений big data и искусственного интеллекта в Украине. Мы планировали заложить основы создания в одесском регионе AI-клаба (как это сделано в Киеве и Харькове) для поддержки и развития данного направления в регионе. Можно с уверенностью утверждать, что нам это удалось.

Читать дальше →

+17

fabernovel 29 апр 2014 в 09:15

Как порталы открытых данных могут стимулировать рост экономики и инноваций

5 мин

8.6K

Блог компании FaberNovelBig Data * Открытые данные *

Перевод

Органы государственного управления не только скрывают колоссальное количество информации, но еще и создают огромный объем данных. Собственно, они являются одними из крупнейших источников данных в мире, исходные материалы, которыми они располагают, могут стоить больших денег. Согласно составленному в 2011 году прогнозу компании McKinsey, к 2020 году потенциальная ценность Больших данных для европейского сектора может возрасти до двухсот пятидесяти миллиардов евро в год. Большая часть этих данных создается на бюджетные средства, следовательно, было бы логично предоставить их для общественного использования. Это позволило бы людям создавать новые инновационные сервисы, которые могли бы оказать существенное влияние на экономический рост.

Читать дальше →

+20

marks 29 апр 2014 в 06:04

Компания IBM представила новые серверы на основе процессоров Power8

3 мин

37K

Блог компании IBMВысоконагруженные системы * Big Data *

На этой неделе представлены серверы на основе мощных процессоров нового поколения Power8. Проект осуществляется при поддержке консорциума OpenPower. В консорциум входят такие корпорации, как IBM, Google, Nvidia и другие (всего 25 компаний). Отметим, что будучи членом OpenPower Foundation, IBM в этот раз предоставила членам консорциума детальную информацию и спецификации своих новых процессоров. Обычно производители чипов и серверного оборудования не открывают подробную техническую документацию для сторонних производителей, в данном случае это сделано для того, чтобы конкуренты и партнеры IBM могли создавать новые производительные чипы и серверные платформы, используя идеи, предложенные корпорацией.

Стоит отметить, что на разработку процессоров Power8 ушло около 3 лет и 2,4 миллиарда долларов. Архитектура процессора (называемая симметричной суперскалярной архитектурой) объединяет до 12 ядер, работающих в режиме SMT8, общая площадь кристалла — 640 квадратных миллиметра. На кристалле умещается 4 миллиарда транзисторов. По сравнению с Power7 производительность нового поколения процессоров возросла примерно в 1,6 раза.

Читать дальше →

+33

vyahhi 28 апр 2014 в 12:52

Тренды в онлайн образовании

5 мин

38K

Блог компании Stepik.orgBig Data *

В последнее время на слуху феномен «муков» (MOOC) – массовых открытых онлайн курсов. Платформ для них создано большое множество.

Есть мнение, что MOOC – это книги нового поколения (с видео, интерактивными задачами и социальной составляющей), которые одновременно «читают» десятки тысяч человек. Можно долго сравнивать «муки» с классическим образованием и спорить об их эффективности, но полезно воспринимать их как совершенно другой формат, очевидно со своими плюсами и минусами.

При этом у онлайн образования есть большое концептуальное отличие от оффлайн образования – его проще измерить. А всё, что можно измерить, можно улучшить.

В этом посте я поделюсь личными соображениями о том, куда движется онлайн образование на примере MOOC-ов, в том числе по мотивам посещения Coursera Partners' Conference, прошедшей 4 недели назад в Лондоне.

Читать дальше про данные, специализации, смешанное обучение и платформу образовательных приложений

+33

volk 25 апр 2014 в 12:32

Популярность средств веб-аналитики

5 мин

12K

Блог компании OpenstatBig Data *

Весной и осенью от имени IAB Russia выпускается карта экосистемы инернет-рекламы и мобильной рекламы. По состоянию на 22 апреля (в версии, приуроченной к РИФ 2014) вкладка веб-аналитики на ней выглядит так.

В нынешние времена то, что раньше было фактоидом (то есть событием, существующим только в мире медиа), уже выполняет функцию факта, вот как и эта карта русского digital. Хотя любому видно, что на схему, где столь мало места для логотипов, попали некоторые нераспространенные у нас средства веб-аналитики, и не попали системы, которые действительно заметны в Рунете.

Нам, Openstat, очень легко подкрепить интуитивное ощущение точными данными количества доменов с установленными системами веб-аналитики — фактами. У нас есть отчеты, полученные краулером Openstat, который обнаружил интернет-счетчики почти на 2 млн. сайтах.

С августа 2013 года краулер Openstat индексирует Рунет, Байнет, Уанет. Общий объем анализируемых данных 5,69 млн. хостов, но фактически краулер индексирует 4,6 млн. «живых» доменов Рунета, дающих ответ 200 Ok. На проиндексированных страницах выделено около одной тысячи сигнатур, соответствующих электронным способам оплаты, CMS, кодам рекламных сетей, средств веб-аналитики и т.д. Собирается также много технометрик, для которых также можно найти подходящие хабы на Хабре. В результате обработки подобных данных составляются различные отраслевые отчеты, с указанием, к примеру, числа сайтов с формами оплаты электронных денег, карт на сайт или интернет-счетчиков, которые стали темой этой записи.

Читать дальше →

+17

CvetKomm 23 апр 2014 в 05:49

Data Mining в Big Data: рейтинг цитируемости СМИ в социальных медиа

4 мин

11K

Блог компании Brand AnalyticsБлог компании PalitrumLabBig Data *

«Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014г, чтобы составить рейтинг цитируемости СМИ.
В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.

Читать дальше →

+17

uinx 9 апр 2014 в 07:18

QlikView. Создадим свое первое приложение?…

4 мин

62K

Анализ и проектирование систем * Big Data *

Из песочницы

В этой статье я хочу описать основы использования продукта QlikView от компании QlikTech, предназначенный для бизнес-аналитики (Business intelligence). Осторожно, много спойлеров.

Интересно? Добро пожаловать далее...

0

vakos 4 апр 2014 в 10:45

Большие данные и их хранение

3 мин

24K

Блог компании AcronisBig Data *

Что такое большие данные? Ответ на этот вопрос зависит от того, кому и когда он задан. Возьмем обычного пользователя: пятнадцать лет назад объём данных в среднем домашнем компьютере исчислялся несколькими гигабайтами; теперь таких гигабайт сотни и даже тысячи. Более серьезный пример: датчики, установленные на Boeing Jet, генерируют примерно 10 ТБ данных с каждого двигателя всего лишь за 30 мин. То есть самолет, прилетевший из Москвы, скажем, в Новосибирск за 4 часа, даст нам примерно 160 ТБ данных. И это только с одного полета. На десерт можно подсчитать, сколько данных оставила человечеству прошедшая Олимпиада в Сочи: сотни спортсменов и данные о них, тысячи часов видео с соревнований, данные с камер слежения и т. д.

Большие данные – это одновременно большие проблемы и большие возможности. Рассмотрим несколько типичных проблем, связанных с «Big data».

Читать дальше →

+2

KRED 1 апр 2014 в 10:05

Небольшой тест производительности Hadoop/Mapreduce

2 мин

4.5K

Big Data * Hadoop * Java *

Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»

Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM

Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).

Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле

Читать дальше →

-5

firefoxy 28 мар 2014 в 18:07

MongoDB от теории к практике. Руководство по установке кластера mongoDB

9 мин

90K

NoSQL * MongoDB * Big Data *

Из песочницы

Доброго времени суток, уважаемые читатели. В этом посте я хотел бы описать несколько примеров развертки mongoDB, отличия между ними, принципы их работы. Однако больше всего хотелось бы поделиться с вами практическом опытом шардирования mongoDB. Если бы этот пост имел план, он бы выглядел скорее всего так:

Вступление. Кратко о масштабировании
Некоторые примеры развертки mongoDB и их описание
Шардинг mongoDB

Пункты 1 и 2 — теоретические, а номер 3 претендует на практическое руководство по поднятию кластера mongoDB и больше всего подойдет тем, кто столкнулся с этим в первый раз.

Читать дальше →

+48

servancho 20 мар 2014 в 09:19

Кризис докатился до облаков!

1 мин

4.1K

Вышел новый отчет Forrester “A Better But Still Subpar Global Tech Market In 2014 and 2015”. В нем аналитики спешат сообщить, что рынок облачных вычислений в 2014 с трудом вырастет на 6%.

Читать дальше →

+3

Odnoklassniki_ru 20 мар 2014 в 07:46

Big data: размер имеет значение?

5 мин

22K

Блог компании VKБлог компании ОКBig Data *

Перед всеми веб-разработчиками встает задача индивидуальной выборки контента для пользователей. С ростом объема данных и увеличением их разнообразия обеспечение точности выборки становится все более важной задачей, оказывающей существенное влияние на привлекательность проекта в глазах пользователей. Если вышеописанное входит в сферу ваших интересов, то, возможно, данный пост натолкнет на какие-то новые идеи.

В каждой эпохе развития IT-индустрии существовали свои buzzwords — слова, которые у всех были на слуху, каждый знал, что за ними будущее, но лишь немногие знали, что действительно стоит за этим словом и как им правильно воспользоваться. В своем время баззвордами были и «водопад», и «XML», и «Scrum», и «веб-сервисы». Сегодня одним из основных претендентов на звание баззворда №1 является «big data». С помощью больших данных британские ученые диагностируют беременность по чеку из супермакета с точностью, близкой к ХГЧ-тесту. Крупные вендоры создают платформы для анализа больших данных, стоимость которых зашкаливает за миллионы долларов, и нет сомнений, что каждый пиксель в любом уважающем себя интернет-проекте будет строиться с учетом больших данных не позднее, чем к 2020 году.

Читать дальше →

+45

InFortis 19 мар 2014 в 08:39

Эффективность персональных рекомендаций: контекстный подход

4 мин

4.7K

Персональные рекомендации, как первый этап персонализации Интернета в целом, направлены на облегчение поиска информации. Но целесообразность их использования остается достаточно спорной.

У нас была возможность оценить эффективность наиболее популярных подходов к формированию рекомендаций пользователю. Наша система обработала информацию, полученную от нескольких сервисов (на правах партнеров), которые предлагали своим пользователям рекомендации информационного контента и рекламных баннеров и фиксировали реакцию пользователя на них (клик/отсутствие клика). Таким образом, для анализа мы получили 13,4 млн рекомендаций, сформированных на основе разных методов.

Читать дальше →

+4

marks 14 мар 2014 в 15:34

Такси в Нью-Йорке: визуализация перемещений за год

1 мин

21K

Big Data * Визуализация данных *

Наверное, в Нью-Йорке самый большой таксопарк в мире, или один из самых больших. За последний год, по данным MIT, 13500 такси перевезли более 17 миллионов пассажиров. Это, сами понимаете, очень много.

Благодаря современным технологиям специалистам удалось перевести все данные по перемещениям такси (использовались GPS-координаты) за последний год в графику. И результат получился достаточно интересным.

Читать дальше →

+14

fortyseven 11 мар 2014 в 07:41

Hadoop, часть 3: Pig, обработка данных

8 мин

27K

Блог компании SelectelBig Data * Hadoop *

Туториал

des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.

Читать дальше →

+26

olegmikh 7 мар 2014 в 11:08

Как обеспечить надежное хранение больших объемов данных в рамках умеренного бюджета

9 мин

24K

Блог компании AcronisBig Data *

Добрый день, Хабрахабр! Сегодня поговорим о том, как из-за роста объемов данных меняются требования к СХД и почему традиционные системы, которым мы привылки доверять, больше не могут справляться с расширением емкости и обеспечивать надежность хранения. Это мой первый пост после долгого перерыва, поэтому на всякий случай представлюсь — я Олег Михальский, директор по продуктам компании Acronis.

Если вы следите за трендами в индустрии, наверняка уже сталкивались с таким понятием как software defined anything. Эта концепция подразумевает перенос на уровень программного обеспечение ключевых функций ИТ-инфраструктуры, обеспечивающих ее масштабируемость, управляемость, надежность и взаимодействие с другими частями. Gartner называет Software Defined Anything в числе 10 ключевых трендов 2014 года, а IDC уже опубликовала специальный обзор сегмента Software Defined Storage и предсказывает, что в к 2015 году только коммерческих решений данного типа будет куплено на 1,8 миллиарда долларов. Именно про СХД этого нового типа пойдет речь дальше.

Читать дальше →

+15

Advertone 5 мар 2014 в 10:48

Единый интерфейс управления рекламой на сайте

4 мин

19K

Блог компании AdvertOneBig Data *

Монетизация собственного проекта – всегда вызов. Самый простой вариант: поставить на него тизерную рекламу или контекст, и наблюдать, сколько денег капает в карман. Но этот же вариант часто оказывается разочаровывающим – заработок не стоит усилий по его приобретению. Так ли плоха тизерная/контекстная реклама для монетизации сайтов? Скорее всего, вы просто не умеете её готовить.

В зависимости характера вашего трафика, его источников и состава, будет меняться прибыльность той или иной рекламной сети

Читать дальше →

+19

elcoyot 1 мар 2014 в 13:11

Что такое на самом деле Big Data и чем они прекрасны. Лекция Андрея Себранта в Яндексе

3 мин

107K

Блог компании ЯндексBig Data *

Директор по маркетингу сервисов Яндекса Андрей Себрант рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение.

Bid Data как понятие у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.

Конспект лекции

+68

Maslukhin 28 фев 2014 в 12:51

Можем ли мы доверять решению компьютера, если не можем его проверить?

1 мин

20K

Математика * Big Data * Алгоритмы *

Если помните, Рей Курцвейл обещал приход сингулярности уже в 30 годах этого века. Похоже, что первые предвестники уже появляются: два бывших наших соотечественника, Алексей Лисица и Борис Конев, работающие в Ливерпульском университете, запустили на расчет задачу несоответствия Эрдеша. Задача считается неразрешенной, и программа, запущенная исследователями с задачей справилась. Но! Проблема в том, что доказательства решения сами по себе занимают 13 Гб (еще раз, текстовый лог-файл, по сути и являющийся доказательством, занимает 13 Гб) и с трудом поддается верификации. Отсюда напрашивается простой вопрос – можем ли мы доверять решению компьютера, если не в состоянии проверить его выкладки?

Читать дальше →

+23

Alexey_Ru 26 фев 2014 в 08:56

Как сохранить олимпиаду?

4 мин

24K

Блог компании AcronisBig Data *

Все средства массовой информации в последнее врем живут и дышат только Олимпиадой. Дабы не нарушать этот тренд и не упускать возможность поделиться экспертизой вопроса хранения данных на подобном событии, позволю себе немного порассуждать на тему взаимного проникновения технологий в спорт и спорта в технологии.

По некоторым данным олимпиада в Сочи стала большим событием не только для спортсменов и болельщиков, но и для российского IT сообщества, т.к. явила собой пример использования последних веяний IT индустрии для спортивных мероприятий.

Внутри всё устроено следующим образом:

+6

1 2 ...

190

191 192 ...