Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

SergeyMarin 28 мар 2016 в 07:36

Школа Данных «Билайн»: весна, знания, новый курс

1 мин

4.7K

Блог компании билайн бизнесBig Data*Data Mining*R*Алгоритмы*

Привет, Хабр.

Итак, третий курс Школы Данных «Билайн» подходит к завершению и мы набираем четвёртый.

У нас 18 занятий, 36 часов, все основные темы машинного обучения и анализа данных, куча практики, куча домашек, два Kaggle соревнования, презентации и воркшопы от партнеров, возможность устройства в Билайн в команду BigData для лучших студентов, сокурсники из различных областей бизнеса, где применяется машинное обучение и много чего ещё.

Читать дальше →

+2

sim31r 25 мар 2016 в 23:30

Ученые создали нейросеть, распознающую «пьяные» сообщения в Twitter

4 мин

12K

Big Data*Машинное обучение*

В свете текущих выходных, важно не забывать, что алкоголь и общение, вместе составляют не всегда хорошую комбинацию, даже у звезд. Тем не менее, многие из нас повторяют этот опыт снова и снова. И этот опыт дал американским ученым (Nabil Hossain с приятелями из University of Rochester) интересную идею. В итоге, американские ученые разработали нейронную сеть, способную распознавать в Twitter посты написанные в состоянии алкогольного опьянения. Кроме того, полученная математическая модель может определять, где авторы «пьяных» постов находились в момент их написания.
Об этом сообщает MIT Technology Review.

Читать дальше →

+8

caveeagle 24 мар 2016 в 09:01

Fbi Detected: Как я обнаружил агентов ФБР

3 мин

52K

Информационная безопасность*Data Mining*Big Data*

В новом выпуске «Черной археологии датамайнинга» мы немного поиграемся в шпионов. Увидим, что может узнать обычный Data Specialist на основе открытых в сети данных.

Всё началось со статьи на хабре, о том, что некий анонимный хакер делился слитыми в сеть данными агентов ФБР. Я получил эти данные, и стал смотреть, что с ними можно сделать? В данных есть только фамилия, имя, и служебные мейлы и телефон – немного информации.

Получив эти данные, я увидел, что они заканчиваются буквой J. То есть, датасет не полон. Интресено, каков его полный размер? Чтобы узнать его, надо построить статистику частоты встречаемости фамилий.

Для этого я начал искать наборы американских фамилий, и тут меня ждало открытие – в Америке можно найти открытые данные по, скажем, избирателям штата – как я понял, совершенно легально. Например, я за полчаса без проблем получаю данные всех избирателей штата Юта.

Читать дальше →

+53

SergeIndex 24 мар 2016 в 07:13

Логическая витрина для доступа к большим данным

6 мин

23K

Семантические сети*Big Data*

Технологии Big Data создавались в качестве ответа на вопрос «как обработать много данных». А что делать, если объем информации не является единственной проблемой? В промышленности и прочих серьезных применениях часто приходится иметь дело с большими данными сложной и переменной структуры, разрозненными массивами информации. Встречаются задачи, способ решения которых наперед не известен, и аналитику необходимы средства исследования исходных данных или результатов вычислений на их основе без привлечения программиста. Нужны инструменты, сочетающие функциональную мощь систем BI (а лучше – превосходящие ее) со способностью к обработке огромных объемов информации.

Одним из способов получить такой инструмент является создание логической витрины данных. В этой статье мы расскажем о концепции этого решения, а также продемонстрируем программный прототип.

Читать дальше →

+6

darikova 23 мар 2016 в 13:22

Как нельзя делать рекомендации контента

9 мин

23K

Блог компании SurfingbirdМашинное обучение*Data Mining*Big Data*

Recovery Mode

Во время общения с медиа мы в Relap.io часто сталкиваемся с массой заблуждений, в которые все верят, потому что так сложилось исторически. На сайте есть блоки типа «Читать также» или «Самое горячее» и т.п. Словом, всё то, что составляет обвязку статьи и стремится дополнить UX дорогого читателя. Мы расскажем, какие заблуждения есть у СМИ, которые делают контентные рекомендации, и развеем их цифрами.

HAbr1

HAbr1

Читать дальше →

+32

ITI_Capital 23 мар 2016 в 06:56

Как Big Data используют для анализа фондового рынка

4 мин

21K

Блог компании ITI CapitalBig Data*

В нашем блоге мы неоднократно писали о софте для торговли на бирже различных инструментах, использующихся для анализа ситуации на фондовом рынке и создания прогнозов возможных обвалов и изменений цен (в этом материале собраны все рассмотренные алгоритмы и инструменты). Одним из самых популярных средств анализа являются различные технологии работы с Большими Данными — например, Hadoop, NoSQL.

Сегодня мы рассмотрим два эксперимента, в ходе которых исследователи применяли Big Data для создания прогнозов движений на фондовом рынке.

Читать дальше →

+10

Wriketeam 21 мар 2016 в 22:22

Как использовать Parquet и не поскользнуться

7 мин

81K

Блог компании WrikeBig Data*Анализ и проектирование систем*

О хранении данных в Parquet-файлах не так много информации на Хабре, поэтому надеемся, рассказ об опыте Wrike по его внедрению в связке со Spark вам пригодится.
В частности, в этой статье вы узнаете:

— зачем нужен “паркет”;
— как он устроен;
— когда стоит его использовать;
— в каких случаях он не очень удобен.

Читать дальше

+10

alexanderkuk 21 мар 2016 в 21:26

1 000 000 жилых домов России

2 мин

69K

Big Data*Открытые данные*Геоинформационные сервисы*Визуализация данных*Data Mining*

Есть прекрасный сайт www.reformagkh.ru. На нём можно найти, управляющую компанию, закреплённую за домом, сколько денег, на что тратится и всё такое. Но кроме этого можно узнать разные интересные вещи о нашей стране в целом, например, для каждого дома на сайте указана дата его постройки, поэтому можно посмотреть, как строилась Москва с 1900 года:

Ещё более эпичная картинка получается, если посмотреть на Россию целиком:

Читать дальше →

+70

NNikolay 17 мар 2016 в 05:00

Строим надёжный процессинг данных — лямбда архитектура внутри Google BigQuery

5 мин

23K

Big Data*Data Mining*SQL*

В этой статье хочу поделиться способом, который позволил нам прекратить хаос с процессингом данных. Раньше я считал этот хаос и последующий ре-процессинг неизбежным, а теперь мы забыли что это такое. Привожу пример реализации на BiqQuery, но трюк довольно универсальный.

У нас вполне стандартный процесс работы с данными. Исходные данные в максимально сыром виде регулярно подгружаются в единое хранилище, в нашем случае в BigQuery. Из одних источников (наш собственный продакшн) данные приходят каждый час, из других (обычно сторонние источники) данные идут ежедневно.

В последствии данные обрабатываются до состояния пригодного к употреблению разнообразными пользователями. Это могут быть внутренние дашборды; отчёты партнёрам; результаты, которые идут в продакшн и влияют на поведение продукта. Эти операции могут быть довольно сложными и включать несколько источников данных. Но по большей части мы с этим справляется внутри BigQuery с помощью SQL+UDF. Результаты сохраняются в отдельные таблицы там же.

Читать дальше →

+8

Rovena 14 мар 2016 в 14:30

BDRA – современная архитектура для аналитики больших данных

9 мин

11K

Блог компании Hewlett Packard EnterpriseBig Data*Hadoop*

Под большими данными обычно понимают серию подходов, инструментов и методов обработки структурированных и неструктурированных данных, которые отличают огромные объёмы и значительное многообразие. Цель такой обработки — получение воспринимаемых человеком результатов.

Поток данных может поступать из разных источников, эти данные гетерогенны и передаются в различных форматах: текст, документы, изображения, видео и многое другое. Для извлечения из таких данных полезной информации определяющее значение имеет программно-аппаратная платформа.

Читать дальше →

+10

alexanderkuk 13 мар 2016 в 18:55

Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года

3 мин

35K

Big Data*Data Mining*Открытые данные*

Выборы в Государственную думу только осенью, но мы уже начинаем готовиться. Если повторится история 2011 года, будет очень интересно. Наверное, многие помнят, как сразу после тех выборов появилась куча статистических исследований, намекающих на фальсификации и как все узнали, как выглядит распределение Гаусса. Я хотел бы рассказать, где искать данные про выборы и как с ними работать. Кроме хорошо известных графиков я покажу некоторые другие прикольные картинки, которых раньше в паблике не видел. Так, например, выглядит распределение голосов за Единую Россию по стране, хорошо видны регионы с максимальной поддержкой партии власти — Северный Кавказ и Татарстан:

Есть такой замечательный сайт izbirkom.ru. Его здесь даже недавно упоминали в контексте, что, типа, на него потратили слишком много денег. Но лично мне не жалко, сайт прекрасный:

Читать дальше →

+52

AlexSerbul 12 мар 2016 в 08:39

А нужно ли знать программисту алгоритмы?

3 мин

97K

Big Data*Программирование*

Не встречали еще разработчика, который вместо стандартной в скриптовом языке функции деления строки по регулярке — пишет C-подобный код с конечным автоматом, который вводит неокрепшие умы в трепет?

И так ужасно ли то, что ты не знаешь в тонкостях работу красно-черных деревьев или путаешь линейный дискриминантный анализ с вторым законом Ньютона?

Читать дальше →

+43

ITI_Capital 11 мар 2016 в 06:59

Эксперимент: Использование Google Trends для прогнозирования обвалов фондового рынка

4 мин

28K

Блог компании ITI CapitalBig Data*

В нашем блоге на Хабре мы уже рассказывали о различных исследованиях, направленных на создание алгоритмов прогнозирования цен акций, к примеру, с помощью машинного обучения. Еще в 2013 году исследователи из бизнес-школы Уорика (Warwick Business School) опубликовали результаты эксперимента, в ходе которого в качестве инструмента для прогнозирования трендов фондового рынка использовался поисковик Google.

В эпоху интернета огромное количество генерируемой людьми информации доступно онлайн. И из этого шума вполне можно вычленить и нечто полезное. Исследователи убеждены, что в анализе тенденций фондового рынка можно использовать информацию о поисковых запросах.

Читать дальше →

+9

Roman_Kh 10 мар 2016 в 12:18

Знакомьтесь, линейные модели

10 мин

50K

Машинное обучение*Математика*Data Mining*Big Data*

Машинное обучение шагает по планете. Искусственный интеллект, поскрипывая нейронными сетями, постепенно опережает людей в тех задачах, до которых успел дотянуться своими нейронами. Однако не стоит забывать и про простую модель линейной регрессии. Во-первых, потому что на ней построены многие сложные методы машинного обучения, включая нейронные сети. А, во-вторых, потому что зачастую прикладные бизнес-задачи легко, быстро и качественно решаются именно линейными моделями.
И для начала небольшой тест. Можно ли с помощью линейной модели описать:
— зависимость веса человека от его роста?
— длительность ожидания в очереди в магазине в разное время суток?
— посещаемость сайта в фазе экспоненциального роста?
— динамику во времени количества человек, ожидающих поезда на станции метро?
— вероятность, что клиент не оформит заказ на сайте в зависимости от его производительности?
Как вы догадываетесь, на все вопросы ответ будет «Да, можно». Так что линейные модели не так просты, как может показаться на первый взгляд. Поэтому давайте познакомимся с их богатым разнообразием.

Читать дальше →

+27

marks 9 мар 2016 в 14:24

IBM и X Prize Foundation объявили конкурс по искусственному интеллекту с призовым фондом в $5 млн

2 мин

5.5K

Блог компании IBMBig Data*

Корпорация IBM вместе с организацией X Prize Foundation объявили конкурс Watson AI XPRIZE Cognitive Computing Competition. О старте конкурса объявили Дэвид Кенни (David Kenny), руководитель проекта IBM Watson, и Питер Диамандис (Peter Diamandis), председатель Фонда XPRIZE. Изначальная цель конкурса — использование искусственного интеллекта для выполнения прикладных задач, включая решение актуальных для человека проблем. К участию планируется привлечь команды разработчиков со всего мира.

Итоговая цель — объединение творческих умов в единое целое, создание команды, которая сможет генерировать креативные идеи, предлагать пути решения самых разных задач и проблем в медицине, промышленности, научной сфере, бизнесе. У Фонда XPRIZE в плане проведения конкурсов огромный опыт, поэтому IBM и решила объединить усилия с этой организацией.

Читать дальше →

+9

ivankomarov 8 мар 2016 в 16:52

Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2»

7 мин

17K

Big Data*Машинное обучение*

6 дней назад около полуночи мы, команда «EC.Dota2» из четырех человек ( ivankomarov, kolyanzzz, Sergei_Smetanin, AzZzone), начали работать над онлайн частью хакатона «Dota Science». Никто из нас ничего не знал об игре Dota2.

Сначала, хронологически, о первой, «онлайн» части. Есть сетка игр мирового финала «The Shanghai Major 2016». Нужно до матча предсказать его исход. Как показало время (но не описание конкурса), предсказывать нужно было матчи за 3, 4, 5 марта. Для обучения были даны исторические данные о матчах в Dota2 по разным прошлым турнирам с агрегированной информацией о каждом матче. Со среды пришлось начать недосыпать, т.к. все днем работают. Для онлайн этапа были разработаны две модели.

В качестве показателя качества прогноза использовалась следующая метрика: score=log2(p_winner)+1, где p_winner — предсказанная до начала матча вероятность победы команды, которая в результате победила.

Тут стоит сказать несколько слов о целях хакатона. Цель формальная — получить самую высокую относительно других оценку качества прогнозов. Цель, соответствующая смыслу Data Fest — построить самую лучшую, относительно других, модель для прогнозирования исхода матча методами машинного обучения.

Один выступающий в последний день Data Fest 2 (Nuker?) верно заметил, что «задачу машинного обучения всегда можно решить и без машинного обучения» (своими собственными нейронными сетями в голове). Кто использовал модели, кто использовал экспертный опыт, кто просто случайно играл? Неизвестно.

Финальная оценка первого этапа – среднее всех значений метрики качества для предсказанных вероятностей. Как показывает турнирная таблица первого этапа Хакатона, количество предсказаний на «команду» разнилось в 10-20 раз.

Читать дальше →

+18

m31 7 мар 2016 в 23:04

Работа с приватными репозиториями и другие обновления платформы FlyElephant

2 мин

3.8K

Блог компании FlyElephantВысоконагруженные системы*Microsoft Azure*C++*Big Data*

Команда платформы FlyElephant подготовила ряд обновлений, которые позволяют работать с приватными репозиториями, повышают безопасность системы и улучшают работу с задачами.

FlyElephant — это платформа для ученых, которая предоставляет готовую вычислительную инфраструктуру для проведения расчетов, помогает находить партнеров и совместно работать над проектами, а также управлять всеми данными из одного места. FlyElephant автоматизирует рутинные задачи и позволяет сосредоточиться на основных вопросах исследований.

В качестве вычислительного ресурса используется облако Azure. Пользователи могут запускать вычислительные задачи, написанные с помощью С++ (с поддержкой OpenMP), R, Python, Octave, Scilab, Java, Julia, OpenFOAM, GROMACS, Blender на серверах с количеством ядер от 1 до 32 и оперативной памятью до 448 ГБ.

Среди нововведений можно отметить следующие:

Читать дальше →

+7

varagian 7 мар 2016 в 09:27

Введение в практическую аналитику, или что общего у нейронных сетей с таблетками для похудения

8 мин

25K

Машинное обучение*Математика*Data Mining*Big Data*

Сегодня, когда во всех деревнях и сёлах идёт нейрореволюция, мы всё больше убеждаемся, что нейросети — это чистая магия и манна-небесная. Их стали использовать везде и всюду, и даже встроили в Excel. Неявно, при виде сложной задачи многим представляется следующая картина:

И сегодня мы займёмся совмещением приятного с полезным: разберём интересную (практическую) аналитическую задачу и заодно проанализируем ряд факторов, определяющих (не-)применимость нейронных сетей к аналитическим задачам.

Представьте, вы работаете аналитиком в какой-нибудь компании, которой важен её облик на Хабре (условно назовём её Почта.com). И тут к вам приходит девушка из PR-отдела и говорит: "Мы с менеджерами определили в качестве важного KPI нашего бренда Хабра-рейтинг компании. У нас есть бюджет и мы хотим понять, как его распределить, чтобы максимизировать Хабра-индекс. Нам нужно, чтобы ты определил ключевые факторы, которые на него влияют и вывел наиболее разумную стратегию. Попробуй там какие-нибудь нейросети".

Во время этой речи у вас начинает дергаться глаз, но спустя пару минут составляете список вопросов для анализа:

Q₁: Какие ключевые факторы влияют на Хабра-индекс компании?
Q₂: Где найти данные?
Q₃: Какой будет оптимальная стратегия согласно восстановленной эмпирической зависимости?

Структура статьи

Узнать, чем же это всё закончится

+25

Roman_Kh 3 мар 2016 в 03:42

Разбираемся с войной нейронных сетей (GAN)

7 мин

40K

Big Data*Машинное обучение*

Generative adversarial networks (GAN) пользуются все большей популярностью. Многие говорят о них, кто-то даже уже использует… но, как выясняется, пока мало кто (даже из тех кто пользуется) понимает и может объяснить. ;-)
Давайте разберем на самом простом примере, как же они работают, чему учатся и что на самом деле порождают.

Читать дальше →

+15

ilena 29 фев 2016 в 08:13

Где и у кого учиться робототехнике, управлению большими данными, качественной разработке ПО

1 мин

25K

Блог компании Innopolis UniversityВеб-разработка*Big Data*Робототехника

Мы собрали в одном месте все созданные совместно с ПостНаукой краткие обучающие видеоматериалы от профессоров Университета Иннополис.

Если темы вам интересны, добро пожаловать под кат.

Смотреть видео

+12

1 2 ...

168

169 170 ...