Big Data *

Большие данные и всё о них

itmo 22 мая 2017 в 15:02

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

4 мин

15K

Блог компании ИТМОBig Data * Data Mining * Визуализация данных * Открытые данные *

16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Читать дальше →

+15

netologyru 19 мая 2017 в 12:33

Обзор профессии Data Scientist

4 мин

195K

Блог компании НетологияBig Data * Data Mining * Python * R *

Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.

Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности. Но это все лирика. Давайте теперь по делу.

Читать дальше →

kefirr 16 мая 2017 в 10:49

Для чего нужен Apache Ignite / GridGain, на примере .NET & C#

5 мин

44K

Блог компании GridGain.NET * Big Data * Java * SQL *

В последнее время имена GridGain и Apache Ignite нередко мелькают в интернетах. Однако, судя по комментариям (например, здесь), мало кто понимает, что же это за продукт и с чем его едят.

В этой статье я попытаюсь доступным языком объяснить, и на примерах кода показать, что умеет Apache Ignite.

Apache Ignite Logo

Читать дальше →

+17

alex_29 15 мая 2017 в 11:18

Дисциплина, точность, внимание к деталям, часть вторая (OLAP, SSAS)

5 мин

13K

SQL * Microsoft SQL Server * Data Mining * Big Data *

Введение

В этой статье я продолжу рассказ о своем опыте работы с Microsoft Analysis Services. В дополнение к предыдущей статье, я хочу написать про нестандартные решения, которые были сделаны в последнем проекте. Эти решения более тесно сблизили меня с Microsoft Analysis Services, я стал больше его уважать и делать с его помощью то, что ранее мне казалось невероятным.

Читать дальше →

saul 15 мая 2017 в 06:52

Deep Learning против рака. Конкурс Intel

2 мин

5.5K

Блог компании IntelBig Data * Обработка изображений * Программирование *

Рак шейки матки — страшное заболевание, ежегодно уносящее сотни тысяч жизней. Но еще страшнее то, что большинство этих жизней можно было спасти. Рак шейки матки развивается очень медленно, и в случае обнаружения опухоли в первые 5 лет после ее появления шанс выживания практически 100%. Таким образом, регулярные обследования могут извести это заболевание на корню. К сожалению, 85% женщин Земли регулярная медицинская помощь недоступна. Их могут спасти технологии машинного распознавания фотоснимков, снижающие требования к квалификации врачебного персонала и увеличивающие процент правильных диагнозов. Именно такие алгоритмы распознавания и создаются в рамках конкурса программистов Intel & MobileODT Cervical Cancer Screening, в котором мы приглашаем вас поучаствовать.

Читать дальше →

+11

SmirkinDA 13 мая 2017 в 18:42

Рост автономных платформ обработки данных или еще раз про Big Data

10 мин

8.6K

Блог компании ParallelsИнтернет вещейРобототехникаМашинное обучение * Big Data *

Большие данные сегодня, ну, БОЛЬШИЕ. В исследовании IDC за 2016 год под названием «Полугодовое руководство по расходам на большие данные и аналитику» прогнозируется, что общемировой оборот на больших данных вырастет со $130 млрд в 2016-м до более чем $203 млрд в 2020-м, то есть совокупный годовой рост будет на уровне 11,7%. По мнению IDC, росту способствуют три фактора: увеличение доступности гигантских объёмов данных, богатый ассортимент развивающихся open source-технологий для работы с большими данными, культурный сдвиг в бизнес-среде в направлении принятия решений на основе анализа массива данных. Звучит правильно, да? А если допустить, что это не совсем так. Повсюду публикуется множество отчётов о неудачах, постигающих инициативы, связанные с большими данными. В этой статье мы обсудим причины этих неудач, почему решения, принимаемые для исправления ситуации, являются лишь временными мерами, и почему автономные платформы обработки данных являются жизнеспособным долгосрочным решением.

Читать дальше →

+22

ITstaff 12 мая 2017 в 08:30

United Dev Conf 2017: итоги и полезные материалы

2 мин

1.9K

iOS * Android * ReactJS * JavaScript * Big Data *

6-7 апреля в Минске прошла многопрофильная конференция United Dev Conf.

Это первый масштабный опыт для беларусского IT-сообщества, когда конференция объединяет 4 направления и уже знакомые проекты: Highload Dev Conf, Frontend Dev Conf, Mobicode, Marketing and Sales.

Аудитория конференции: разработчики мобильных приложений (iOS, Android, кросс-платформенная разработка), Frontend и HighLoad devs, UI / UX дизайнеры, специалисты по Marketing & Sales, PM и PdM, бизнес-аналитики и CEO IT компаний.

Цель такого эксперимента в создании нетворкинга, где будут задействованы все звенья, работающие в командах над проектом.

Более подробно об итогах и результатах.

anastasiagrishina 11 мая 2017 в 11:20

Введение в OpenCV применительно к распознаванию линий дорожной разметки

7 мин

38K

Блог компании New Professions LabBig Data * Data Mining * Машинное обучение *

Привет, Хабр! Публикуем материал выпускника нашей программы Deep Learning и координатора программы по большим данным, Кирилла Данилюка о его опыте использования фреймворка компьютерного зрения OpenCV для определения линий дорожной разметки.

+13

dukei 4 мая 2017 в 10:51

Часть 3. Где хранить данные децентрализованным приложениям на блокчейне?

8 мин

15K

Криптография * Анализ и проектирование систем * Open source * NoSQL * Big Data *

В первой части статьи мы обнаружили проблемы с хранением данных приложений в блокчейне. Во второй части мы описали требования к хранилищу данных и рассмотрели, насколько существующие реализации отвечают этим требованиям. Результаты были неутешительные — удовлетворительной реализации не нашлось. В данной части мы предложим концепцию децентрализованного хранилища данных, которое удовлетворяет поставленным требованиям. Разумеется, для более глубокого понимания сути происходящего рекомендуется просмотреть две предыдущие части.

Читать дальше →

dukei 3 мая 2017 в 17:47

Часть 2. Где хранить данные децентрализованным приложениям на блокчейне?

8 мин

23K

Криптография * Анализ и проектирование систем * Open source * NoSQL * Big Data *

В первой части статьи была обозначена проблема хранения данных приложений в блокчейне. Для понимания сути происходящего рекомендуем её прочитать. В этой части статьи мы обозначим наши пожелания к свойствам идеального хранилища данных, а также рассмотрим существующие подходы к решению этой проблемы.

Читать дальше →

dukei 2 мая 2017 в 19:46

Часть 1. Где хранить данные децентрализованным приложениям на блокчейне?

5 мин

40K

Криптография * Анализ и проектирование систем * Open source * NoSQL * Big Data *

Сейчас наблюдается бум блокчейн проектов. Некоторые блокчейны настолько мощные, что являются платформой для написания приложений. Приложения автоматически получаются децентрализованными, устойчивыми к цензуре и блокировке. Но действительно ли всё так хорошо и просто? В данной статье мы постараемся посмотреть на блокчейн как платформу для приложений, сняв розовые очки.

Читать дальше →

+18

mary_arti 2 мая 2017 в 15:09

Отчет с Data Fest⁴ 11-12 февраля

2 мин

8.4K

Блог компании VKBig Data * Data Mining * Машинное обучение *

11-12 февраля в нашем московском офисе состоялась четвертая конференция Data Fest⁴, объединившая исследователей, инженеров и разработчиков, связанных с Data Science во всех его проявлениях. Под катом мы подготовили для вас видеоматериалы с конференции.

+30

m31 29 апр 2017 в 08:38

Видеозапись вебинара «Julia — A fresh approach to numerical computing and data science»

1 мин

2.7K

Блог компании FlyElephantBig Data * Data Mining * Julia * Машинное обучение *

Команда FlyElephant в марте проводила вебинар с со-основателем и CEO в Julia Computing, а также со-автором языка Julia — Viral B. Shah, на тему "Julia — A fresh approach to numerical computing and data science".

Смотреть видеозапись и презентацию

a-pichugin 28 апр 2017 в 09:40

Конфигурирование Spark на YARN

5 мин

21K

Блог компании New Professions LabBig Data * Data Mining * Open source * Машинное обучение *

Recovery Mode

Хабр, привет! Вчера на митапе, посвященном Apache Spark, от ребят из Rambler&Co, было довольно много вопросов от участников, связанных с конфигурированием этого инструмента. Решили по его следам поделиться своим опытом. Тема непростая — поэтому предлагаем делиться опытом тоже в комментариях, может быть, мы тоже что-то не так понимаем и используем.

Читать дальше →

SergeyMarin 27 апр 2017 в 22:20

Школа данных: можно ли с помощью Big Data влиять на выборы

4 мин

5.7K

Блог компании Школа ДанныхАлгоритмы * R * Data Mining * Big Data *

Привет, Хабр! Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…

Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.

Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.

Читать дальше →

romovpa 26 апр 2017 в 14:05

Спортивный анализ данных, или как стать специалистом по data science

17 мин

61K

Блог компании ЯндексBig Data * Data Mining * Машинное обучение * Спортивное программирование *

Меня зовут Пётр Ромов, я — data scientist в Yandex Data Factory. В этом посте я предложу сравнительно простой и надежный способ начать карьеру аналитика данных.

Многие из вас наверняка знают или хотя бы слышали про Kaggle. Для тех, кто не слышал: Kaggle — это площадка, на которой компании проводят конкурсы по созданию прогнозирующих моделей. Её популярность столь велика, что часто под «кэглами» специалисты понимают сами конкурсы. Победитель каждого соревнования определяется автоматически — по метрике, которую назначил организатор. Среди прочих, Kaggle в разное время опробовали Facebook, Microsoft и нынешний владелец площадки — Google. Яндекс тоже несколько раз отметился. Как правило, Kaggle-сообществу дают решать задачи, довольно близкие к реальным: это, с одной стороны, делает конкурс интересным, а с другой — продвигает компанию как работодателя с солидными задачами. Впрочем, если вам скажут, что компания-организатор конкурса задействовала в своём сервисе алгоритм одного из победителей, — не верьте. Обычно решения из топа слишком сложны и недостаточно производительны, а погони за тысячными долями значения метрики не настолько и нужны на практике. Поэтому организаторов больше интересуют подходы и идейная часть алгоритмов.

Kaggle — не единственная площадка с соревнованиями по анализу данных. Существуют и другие: DrivenData, DataScience.net, CodaLab. Кроме того, конкурсы проводятся в рамках научных конференций, связанных с машинным обучением: SIGKDD, RecSys, CIKM.

Для успешного решения нужно, с одной стороны, изучить теорию, а с другой — начать практиковать использование различных подходов и моделей. Другими словами, участие в «кэглах» вполне способно сделать из вас аналитика данных. Вопрос — как научиться в них участвовать?

Хардкор

+61

m31 26 апр 2017 в 07:25

Видеозаписи докладов конференции AI&BigDataLab за последние три года

1 мин

3.6K

Блог компании FlyElephantBig Data * Data Mining * R * Машинное обучение *

Через 2 недели, 13 мая в Одессе, команда FlyElephant будет проводить конференцию Data Science Lab. Это будет наша 4-я конференция, которая посвящена искусственному интеллекту, большим данным и науке о данных.

Сегодня я хочу поделиться видеозаписями всех докладов с прошлых конференций. Смотрите, изучайте и делитесь:

+12

mngr 26 апр 2017 в 03:59

Как мы построили облачную инфраструктуру обработки данных для кросс-продуктовой аналитики

10 мин

20K

Блог компании SkyengAmazon Web Services * Big Data * Визуализация данных *

Мы в Skyeng очень много внимания уделяем анализу данных. Он позволяет нам правильно планировать работу и распределять ресурсы между различными задачами. Сегодня разработчик аналитики Глеб Сологуб расскажет, как он собрал для нас инфраструктуру сбора и анализа данных по всему нашему зоопарку сервисов и приложений, уложившись в годовой бюджет 12 тыс долларов.

Читать дальше →

+11

m31 24 апр 2017 в 10:46

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая

2 мин

2.4K

Блог компании FlyElephantBig Data * Data Mining * R * Машинное обучение *

Команда FlyElephant приглашает всех 13 мая в Одессу на IV конференцию по практическому применению науки о данных Data Science Lab (exAI&BigDataLab).

Data Science Lab — это ежегодная техническая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science для обмена опытом и обсуждения актуальных тем в области машинного обучения, обработки естественного языка, распознавания образов и других аспектов анализа данных. Темы докладов раскрывают вопросы от практического внедрения результатов исследований до самых последних теоретических разработок.

Читать дальше →

+22

sat2707 20 апр 2017 в 11:49

Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

4 мин

7.4K

Блог компании VKСпортивное программирование * Машинное обучение * Data Mining * Big Data *

21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.

О платформе ML Boot Camp

ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.

На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.

Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.

В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.

Читать дальше →

+29

1 2 ...

155 156

157

158 159 ...

194 195

Big Data *

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

Обзор профессии Data Scientist

Для чего нужен Apache Ignite / GridGain, на примере .NET & C#

Дисциплина, точность, внимание к деталям, часть вторая (OLAP, SSAS)

Введение

Deep Learning против рака. Конкурс Intel

Рост автономных платформ обработки данных или еще раз про Big Data

United Dev Conf 2017: итоги и полезные материалы

Введение в OpenCV применительно к распознаванию линий дорожной разметки

Часть 3. Где хранить данные децентрализованным приложениям на блокчейне?

Часть 2. Где хранить данные децентрализованным приложениям на блокчейне?

Часть 1. Где хранить данные децентрализованным приложениям на блокчейне?

Отчет с Data Fest⁴ 11-12 февраля

Видеозапись вебинара «Julia — A fresh approach to numerical computing and data science»

Ближайшие события

Конфигурирование Spark на YARN

Школа данных: можно ли с помощью Big Data влиять на выборы

Спортивный анализ данных, или как стать специалистом по data science

Видеозаписи докладов конференции AI&BigDataLab за последние три года

Как мы построили облачную инфраструктуру обработки данных для кросс-продуктовой аналитики

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая

Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

Вклад авторов