Big Data *

Большие данные и всё о них

avsmal 10 апр 2017 в 12:21

Курсы Computer Science клуба, весна 2017

4 мин

Блог компании Образовательные проекты JetBrainsBig Data*GPGPU*Функциональное программирование*

Computer Science клуб вот уже 10 лет проводит открытые курсы по компьютерным наукам. Большинство лекций стараниями Лекториума записаны на видео и лежат в открытом доступе. В этом семестре выложены уже три новых курса, которые до этого не читались в клубе: «Программирование с зависимыми типами на языке Idris», «Вычисления на GPU. Основные подходы, архитектура, оптимизации», «Методы и системы обработки больших данных».

Читать дальше →

+29

anastasiagrishina 6 апр 2017 в 11:02

Быстрый старт: обзор основных Deep Learning фреймворков

6 мин

25K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Привет, Хабр! Предлагаем вам перевод поста “Getting Started with Deep Learning” от Мэтью Рубашкина из Silicon Valley Data Science о преимуществах и недостатках существующих Deep Learning технологий и о том, какой фреймворк выбрать, учитывая специфику задачи и способности команды.

Читать дальше →

+17

SanDark7 4 апр 2017 в 09:00

Митап по Apache Spark

2 мин

4.2K

Блог компании Rambler&CoМашинное обучение*Scala*Python*Big Data*

27 апреля на Мансарде RAMBLER&Co пройдет первый митап, посвященный работе с Apache Spark.

Apache Spark уже успел зарекомендовать себя как один из основных фреймворков работы с большими данными и успешно применяется в таких крупных компаниях, как Amazon, Baidu, IBM, Databricks, NASA JPL и TripAdvisor. Нам известно, что и в России Spark используется во многих небольших и в некоторых крупных компаниях, причем весьма результативно.

В Rambler&Co мы уже около года используем Spark почти для всех задач департамента рекламных технологий, связанных с ETL и машинным обучением. Более того, в начале года мы успешно обновились до версии 2.1.0.

На митапе мы бы хотели поделиться нашим опытом внедрения Spark в продакшен, рассказать о проблемах, с которыми мы столкнулись, и обсудить решения, которые применили. Выяснить, какие новые и крутые фишки появились в Spark 2, и какие баги успешно мигрировали из предыдущих версий Ну и, конечно же, познакомиться с другими энтузиастами и практиками этого замечательного инструмента и сделать наше мероприятие регулярным! Приходите, будет интересно!

Читать дальше →

anastasiagrishina 3 апр 2017 в 12:39

7 кейсов использования технологий Big Data в сфере производства

5 мин

17K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Recovery Mode

Хабр, привет! На сегодняшний день технологии Big Data нашли свое применение практически в любых отраслях: ритейл, банкинг, здравоохранение, и, в свою очередь, сфера производства не стала исключением. Оптимизация производственной цепочки, выявление дефектов и контроль качества продукции, улучшение удобства использования продукта на основе поведения потребителей – неполный список результатов, которых можно достичь в производственной сфере благодаря Big Data. Рассмотрим несколько кейсов зарубежных и отечественных компаний, внедривших технологии больших данных в свою деятельность.

Читать дальше →

korzhik 30 мар 2017 в 15:50

У компании есть еще похожие вакансии

5 мин

8.6K

Блог компании SuperJobBig Data*PHP*Машинное обучение*

2 марта я выступал с докладом на Data Science Meetup, который проходил в нашем офисе. Я рассказал об опыте создания алгоритма по схлопыванию похожих вакансий в поисковой выдаче. По ссылке вы можете ознакомиться с отчетом о прошедшей встрече, там же будут доступны записи выступлений и ссылки на презентации. Для тех же, кто предпочитает воспринимать информацию в текстовом виде, я написал эту статью.

Мы столкнулись с проблемой, когда в поиске по вакансиям выдача заполнялась одинаковыми вакансиями от одного работодателя. Например, по запросу «водитель» посетитель мог получить 30—40 вариантов одной и той же вакансии на одну и ту же позицию.

Читать дальше →

ABIDB 29 мар 2017 в 15:00

Интеграция XML данных — другой путь

18 мин

35K

Big Data*XML*Анализ и проектирование систем*

Из песочницы

В данной статье описывается «нетрадиционная», но достаточно мощная технология обработки XML, позволяющая импортировать любые XML-данные и преобразовывать их структуру эффективно и просто, при этом один и тот же процесс обработки позволяет трансформировать исходные данные любой структуры без какого-либо изменения программного кода.

Читать дальше →

+11

asibiryakov 29 мар 2017 в 12:16

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

4 мин

Big Data*Анализ и проектирование систем*Высоконагруженные системы*

Из песочницы

Всем привет, я занимаюсь разработкой Frontera, первым в истории фреймворком для масштабного обхода интернета сделанным на Python-е, с открытым исходным кодом. С помощью Фронтеры можно легко сделать робота который сможет выкачивать контент со скоростью тысяч страниц в секунду, при этом следуя вашей стратегии обхода и используя обычную реляционную БД или KV-хранилище для хранения базы ссылок и очереди.

Разработка Фронтеры финансируется компанией Scrapinghub Ltd., имеет полностью открытый исходный код (находится на GitHub, BSD 3-clause лицензия) и модульную архитектуру. Мы стараемся чтобы и процесс разработки тоже был максимально прозрачным и открытым.

В этой статье я собираюсь рассказать о проблемах с которыми мы столкнулись при разработке Фронтеры и эксплуатации роботов на ее основе.

Читать дальше →

+13

i_shutov 29 мар 2017 в 06:26

«Пятый элемент» в экосистеме R. WYSIWYG интерфейс для аналитиков

2 мин

5.5K

R*Data Mining*Big Data*

Настоящая публикация, хоть и продолжает серию предыдущих, но будет совершенно краткой. И не в силу того, что материал скромный, но потому, что есть отличный первоисточник с массой текстов и видео.

Практика общения с аналитиками показала, что лаконичная консоль или лист программы в RStudio IDE как удобный инструмент начинает восприниматься людьми, воспитанными в подходе WYSIWYG, далеко не с первого дня. Продукты PowerBI\Tableau\Qlik, активно использующие этот подход, хорошо известны в российском информационном пространстве и зачастую аналитики пытаются соотнести R+Shiny с этими продуктами.

Читать дальше →

anastasiagrishina 22 мар 2017 в 16:11

Обзор Data Science Weekend

6 мин

2.1K

Блог компании New Professions LabBig Data*Data Mining*Машинное обучение*

Всем привет! 3-4 марта состоялся Data Science Weekend, который организовывала вот уже третий раз наша компания при поддержке GVA. Для тех, кто не был на мероприятии, мы подготовили краткий обзор того, что происходило.

Читать дальше →

-1

netologyru 22 мар 2017 в 15:47

Зашифрованные почтовые сервисы: что выбрать?

6 мин

79K

Блог компании НетологияМессенджеры*Криптография*Информационная безопасность*Big Data*

Константин Докучаев, автора блога All-in-One Person и телеграм-канала @themarfa, рассказал специально для «Нетологии» о двух почтовых сервисах: Tutanota и ProtonMail и объяснил, какой из них выбрать и почему.

Сегодня уже не так часто услышишь о важности частной переписки, о методах её защиты и шифровании переписки. Но я всё равно решил взглянуть на два популярных почтовых сервиса с end-to-end шифрованием: Tutanota и ProtonMail. Они предлагают безопасную переписку с шифрованием всех писем. Давайте разберём подробно, что дают оба сервиса, и стоит ли прятать свою переписку от ФСБ или других спецслужб и конкурентов.

Читать дальше →

+11

23derevo 21 мар 2017 в 13:16

«Сложную архитектуру очень просто сделать» — интервью с Олегом Анастасьевым из Одноклассников

25 мин

22K

Блог компании JUG Ru GroupBig Data*Java*Анализ и проектирование систем*Высоконагруженные системы*

Знакомьтесь, Олег Анастасьев — ведущий разработчик Одноклассников, спикер на конференциях по Java и Cassandra, эксперт в области распределенных и отказоустойчивых систем. С Олегом мы поговорили о следующем:

Что не так с термином «архитектор»
Зачем Одноклассникам 11 000 серверов
Как выглядят учения по ликвидации аварий
Что такое «Правило большого З»
Как в Одноклассниках используют Cassandra
В чём для современной компании сложности с размещением кода в Open Source
Как в Одноклассниках работают с Big Data

Как всегда, под катом — полная текстовая расшифровка беседы.

Читать дальше →

+53

fall_out_bug 21 мар 2017 в 08:47

Использование ArcGIS API for Python в Jupyter Notebook

6 мин

20K

Блог компании Холдинг Т1Big Data*Python*Визуализация данных*Геоинформационные сервисы*

Туториал

Всем привет! Это блог компании "Техносерв". В процессе производства на проектах, которые мы выполняем, рождаются интересные технологические кейсы. Их скопилось такое количество, что мы решили начать делиться ими с миром. И да, это наша первая публикация.

Честь начать блог выпала мне, и я пишу о том, что мне близко и любимо: о геоинформационных технологиях. Я работаю в департаменте Больших Данных, где занимаюсь разработкой высоконагруженных геоинформационных систем и сервисов на базе движков для распределенных вычислений. О высоких материях мы еще поговорим, а сегодня плавно начнем погружение в ГИС.

Все чаще и чаще у аналитиков данных (или как еще их называют — Data Scientist) появляется потребность в визуализации данных на карте. Какой инструмент сейчас считается наиболее удобным для работы аналитика? Конечно же, тетрадки! До последнего времени возможностей по визуализации геоданных было не так много. Можно было делать статические растры в matplotlib, иногда можно было добавлять даже базовые карты. Интересной оказалась библиотека для работы с Leaflet, где можно открывать geojson-файлы. Сегодня же я хочу рассказать об ArcGIS API for Python от компании Esri.

Эта статья будет полезна как аналитикам, желающим изучить примеры работы с ГИС, так и картографам и ГИС-специалистам, которым интересно попробовать себя в написании кода.

Читать дальше →

+23

anastasiagrishina 16 мар 2017 в 10:12

Data Science Weekend. Презентации спикеров

1 мин

4.3K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Хабр, привет! 3-4 марта команда New Professions Lab провела в Москве Data Science Weekend. Как и обещали, публикуем презентации наших спикеров. Если вы хотите получить доступ к видео выступлений, заполните, пожалуйста, короткую форму здесь.

Читать дальше →

matvey_travkin 15 мар 2017 в 14:39

Superjob Data Science Meetup (отчет, презентации, видео)

2 мин

4.6K

Блог компании SuperJobData Mining*Big Data*

Видео, доклады и краткий отчет для тех, кто не приехал и не успел посмотреть прямую трансляцию.

В офисе Superjob состоялся Data Science Meetup. Послушать доклады пришли около ста аналитиков и разработчиков, включая специалистов из Renault, Тинькофф банк, Эльдорадо, SAP, Вымпелком, Delloite, ВТБ и тд. Около 500 человек смотрели прямую трансляцию.

m31 13 мар 2017 в 19:59

Вебинар: Julia — A fresh approach to numerical computing and data science

1 мин

2.1K

Блог компании FlyElephantBig Data*Data Mining*Julia*Машинное обучение*

Команда FlyElephant приглашает всех на вебинар "Julia — A fresh approach to numerical computing and data science", который проведет со-основатель и CEO в Julia Computing, а также со-автор языка Julia — Viral B. Shah.

Вебинар будет проходить 20 марта в 19:00 (EET) / 9:00 am (PST). Язык — английский.

Все подробности и регистрация здесь

anastasiagrishina 13 мар 2017 в 11:30

Обзор буткэмпов в области data science за рубежом

3 мин

Блог компании New Professions LabBig Data*Data Mining*Машинное обучение*

Хабр, привет. Последнее время в мире образования стали пользоваться популярностью, так называемые, bootcamps. Например, по этой ссылке неплохо описано, что такое bootcamp в области программирования и чем это отличается от привычных образовательных программ в университетах.

Буткэмп — это техническая образовательная программа, которая направлена на то, чтобы научить участников наиболее релевантным рынку навыкам. Это позволяет участникам с небольшим опытом в программировании сфокусироваться на тех аспектах программирования, которые можно применить здесь и сейчас для решения реальных проблем.

Мы решили сосредоточиться и подготовить обзор нескольких буткэмпов за рубежом в области data science, являющихся наиболее известными и находящихся на рынке уже несколько лет.

Читать дальше →

ibm 12 мар 2017 в 20:16

ВВС США используют нейроморфный чип IBM для обнаружения танков и наземных систем ПВО

4 мин

14K

Блог компании IBMBig Data*Алгоритмы*

Современные технологии очень интересуют военных. Не секрет, что многие технологии сначала создавались для военных нужд, а потом уже появлялись и в обычной жизни мирных граждан. Сейчас военно-воздушные силы США тестируют в полевых условиях нейроморфный чип, созданный силами специалистов IBM. Об этом чипе уже публиковалась информация в блоге нашей компании. Он может использоваться в самых разных целях, и одна из них — обнаружение и идентификация определенных объектов.

ВВС США, а именно Air Force Research Lab (AFRL), использует возможности процессора для идентификации военных и гражданских транспортных средств при радиолокации с воздуха. Военные утверждают, что чип работает не хуже, чем мощный военный компьютер. Но энергии при этом потребляется в двадцать раз меньше.

Читать дальше →

+31

a-pichugin 9 мар 2017 в 15:21

Учиться можно увлекательно, учиться можно эффективно

4 мин

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Привет, Хабр! Поднимите руку те, кто уже подустал немного от этого шума, связанного с Big Data?

Мне тоже кажется, что эта тема всем слегка поднадоела уже. Каждую неделю по этой теме вываливается большое количество статей на Хабре, на Medium, на Facebook, на LinkedIn, на куче других тематических сайтов, которые присылают письма на почтовый ящик. Каждый желает поделиться своим опытом, своими мыслями, своими планами, делая этот поток информации невыносимым.

Читать дальше →

-3

alex_29 6 мар 2017 в 08:07

Дисциплина, Точность, Внимание к деталям

5 мин

6.7K

Промышленное программирование*SQL*Microsoft SQL Server*Data Mining*Big Data*

Введение:

В этой статье речь пойдет о работе с Microsoft Analysis Services и немного о хранилище на Microsoft SQL Server, с которым SSAS работает. Мне пришлось столкнуться с не совсем тривиальными вещами и порой приходилось “прыгать через голову” ради того, чтобы сделать то, что от меня хотят. Работать приходилось в перерывах между совещаниями. Порой новый функционал обсуждался дольше, чем разрабатывался. Часто на совещаниях, по несколько раз, приходилось рассказывать одно и тоже. Когда я сказал, что мне сложно совещаться дольше одного часа, на меня посмотрели с удивлением и непониманием. Во многом, благодаря такой обстановке и появились эти, не совсем тривиальные вещи, о которых я решил написать.

Читать дальше →

+10

Schvepsss 6 мар 2017 в 07:38

Power BI Embedded, IoT и машинное обучение для обработки термограмм мозга

7 мин

7.1K

Блог компании MicrosoftBig Data*Машинное обучение*Интернет вещей

Перевод

Каждую неделю в Microsoft появляются кейсы, посвящённые разработке решений для компаний, университетов и даже государств. Мы решили поделиться с вами самыми интересными из них и начать серию статей «Microsoft Technical Case Studies». В первом материале вы узнаете про IoT-решение для обработки изображений «теплового тоннеля мозга» (Brain Temperature Tunnel) согласно методике, основанной на исследованиях доктора Марка Абреу (Marc Abreu) из Йельского университета.

Читать дальше →

+13

1 2 ...

156 157

158

159 160 ...

194 195

Big Data *

Курсы Computer Science клуба, весна 2017

Быстрый старт: обзор основных Deep Learning фреймворков

Митап по Apache Spark

7 кейсов использования технологий Big Data в сфере производства

У компании есть еще похожие вакансии

Интеграция XML данных — другой путь

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

«Пятый элемент» в экосистеме R. WYSIWYG интерфейс для аналитиков

Обзор Data Science Weekend

Зашифрованные почтовые сервисы: что выбрать?

«Сложную архитектуру очень просто сделать» — интервью с Олегом Анастасьевым из Одноклассников

Использование ArcGIS API for Python в Jupyter Notebook

Data Science Weekend. Презентации спикеров

Ближайшие события

Superjob Data Science Meetup (отчет, презентации, видео)

Вебинар: Julia — A fresh approach to numerical computing and data science

Обзор буткэмпов в области data science за рубежом

ВВС США используют нейроморфный чип IBM для обнаружения танков и наземных систем ПВО

Учиться можно увлекательно, учиться можно эффективно

Дисциплина, Точность, Внимание к деталям

Введение:

Power BI Embedded, IoT и машинное обучение для обработки термограмм мозга

Вклад авторов