Как стать автором
Поиск
Написать публикацию
Обновить
118.86

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Курсы Computer Science клуба, весна 2017

Время на прочтение4 мин
Количество просмотров7K

Computer Science клуб вот уже 10 лет проводит открытые курсы по компьютерным наукам. Большинство лекций стараниями Лекториума записаны на видео и лежат в открытом доступе. В этом семестре выложены уже три новых курса, которые до этого не читались в клубе: «Программирование с зависимыми типами на языке Idris», «Вычисления на GPU. Основные подходы, архитектура, оптимизации», «Методы и системы обработки больших данных».
Читать дальше →

Быстрый старт: обзор основных Deep Learning фреймворков

Время на прочтение6 мин
Количество просмотров25K
Привет, Хабр! Предлагаем вам перевод поста “Getting Started with Deep Learning” от Мэтью Рубашкина из Silicon Valley Data Science о преимуществах и недостатках существующих Deep Learning технологий и о том, какой фреймворк выбрать, учитывая специфику задачи и способности команды.
image
Читать дальше →

Митап по Apache Spark

Время на прочтение2 мин
Количество просмотров4.2K
image

27 апреля на Мансарде RAMBLER&Co пройдет первый митап, посвященный работе с Apache Spark.

Apache Spark уже успел зарекомендовать себя как один из основных фреймворков работы с большими данными и успешно применяется в таких крупных компаниях, как Amazon, Baidu, IBM, Databricks, NASA JPL и TripAdvisor. Нам известно, что и в России Spark используется во многих небольших и в некоторых крупных компаниях, причем весьма результативно.

В Rambler&Co мы уже около года используем Spark почти для всех задач департамента рекламных технологий, связанных с ETL и машинным обучением. Более того, в начале года мы успешно обновились до версии 2.1.0.

На митапе мы бы хотели поделиться нашим опытом внедрения Spark в продакшен, рассказать о проблемах, с которыми мы столкнулись, и обсудить решения, которые применили. Выяснить, какие новые и крутые фишки появились в Spark 2, и какие баги успешно мигрировали из предыдущих версий Ну и, конечно же, познакомиться с другими энтузиастами и практиками этого замечательного инструмента и сделать наше мероприятие регулярным! Приходите, будет интересно!
Читать дальше →

7 кейсов использования технологий Big Data в сфере производства

Время на прочтение5 мин
Количество просмотров17K
Хабр, привет! На сегодняшний день технологии Big Data нашли свое применение практически в любых отраслях: ритейл, банкинг, здравоохранение, и, в свою очередь, сфера производства не стала исключением. Оптимизация производственной цепочки, выявление дефектов и контроль качества продукции, улучшение удобства использования продукта на основе поведения потребителей – неполный список результатов, которых можно достичь в производственной сфере благодаря Big Data. Рассмотрим несколько кейсов зарубежных и отечественных компаний, внедривших технологии больших данных в свою деятельность.
Читать дальше →

У компании есть еще похожие вакансии

Время на прочтение5 мин
Количество просмотров8.6K

2 марта я выступал с докладом на Data Science Meetup, который проходил в нашем офисе. Я рассказал об опыте создания алгоритма по схлопыванию похожих вакансий в поисковой выдаче. По ссылке вы можете ознакомиться с отчетом о прошедшей встрече, там же будут доступны записи выступлений и ссылки на презентации. Для тех же, кто предпочитает воспринимать информацию в текстовом виде, я написал эту статью.


Мы столкнулись с проблемой, когда в поиске по вакансиям выдача заполнялась одинаковыми вакансиями от одного работодателя. Например, по запросу «водитель» посетитель мог получить 30—40 вариантов одной и той же вакансии на одну и ту же позицию.


Читать дальше →

Интеграция XML данных — другой путь

Время на прочтение18 мин
Количество просмотров35K
В данной статье описывается «нетрадиционная», но достаточно мощная технология обработки XML, позволяющая импортировать любые XML-данные и преобразовывать их структуру эффективно и просто, при этом один и тот же процесс обработки позволяет трансформировать исходные данные любой структуры без какого-либо изменения программного кода.
Читать дальше →

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

Время на прочтение4 мин
Количество просмотров7K
Всем привет, я занимаюсь разработкой Frontera, первым в истории фреймворком для масштабного обхода интернета сделанным на Python-е, с открытым исходным кодом. С помощью Фронтеры можно легко сделать робота который сможет выкачивать контент со скоростью тысяч страниц в секунду, при этом следуя вашей стратегии обхода и используя обычную реляционную БД или KV-хранилище для хранения базы ссылок и очереди.

Разработка Фронтеры финансируется компанией Scrapinghub Ltd., имеет полностью открытый исходный код (находится на GitHub, BSD 3-clause лицензия) и модульную архитектуру. Мы стараемся чтобы и процесс разработки тоже был максимально прозрачным и открытым.

В этой статье я собираюсь рассказать о проблемах с которыми мы столкнулись при разработке Фронтеры и эксплуатации роботов на ее основе.
Читать дальше →

«Пятый элемент» в экосистеме R. WYSIWYG интерфейс для аналитиков

Время на прочтение2 мин
Количество просмотров5.5K

Настоящая публикация, хоть и продолжает серию предыдущих, но будет совершенно краткой. И не в силу того, что материал скромный, но потому, что есть отличный первоисточник с массой текстов и видео.


Практика общения с аналитиками показала, что лаконичная консоль или лист программы в RStudio IDE как удобный инструмент начинает восприниматься людьми, воспитанными в подходе WYSIWYG, далеко не с первого дня. Продукты PowerBI\Tableau\Qlik, активно использующие этот подход, хорошо известны в российском информационном пространстве и зачастую аналитики пытаются соотнести R+Shiny с этими продуктами.

Читать дальше →

Обзор Data Science Weekend

Время на прочтение6 мин
Количество просмотров2.1K
Всем привет! 3-4 марта состоялся Data Science Weekend, который организовывала вот уже третий раз наша компания при поддержке GVA. Для тех, кто не был на мероприятии, мы подготовили краткий обзор того, что происходило.

image
Читать дальше →

Зашифрованные почтовые сервисы: что выбрать?

Время на прочтение6 мин
Количество просмотров79K
Константин Докучаев, автора блога All-in-One Person и телеграм-канала @themarfa, рассказал специально для «Нетологии» о двух почтовых сервисах: Tutanota и ProtonMail и объяснил, какой из них выбрать и почему.

image

Сегодня уже не так часто услышишь о важности частной переписки, о методах её защиты и шифровании переписки. Но я всё равно решил взглянуть на два популярных почтовых сервиса с end-to-end шифрованием: Tutanota и ProtonMail. Они предлагают безопасную переписку с шифрованием всех писем. Давайте разберём подробно, что дают оба сервиса, и стоит ли прятать свою переписку от ФСБ или других спецслужб и конкурентов.
Читать дальше →

«Сложную архитектуру очень просто сделать» — интервью с Олегом Анастасьевым из Одноклассников

Время на прочтение25 мин
Количество просмотров22K


Знакомьтесь, Олег Анастасьев — ведущий разработчик Одноклассников, спикер на конференциях по Java и Cassandra, эксперт в области распределенных и отказоустойчивых систем. С Олегом мы поговорили о следующем:

  • Что не так с термином «архитектор»
  • Зачем Одноклассникам 11 000 серверов
  • Как выглядят учения по ликвидации аварий
  • Что такое «Правило большого З»
  • Как в Одноклассниках используют Cassandra
  • В чём для современной компании сложности с размещением кода в Open Source
  • Как в Одноклассниках работают с Big Data




Как всегда, под катом — полная текстовая расшифровка беседы.
Читать дальше →

Использование ArcGIS API for Python в Jupyter Notebook

Время на прочтение6 мин
Количество просмотров20K


Всем привет! Это блог компании "Техносерв". В процессе производства на проектах, которые мы выполняем, рождаются интересные технологические кейсы. Их скопилось такое количество, что мы решили начать делиться ими с миром. И да, это наша первая публикация.


Честь начать блог выпала мне, и я пишу о том, что мне близко и любимо: о геоинформационных технологиях. Я работаю в департаменте Больших Данных, где занимаюсь разработкой высоконагруженных геоинформационных систем и сервисов на базе движков для распределенных вычислений. О высоких материях мы еще поговорим, а сегодня плавно начнем погружение в ГИС.


Все чаще и чаще у аналитиков данных (или как еще их называют — Data Scientist) появляется потребность в визуализации данных на карте. Какой инструмент сейчас считается наиболее удобным для работы аналитика? Конечно же, тетрадки! До последнего времени возможностей по визуализации геоданных было не так много. Можно было делать статические растры в matplotlib, иногда можно было добавлять даже базовые карты. Интересной оказалась библиотека для работы с Leaflet, где можно открывать geojson-файлы. Сегодня же я хочу рассказать об ArcGIS API for Python от компании Esri.


Эта статья будет полезна как аналитикам, желающим изучить примеры работы с ГИС, так и картографам и ГИС-специалистам, которым интересно попробовать себя в написании кода.


Читать дальше →

Data Science Weekend. Презентации спикеров

Время на прочтение1 мин
Количество просмотров4.3K
Хабр, привет! 3-4 марта команда New Professions Lab провела в Москве Data Science Weekend. Как и обещали, публикуем презентации наших спикеров. Если вы хотите получить доступ к видео выступлений, заполните, пожалуйста, короткую форму здесь.

image
Читать дальше →

Ближайшие события

Superjob Data Science Meetup (отчет, презентации, видео)

Время на прочтение2 мин
Количество просмотров4.6K
Видео, доклады и краткий отчет для тех, кто не приехал и не успел посмотреть прямую трансляцию.

В офисе Superjob состоялся Data Science Meetup. Послушать доклады пришли около ста аналитиков и разработчиков, включая специалистов из Renault, Тинькофф банк, Эльдорадо, SAP, Вымпелком, Delloite, ВТБ и тд. Около 500 человек смотрели прямую трансляцию.

image

Вебинар: Julia — A fresh approach to numerical computing and data science

Время на прочтение1 мин
Количество просмотров2.1K


Команда FlyElephant приглашает всех на вебинар "Julia — A fresh approach to numerical computing and data science", который проведет со-основатель и CEO в Julia Computing, а также со-автор языка Julia — Viral B. Shah.

Вебинар будет проходить 20 марта в 19:00 (EET) / 9:00 am (PST). Язык — английский.

Все подробности и регистрация здесь

Обзор буткэмпов в области data science за рубежом

Время на прочтение3 мин
Количество просмотров5K
Хабр, привет. Последнее время в мире образования стали пользоваться популярностью, так называемые, bootcamps. Например, по этой ссылке неплохо описано, что такое bootcamp в области программирования и чем это отличается от привычных образовательных программ в университетах.

Буткэмп — это техническая образовательная программа, которая направлена на то, чтобы научить участников наиболее релевантным рынку навыкам. Это позволяет участникам с небольшим опытом в программировании сфокусироваться на тех аспектах программирования, которые можно применить здесь и сейчас для решения реальных проблем.

Мы решили сосредоточиться и подготовить обзор нескольких буткэмпов за рубежом в области data science, являющихся наиболее известными и находящихся на рынке уже несколько лет.
Читать дальше →

ВВС США используют нейроморфный чип IBM для обнаружения танков и наземных систем ПВО

Время на прочтение4 мин
Количество просмотров14K


Современные технологии очень интересуют военных. Не секрет, что многие технологии сначала создавались для военных нужд, а потом уже появлялись и в обычной жизни мирных граждан. Сейчас военно-воздушные силы США тестируют в полевых условиях нейроморфный чип, созданный силами специалистов IBM. Об этом чипе уже публиковалась информация в блоге нашей компании. Он может использоваться в самых разных целях, и одна из них — обнаружение и идентификация определенных объектов.

ВВС США, а именно Air Force Research Lab (AFRL), использует возможности процессора для идентификации военных и гражданских транспортных средств при радиолокации с воздуха. Военные утверждают, что чип работает не хуже, чем мощный военный компьютер. Но энергии при этом потребляется в двадцать раз меньше.
Читать дальше →

Учиться можно увлекательно, учиться можно эффективно

Время на прочтение4 мин
Количество просмотров4K
Привет, Хабр! Поднимите руку те, кто уже подустал немного от этого шума, связанного с Big Data?

Мне тоже кажется, что эта тема всем слегка поднадоела уже. Каждую неделю по этой теме вываливается большое количество статей на Хабре, на Medium, на Facebook, на LinkedIn, на куче других тематических сайтов, которые присылают письма на почтовый ящик. Каждый желает поделиться своим опытом, своими мыслями, своими планами, делая этот поток информации невыносимым.
Читать дальше →

Дисциплина, Точность, Внимание к деталям

Время на прочтение5 мин
Количество просмотров6.7K

Введение:


В этой статье речь пойдет о работе с Microsoft Analysis Services и немного о хранилище на Microsoft SQL Server, с которым SSAS работает. Мне пришлось столкнуться с не совсем тривиальными вещами и порой приходилось “прыгать через голову” ради того, чтобы сделать то, что от меня хотят. Работать приходилось в перерывах между совещаниями. Порой новый функционал обсуждался дольше, чем разрабатывался. Часто на совещаниях, по несколько раз, приходилось рассказывать одно и тоже. Когда я сказал, что мне сложно совещаться дольше одного часа, на меня посмотрели с удивлением и непониманием. Во многом, благодаря такой обстановке и появились эти, не совсем тривиальные вещи, о которых я решил написать.
Читать дальше →

Power BI Embedded, IoT и машинное обучение для обработки термограмм мозга

Время на прочтение7 мин
Количество просмотров7.1K
Каждую неделю в Microsoft появляются кейсы, посвящённые разработке решений для компаний, университетов и даже государств. Мы решили поделиться с вами самыми интересными из них и начать серию статей «Microsoft Technical Case Studies». В первом материале вы узнаете про IoT-решение для обработки изображений «теплового тоннеля мозга» (Brain Temperature Tunnel) согласно методике, основанной на исследованиях доктора Марка Абреу (Marc Abreu) из Йельского университета.


Читать дальше →

Вклад авторов