Как стать автором
Поиск
Написать публикацию
Обновить
79.58

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

«Пятый элемент» в экосистеме R. WYSIWYG интерфейс для аналитиков

Время на прочтение2 мин
Количество просмотров5.5K

Настоящая публикация, хоть и продолжает серию предыдущих, но будет совершенно краткой. И не в силу того, что материал скромный, но потому, что есть отличный первоисточник с массой текстов и видео.


Практика общения с аналитиками показала, что лаконичная консоль или лист программы в RStudio IDE как удобный инструмент начинает восприниматься людьми, воспитанными в подходе WYSIWYG, далеко не с первого дня. Продукты PowerBI\Tableau\Qlik, активно использующие этот подход, хорошо известны в российском информационном пространстве и зачастую аналитики пытаются соотнести R+Shiny с этими продуктами.

Читать дальше →

Обзор Data Science Weekend

Время на прочтение6 мин
Количество просмотров2.1K
Всем привет! 3-4 марта состоялся Data Science Weekend, который организовывала вот уже третий раз наша компания при поддержке GVA. Для тех, кто не был на мероприятии, мы подготовили краткий обзор того, что происходило.

image
Читать дальше →

Зашифрованные почтовые сервисы: что выбрать?

Время на прочтение6 мин
Количество просмотров79K
Константин Докучаев, автора блога All-in-One Person и телеграм-канала @themarfa, рассказал специально для «Нетологии» о двух почтовых сервисах: Tutanota и ProtonMail и объяснил, какой из них выбрать и почему.

image

Сегодня уже не так часто услышишь о важности частной переписки, о методах её защиты и шифровании переписки. Но я всё равно решил взглянуть на два популярных почтовых сервиса с end-to-end шифрованием: Tutanota и ProtonMail. Они предлагают безопасную переписку с шифрованием всех писем. Давайте разберём подробно, что дают оба сервиса, и стоит ли прятать свою переписку от ФСБ или других спецслужб и конкурентов.
Читать дальше →

«Сложную архитектуру очень просто сделать» — интервью с Олегом Анастасьевым из Одноклассников

Время на прочтение25 мин
Количество просмотров22K


Знакомьтесь, Олег Анастасьев — ведущий разработчик Одноклассников, спикер на конференциях по Java и Cassandra, эксперт в области распределенных и отказоустойчивых систем. С Олегом мы поговорили о следующем:

  • Что не так с термином «архитектор»
  • Зачем Одноклассникам 11 000 серверов
  • Как выглядят учения по ликвидации аварий
  • Что такое «Правило большого З»
  • Как в Одноклассниках используют Cassandra
  • В чём для современной компании сложности с размещением кода в Open Source
  • Как в Одноклассниках работают с Big Data




Как всегда, под катом — полная текстовая расшифровка беседы.
Читать дальше →

Использование ArcGIS API for Python в Jupyter Notebook

Время на прочтение6 мин
Количество просмотров20K


Всем привет! Это блог компании "Техносерв". В процессе производства на проектах, которые мы выполняем, рождаются интересные технологические кейсы. Их скопилось такое количество, что мы решили начать делиться ими с миром. И да, это наша первая публикация.


Честь начать блог выпала мне, и я пишу о том, что мне близко и любимо: о геоинформационных технологиях. Я работаю в департаменте Больших Данных, где занимаюсь разработкой высоконагруженных геоинформационных систем и сервисов на базе движков для распределенных вычислений. О высоких материях мы еще поговорим, а сегодня плавно начнем погружение в ГИС.


Все чаще и чаще у аналитиков данных (или как еще их называют — Data Scientist) появляется потребность в визуализации данных на карте. Какой инструмент сейчас считается наиболее удобным для работы аналитика? Конечно же, тетрадки! До последнего времени возможностей по визуализации геоданных было не так много. Можно было делать статические растры в matplotlib, иногда можно было добавлять даже базовые карты. Интересной оказалась библиотека для работы с Leaflet, где можно открывать geojson-файлы. Сегодня же я хочу рассказать об ArcGIS API for Python от компании Esri.


Эта статья будет полезна как аналитикам, желающим изучить примеры работы с ГИС, так и картографам и ГИС-специалистам, которым интересно попробовать себя в написании кода.


Читать дальше →

Data Science Weekend. Презентации спикеров

Время на прочтение1 мин
Количество просмотров4.3K
Хабр, привет! 3-4 марта команда New Professions Lab провела в Москве Data Science Weekend. Как и обещали, публикуем презентации наших спикеров. Если вы хотите получить доступ к видео выступлений, заполните, пожалуйста, короткую форму здесь.

image
Читать дальше →

Superjob Data Science Meetup (отчет, презентации, видео)

Время на прочтение2 мин
Количество просмотров4.6K
Видео, доклады и краткий отчет для тех, кто не приехал и не успел посмотреть прямую трансляцию.

В офисе Superjob состоялся Data Science Meetup. Послушать доклады пришли около ста аналитиков и разработчиков, включая специалистов из Renault, Тинькофф банк, Эльдорадо, SAP, Вымпелком, Delloite, ВТБ и тд. Около 500 человек смотрели прямую трансляцию.

image

Вебинар: Julia — A fresh approach to numerical computing and data science

Время на прочтение1 мин
Количество просмотров2.1K


Команда FlyElephant приглашает всех на вебинар "Julia — A fresh approach to numerical computing and data science", который проведет со-основатель и CEO в Julia Computing, а также со-автор языка Julia — Viral B. Shah.

Вебинар будет проходить 20 марта в 19:00 (EET) / 9:00 am (PST). Язык — английский.

Все подробности и регистрация здесь

Обзор буткэмпов в области data science за рубежом

Время на прочтение3 мин
Количество просмотров5K
Хабр, привет. Последнее время в мире образования стали пользоваться популярностью, так называемые, bootcamps. Например, по этой ссылке неплохо описано, что такое bootcamp в области программирования и чем это отличается от привычных образовательных программ в университетах.

Буткэмп — это техническая образовательная программа, которая направлена на то, чтобы научить участников наиболее релевантным рынку навыкам. Это позволяет участникам с небольшим опытом в программировании сфокусироваться на тех аспектах программирования, которые можно применить здесь и сейчас для решения реальных проблем.

Мы решили сосредоточиться и подготовить обзор нескольких буткэмпов за рубежом в области data science, являющихся наиболее известными и находящихся на рынке уже несколько лет.
Читать дальше →

ВВС США используют нейроморфный чип IBM для обнаружения танков и наземных систем ПВО

Время на прочтение4 мин
Количество просмотров14K


Современные технологии очень интересуют военных. Не секрет, что многие технологии сначала создавались для военных нужд, а потом уже появлялись и в обычной жизни мирных граждан. Сейчас военно-воздушные силы США тестируют в полевых условиях нейроморфный чип, созданный силами специалистов IBM. Об этом чипе уже публиковалась информация в блоге нашей компании. Он может использоваться в самых разных целях, и одна из них — обнаружение и идентификация определенных объектов.

ВВС США, а именно Air Force Research Lab (AFRL), использует возможности процессора для идентификации военных и гражданских транспортных средств при радиолокации с воздуха. Военные утверждают, что чип работает не хуже, чем мощный военный компьютер. Но энергии при этом потребляется в двадцать раз меньше.
Читать дальше →

Учиться можно увлекательно, учиться можно эффективно

Время на прочтение4 мин
Количество просмотров4K
Привет, Хабр! Поднимите руку те, кто уже подустал немного от этого шума, связанного с Big Data?

Мне тоже кажется, что эта тема всем слегка поднадоела уже. Каждую неделю по этой теме вываливается большое количество статей на Хабре, на Medium, на Facebook, на LinkedIn, на куче других тематических сайтов, которые присылают письма на почтовый ящик. Каждый желает поделиться своим опытом, своими мыслями, своими планами, делая этот поток информации невыносимым.
Читать дальше →

Дисциплина, Точность, Внимание к деталям

Время на прочтение5 мин
Количество просмотров6.7K

Введение:


В этой статье речь пойдет о работе с Microsoft Analysis Services и немного о хранилище на Microsoft SQL Server, с которым SSAS работает. Мне пришлось столкнуться с не совсем тривиальными вещами и порой приходилось “прыгать через голову” ради того, чтобы сделать то, что от меня хотят. Работать приходилось в перерывах между совещаниями. Порой новый функционал обсуждался дольше, чем разрабатывался. Часто на совещаниях, по несколько раз, приходилось рассказывать одно и тоже. Когда я сказал, что мне сложно совещаться дольше одного часа, на меня посмотрели с удивлением и непониманием. Во многом, благодаря такой обстановке и появились эти, не совсем тривиальные вещи, о которых я решил написать.
Читать дальше →

Power BI Embedded, IoT и машинное обучение для обработки термограмм мозга

Время на прочтение7 мин
Количество просмотров7.1K
Каждую неделю в Microsoft появляются кейсы, посвящённые разработке решений для компаний, университетов и даже государств. Мы решили поделиться с вами самыми интересными из них и начать серию статей «Microsoft Technical Case Studies». В первом материале вы узнаете про IoT-решение для обработки изображений «теплового тоннеля мозга» (Brain Temperature Tunnel) согласно методике, основанной на исследованиях доктора Марка Абреу (Marc Abreu) из Йельского университета.


Читать дальше →

Ближайшие события

Vertica+Anchor Modeling = запусти рост своей грибницы

Время на прочтение5 мин
Количество просмотров35K
Какое-то время назад я написал статью на Хабре. В ней же пообещал продолжение через пару недель. Но, как известно, обещанного три года ждут  —  и с тех пор действительно прошло три года. Если вы не запомнили со времён той статьи, то напомню  —  я работаю в Avito, строю хранилище на основе Vertica.
Из того, что поменялось — теперь я могу не просто написать статью, а сделать это в блоге компании. И, надеюсь, не один раз. Самопиар окончен, теперь к делу.


Читать дальше →

Superjob Data Science Meetup. Прямая трансляция

Время на прочтение1 мин
Количество просмотров2.8K
Специально для тех, кто не успел зарегистрироваться на Superjob Data Science Meetup, мы организуем прямую трансляцию события на Youtube или Facebook.

Начало в 19:00 по московскому времени.
image
Читать дальше →

Тонкости R. Как минута час экономит

Время на прочтение7 мин
Количество просмотров8.7K

Довольно часто enterprise задачи по обработке данных затрагивают данные, сопровождаемые временной меткой. В R такие метки, обычно хранятся как класс POSIXct. Выбор методов работы с таким типом данных по принципу аналогии может привести к большому разочарованию и убеждению о крайней медлительности R. Хотя если взглянуть на эту чуть более пристально, то оказывается, что дело не совсем в R, а в руках и голове.


Ниже затрону пару кейсов, которые встретились в этом месяце и возможные варианты их решения. В ходе решения появляются весьма интересные вопросы. Заодно упомяну инструменты, которые оказываются крайне полезными для решения подобных задачек. Практика показала, что об их существовании знают немногие.


Читать дальше →

Data Science Weekend 3-4 марта

Время на прочтение1 мин
Количество просмотров2.6K
Хабр, привет! Приглашаем на Data Science Weekend 2017, который пройдет в Москве, на площадке Deworkacy, 3 и 4 марта.


Читать дальше →

Big Data: большие возможности или большой обман

Время на прочтение7 мин
Количество просмотров15K
Мы в 1cloud часто рассказываем о технологиях, например, недавно мы писали о машинном обучении и all-flash-массивах хранения данных. Сегодня мы решили поговорить о Big Data. Чаще всего основным определением больших данных считают известные «3V» (Volume, Velocity и Variety), которые ввел аналитик Gartner Дуг Лейни (Doug Laney) в 2001 году.

При этом иногда самым важным считают именно объем данных, что отчасти обусловлено самим названием. Поэтому многие задумываются только о том, данные какого размера можно считать большими. В этой статье мы решили выяснить, что на самом деле важно в больших данных помимо размера, как они появились, почему их критикуют и в каких сферах они успешно применяются.

Читать дальше →

Аналитические данные за пределами аналитики в Wrike

Время на прочтение8 мин
Количество просмотров4.6K

Дата инженер в ожидании задачи на спарке.


За годы разработки Wrike у нас накопилось много разрозненной информации о действиях пользователя. Эта информация разбросана по нескольким базам данных, логам, и внешним сервисам, и нам, аналитикам, нужно собрать эти данные вместе, найти в них закономерности и найти ответы на вечные вопросы SaaS’а:


  • Почему уходят клиенты?
  • Какие пользователи приносят нам деньги?
  • Как развивать продукт дальше?

Большинство задач мы решаем с помощью SQL, но запросы к логам через SQL — громоздкие и медленные. Их можно использовать для автоматики или подробной аналитики, но если нужно что-то быстро посмотреть, на подготовку данных уйдёт больше времени, чем на анализ.


Если смотреть приходится много и часто, это вызывает боль, в этой статье мы расскажем, как её преодолеть и как извлечь максимальную пользу из полученных данных.

Читать дальше →

Будут ли data scientist’ы в ближайшее время заменены автоматизированными алгоритмами и искусственным интеллектом?

Время на прочтение7 мин
Количество просмотров12K
Хабр, привет! В современном машинном обучении и науке о данных можно выделить несколько трендов. Прежде всего, это глубокое обучение: распознавание изображений, аудио и видео, обработка текстов на естественных языках. Еще одним трендом становится обучение с подкреплением — reinforcement learning, позволяющее алгоритмам успешно играть в компьютерные и настольные игры, и дающее возможность постоянно улучшать построенные модели на основе отклика внешней среды.

Есть и еще один тренд, менее заметный, так как его результаты для внешних наблюдателей выглядят не так впечатляюще, но не менее важный — автоматизация машинного обучения. В связи с его стремительным развитием вновь актуальным становится вопрос о том, не будут ли data scientist’ы в конце концов автоматизированы и вытеснены искусственным интеллектом.
Читать дальше →

Вклад авторов