Как стать автором
Поиск
Написать публикацию
Обновить
80.06

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Pikabu-dataset

Время на прочтение6 мин
Количество просмотров7.5K
Предлагается взглянуть на dataset постов с pikabu.ru c точки зрения датастатистики. Сам датасет в составе 450к штук собран лучшими круглосуточными парсерами, обработан отдушками, убирающими дубликаты статей, а также нашпигован дополнительными столбцами, смысл наличия которых доступен только посвященным. Здесь не столько интересен сам датасет, сколько подход к анализу подобных сайтов. В последующих постах попробуем применить элементы из maсhine learning для анализа.


Читать дальше →

Анонс: как Data Science продает вам рекламу

Время на прочтение2 мин
Количество просмотров2K


Сегодня, в 20:00 в прямом эфире выступит Никита Александров — Data Scientist в Unity.

Никита закончил ФКН ВШЭ, во время последнего курса получил стипендию Эразмуса и съездил на семестр по обмену в Финляндию. Несмотря на то, что Никита получил оффер на работу в Токио, он решил поступить в магистратуру университета Аалто. Магистратуру он не закончил и ушел работать Data Scientistом в Unity Ads, где сейчас улучшает алгоритмы конверсии. Никита расскажет о том, как устроен IT-рынок Финляндии, что там есть интересного и какие задачи решают дата-саентисты в Unity. Кроме того, Никита готов поделиться инсайдами, как правильно рекламировать свою игру при помощи Unity, чтобы ее чаще устанавливали.

Стрим можно будет посмотреть в любых наших соцсетях — где удобно, там и смотрите.


Пишем telegram бота на языке R (часть 3): Как добавить боту поддержку клавиатуры

Время на прочтение16 мин
Количество просмотров10K

Это третья статья из серии "Пишем telegram бота на языке R". В предыдущих публикациях мы научились создавать телеграм бота, отправлять через него сообщения, добавили боту команды и фильтры сообщений. Поэтому перед тем как приступить к чтению данной статьи я крайне рекомендую ознакомиться с предыдущими, т.к. тут я уже не буду останавливать на описанных ранее основах ботостроения.


В этой статье мы повысим юзабилити нашего бота за счёт добавления клавиатуры, которая сделает интерфейс бота интуитивно понятным, и простым в использовании.


Читать дальше →

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

Время на прочтение7 мин
Количество просмотров14K

Мы снова в эфире и продолжаем цикл заметок Дата Сайентиста и сегодня представляю мой абсолютно субъективный чек-лист по выбору модели машинного обучения.

Это топ-10 свойств задачи и просто пунктов (без порядка в них), с точки зрения которых я начинаю выбор модели и вообще моделирование задачи по анализу данных.

Совсем не обязательно, что у вас он будет таким же — здесь все субъективно, но делюсь опытом из жизни.
Читать дальше →

Создание автоматической системы борьбы с злоумышленниками на сайте (фродом)

Время на прочтение7 мин
Количество просмотров1.7K
Последние примерно полгода я занимался созданием системы борьбы с фродом (fraudulent activity, fraud, etc.) без какой-либо начальной инфраструктуры для этого. Сегодняшние идеи, которые мы нашли и реализовали в нашей системе, помогают нам обнаруживать множество мошеннических действий и анализировать их. В этой статье я хотел бы рассказать о принципах, которым мы следовали, и о том, что мы сделали для достижения текущего состояния нашей системы, не углубляясь в техническую часть.
Читать дальше →

Обзор нового UI для Structured Streaming в Apache Spark™ 3.0

Время на прочтение5 мин
Количество просмотров1.8K
Перевод статьи подготовлен в преддверии старта курса «Data Engineer».





Structured Streaming был впервые представлен ​​в Apache Spark 2.0. Эта платформа зарекомендовала себя как лучший выбор для создания распределенных приложений потоковой обработки. Унификация API SQL/Dataset/DataFrame и встроенных функций Spark значительно упрощают разработчикам реализацию их сложных насущных необходимостей, таких как агрегирование потоковой передачи (streaming aggregation), объединение потоков (stream-stream join) и поддержка работы с окнами (windowing support). С момента релиза Structured Streaming популярным запросом от разработчиков стала просьба улучшить управление потоковой передачей, точно так же, как мы сделали это в Spark Streaming (например, DStream). В Apache Spark 3.0 мы выпустили новый UI для Structured Streaming.
Читать дальше →

Где IT-специалисту поучиться этике цифровых технологий? Подборка курсов на русском и английском языках

Время на прочтение8 мин
Количество просмотров3.7K
Этика цифровых технологий — развивающаяся сфера прикладной этики. Например, она помогает ответить на вопрос, почему москвичи ненавидят приложение «Социальный мониторинг», но не только. На Западе этика уже является одним из краеугольных камней сферы IT. Коммерческие, некоммерческие и государственные организации пишут и даже стараются соблюдать этические кодексы с правилами разработки и использования цифровых технологий.



Мы задались вопросом, где российские IT-специалисты при желании могут получить базовые знания этики цифровых технологий. По всей видимости, это должен быть небольшой курс — не лекция на 10 минут, но и не семестр. Не в рамках обучения на бакалавриате или магистратуре в вузе, а доступное прямо сейчас и онлайн.

Мы выяснили:

  1. на английском языке таких курсов мало;
  2. на русском языке их практически нет.

Всего мы нашли 11 курсов на 8 площадках и один интересный курс от Fast.ai, пост о котором попал в умную ленту постов на Facebook после двух дней изучения темы. Полный список внутри.
Читать дальше →

Пишем telegram бота на языке R (часть 2): Добавляем боту поддержку команд и фильтры сообщений

Время на прочтение10 мин
Количество просмотров6K

В предыдущей публикации мы разобрались как создать бота, инициализировали экземпляр класса Bot и ознакомились с методами отправки сообщений с его помощью.


В этой статье я продолжаю данную тему, поэтому приступать к чтению данной статьи я рекомендую только после прочтения первой части.


В этот раз мы разберёмся как оживить нашего бота и добавим ему поддержку команд, а также познакомимся с классом Updater.


В ходе статьи мы напишем нескольких простых ботов, последний будет по заданной дате и коду страны определять является ли день в данной стране выходным или рабочим согласно производственного календаря. Но, как и прежде цель статьи ознакомить вас с интерфейсом пакета telegram.bot для решения ваших собственных задач.


Читать дальше →

Расширение возможностей Spark с помощью MLflow

Время на прочтение9 мин
Количество просмотров5.2K
Привет, хабровчане. Как мы уже писали, в этом месяце OTUS запускает сразу два курса по машинному обучению, а именно базовый и продвинутый. В связи с этим продолжаем делиться полезным материалом.




Цель этой статьи – рассказать о нашем первом опыте использования MLflow.

Мы начнем обзор MLflow с его tracking-сервера и прологируем все итерации исследования. Затем поделимся опытом соединения Spark с MLflow с помощью UDF.
Читать дальше →

InterSystems IRIS – универсальная AI/ML-платформа реального времени

Время на прочтение23 мин
Количество просмотров24K
Автор: Сергей Лукьянчиков, инженер-консультант InterSystems

Вызовы AI/ML-вычислений реального времени


Начнем с примеров из опыта Data Science-практики компании InterSystems:

  • «Нагруженный» портал покупателя подключен к онлайновой рекомендательной системе. Предстоит реструктуризация промо-акций в масштабе розничной сети (допустим, вместо «плоской» линейки промо-акций теперь будет применяться матрица «сегмент-тактика»). Что происходит с рекомендательными механизмами? Что происходит с подачей и актуализацией данных в рекомендательный механизм (объем входных данных возрос в 25000 раз)? Что происходит с выработкой рекомендаций (необходимость тысячекратного снижения порога фильтрации рекомендательных правил в связи с тысячекратным возрастанием их количества и «ассортимента»)?
  • Есть система мониторинга вероятности развития дефектов в узлах оборудования. К системе мониторинга была подключена АСУТП, передающая тысячи параметров технологического процесса ежесекундно. Что происходит с системой мониторинга, ранее работавшей на «ручных выборках» (способна ли она обеспечивать ежесекундный мониторинг вероятности)? Что будет происходить, если во входных данных появляется новый блок в несколько сотен колонок с показаниями датчиков, недавно заведенных в АСУТП (потребуется ли и как надолго останавливать систему мониторинга для включения в анализ данных от новых датчиков)?
  • Создан комплекс AI/ML-механизмов (рекомендательные, мониторинговые, прогностические), использующих результаты работы друг друга. Сколько человеко-часов требуется ежемесячно для адаптации работы этого комплекса к изменениям во входных данных? Каково общее «замедление» при поддержке комплексом принятия управленческих решений (частота возникновения в нем новой поддерживающей информации относительно частоты возникновения новых входных данных)?

Читать дальше →

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

Время на прочтение9 мин
Количество просмотров14K

Рассказываю из личного опыта, что где и когда пригодилось. Обзорно и тезисно, чтобы понятно было, что и куда можно копать дальше — но тут у меня исключительно субъективный личный опыт, у вас, может быть, все совсем по-другому.

Почему важно знать и уметь обращаться с языками запросов? По своей сути в Data Science есть несколько важнейших этапов работы и самый первый и важнейший (без него уж точно ничего работать не будет!) — это получение или извлечение данных. Чаще всего данные в каком-то виде где-то сидят и их нужно оттуда «достать». 

Языки запросов как раз и позволяют эти самые данные извлечь! И сегодня я расскажу, о тех языках запросов, которые мне пригодились и расскажу-покажу, где и как именно — зачем оно нужно для изучения.

Всего будет три основных блока типов запросов к данным, которые мы разберем в данной статье:

  • «Стандартные» языки запросов — то, что обычно понимают, когда говорят о языке запросов, как, например, реляционная алгебра или SQL.
  • Скриптовые языки запросов: например, питоновские штучки pandas, numpy или shell scripting.
  • Языки запросов к графам знаний и графовым базам данных.

Все написанное здесь — это просто персональный опыт, что пригодилось, с описанием ситуаций и «зачем оно было нужно» — каждый может примерить, насколько подобные ситуации могут встретиться вам и попробовать подготовиться к ним заранее, разобравшись с этими языками до того, как придется их в (срочном порядке) применять на проекте или вообще попасть на проект, где они нужны.
Читать дальше →

Как компании выбрать инструменты для дата-инженеров и не превратить всё в технологический зоопарк: опыт PROFI.RU

Время на прочтение11 мин
Количество просмотров4.2K
Редактор Нетологии побеседовала с тимлидом команды BI в Profi.ru Павлом Саяпиным о том, какие задачи решают дата-инженеры в его команде, что за инструменты для этого используют и как же всё-таки правильно подойти к выбору инструментария для решения дата-задач, в том числе нетипичных. Павел — преподаватель на курсе «Дата-инженер». 
Читать дальше →

Как BigQuery от Google демократизировал анализ данных. Часть 2

Время на прочтение6 мин
Количество просмотров2.2K
Привет, Хабр! Прямо сейчас в OTUS открыт набор на новый поток курса «Data Engineer». В преддверии старта курса продолжаем делиться с вами полезным материалом.

Читать первую часть





Управление данными


Сильное управление данными (Strong Data Governance) — основной принцип Twitter Engineering. Поскольку мы внедряем BigQuery в нашу платформу, мы концентрируемся на обнаружении данных, контроле доступа, безопасности и конфиденциальности.
Читать дальше →

Ближайшие события

Обзор Gartner MQ 2020: Платформы машинного обучения и искусственного интеллекта

Время на прочтение7 мин
Количество просмотров3.7K
Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 – Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату – можно здесь посмотреть. А я буду говорить про квадрат 2020го года, тем более, что изменения там с 2019го минимальные: выехал SAP и Altair купил Datawatch.

Это не систематизированный разбор и не таблица. Индивидуальный взгляд, еще с точки зрения геофизика. Но мне всегда любопытно читать Gartner MQ, они прекрасно некоторые моменты формулируют. Так что тут вещи, на которые я обратил внимание и в техническом плане, и в рыночном, и в философском.

Это не для людей, которые глубоко в теме ML, но для людей, которые интересуются тем, что вообще происходит на рынке.

Сам DSML рынок логично гнездится между BI и Cloud AI developer services.


Читать дальше →

На пути к бессерверным базам данных — как и зачем

Время на прочтение12 мин
Количество просмотров22K
Всем привет! Меня зовут Голов Николай. Раньше я работал в Авито и шесть лет руководил Data Platform, то есть занимался всеми базами: аналитическими (Vertica, ClickHouse), потоковыми и OLTP (Redis, Tarantool, VoltDB, MongoDB, PostgreSQL). За это время я разобрался с большим количеством баз данных — самых разных и необычных, и с нестандартными кейсами их использования.

Сейчас я работаю в ManyChat. По сути это стартап — новый, амбициозный и быстро растущий. И когда я только вышел в компанию, возник классический вопрос: «А что сейчас стоит брать молодому стартапу с рынка СУБД и баз данных?».

В этой статье, основанной на моем докладе на онлайн-фестивале РИТ++2020, отвечу на этот вопрос. Видеоверсия доклада доступна на YouTube.



Читать дальше →

Пишем telegram бота на языке R (часть 1): Создаём бота, и отправляем с его помощью сообщения в telegram

Время на прочтение12 мин
Количество просмотров18K

Аудитория telegram ежедневно растёт с геометрической прогрессией, этому способствует удобство мессенджера, наличие каналов, чатов, и конечно возможность создавать ботов.


Боты могут использоваться в совершенно разных целях, от автоматизации коммуникации с вашими клиентами до управления вашими собственными задачами.


По сути через бота можно используя telegram выполнять любые операции: отправлять, либо запрашивать данные, запускать задачи на сервере, собирать информацию в базу данных, отправлять электронные письма и так далее.


Я планирую написать серию статей, о том, как на языке R работать с telegram bot API, и писать ботов под свои нужды.



В этой, первой статье мы разберёмся как создать телеграм бота, и отправлять с его помощью уведомления в telegram.

Читать дальше →

В диких условиях. Итоги проектов Школы программистов в эпоху самоизоляции

Время на прочтение6 мин
Количество просмотров2.1K
За четыре месяца занятий были прочитаны 54 лекции на двух потоках бекэнд и фронтенд, проведены несколько крутых практикумов с live-coding’ом. Проверены сотни заданий, на все вопросы получены две сотни ответов. Тут пришел 2020 год и сразу после того как мы сняли с елок гирлянды, всем нам самим пришлось нарядиться в маски и надеть перчатки. А теперь по порядку:



Десятая Школа Программистов hh.ru стала особенной. Юбилей, огромное количество планов, неиссякаемый поток учеников, неугасающая мотивация наших преподавателей и организаторов. Мы приложили максимум усилий, чтобы этот выпуск стал образцовым.
Читать дальше →

Проектирование озера данных с открытым исходным кодом

Время на прочтение8 мин
Количество просмотров10K

Озера данных (data lakes) фактически стали стандартом для предприятий и корпораций, которые стараются использовать всю имеющуюся у них информацию. Компоненты с открытым исходным кодом часто являются привлекательным вариантом при разработке озер данных значительного размера. Мы рассмотрим общие архитектурные паттерны необходимые для создания озера данных для облачных или гибридных решений, а также обратим внимание на ряд критически важных деталей которые не стоит упускать при внедрения ключевых компонентов.
Читать дальше →

Заметки Дата Сайентиста: как измерить время забега марафона лежа на диване

Время на прочтение5 мин
Количество просмотров5K

Продолжая цикл заметок про реальные проблемы в Data Science, мы сегодня разберемся с живой задачей и посмотрим, какие проблемы нас ждут в пути.

Например, помимо Data Science, я давно увлекаюсь атлетикой и одной из целей в беге для меня, конечно, является марафон. А где марафон там и вопрос — за сколько же бежать? Часто ответ на этот вопрос дается на глаз — «ну в среднем бегут» или «вот Х хорошее время»!

И сегодня мы займемся важным делом — применим Data Science в реальной жизни и ответим на вопрос:

А что нам говорят данные о московском марафоне?

Точнее, как уже понятно по таблице в начале — мы соберем данные, разберемся, кто и как бежал. А заодно это поможет понять, стоит ли нам соваться и позволит здраво оценить свои силы!

TL;DR: Я собрал данные по забегам московского марафона за 2018/2019, проанализиворовал время и показатели участников, а код и данные выложил в открытый доступ.
Добро пожаловать под кат!

Как BigQuery от Google демократизировал анализ данных. Часть 1

Время на прочтение6 мин
Количество просмотров3K
Привет, Хабр! Прямо сейчас в OTUS открыт набор на новый поток курса «Data Engineer». В преддверии старта курса мы традиционно подготовили для вас перевод интересного материала.




Каждый день более ста миллионов человек посещают Twitter, чтобы узнать, что происходит в мире, и обсудить это. Каждый твит и любое другое действие пользователя генерируют событие, доступное для внутреннего анализа данных в Twitter. Сотни сотрудников анализируют и визуализируют эти данные, и улучшение их опыта является главным приоритетом для команды Twitter Data Platform.

Мы считаем, что пользователи с широким спектром технических навыков должны иметь возможность находить данные и иметь доступ к хорошо работающим инструментам анализа и визуализации на основе SQL. Это позволило бы целой новой группе пользователей с меньшим техническим уклоном, включая дата аналитиков и продакт менеджеров, извлекать информацию из данных, позволяя им лучше понимать и использовать возможности Twitter. Так мы демократизируем анализ данных в Twitter.
Читать дальше →