Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

selesnow 8 сен 2020 в 06:52

Пишем telegram бота на языке R (часть 3): Как добавить боту поддержку клавиатуры

16 мин

12K

Проектирование API * Data Engineering * R * Мессенджеры *

Туториал

Это третья статья из серии "Пишем telegram бота на языке R". В предыдущих публикациях мы научились создавать телеграм бота, отправлять через него сообщения, добавили боту команды и фильтры сообщений. Поэтому перед тем как приступить к чтению данной статьи я крайне рекомендую ознакомиться с предыдущими, т.к. тут я уже не буду останавливать на описанных ранее основах ботостроения.

В этой статье мы повысим юзабилити нашего бота за счёт добавления клавиатуры, которая сделает интерфейс бота интуитивно понятным, и простым в использовании.

Читать дальше →

+4

paramonov_ruvds 4 сен 2020 в 10:39

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

7 мин

15K

Блог компании RUVDS.comBig Data * Data Engineering * Data Mining * Python *

Мы снова в эфире и продолжаем цикл заметок Дата Сайентиста и сегодня представляю мой абсолютно субъективный чек-лист по выбору модели машинного обучения.

Это топ-10 свойств задачи и просто пунктов (без порядка в них), с точки зрения которых я начинаю выбор модели и вообще моделирование задачи по анализу данных.

Совсем не обязательно, что у вас он будет таким же — здесь все субъективно, но делюсь опытом из жизни.

Читать дальше →

+29

ETman 29 авг 2020 в 09:07

Создание автоматической системы борьбы с злоумышленниками на сайте (фродом)

7 мин

1.8K

Big Data * Data Engineering * Анализ и проектирование систем *

Последние примерно полгода я занимался созданием системы борьбы с фродом (fraudulent activity, fraud, etc.) без какой-либо начальной инфраструктуры для этого. Сегодняшние идеи, которые мы нашли и реализовали в нашей системе, помогают нам обнаруживать множество мошеннических действий и анализировать их. В этой статье я хотел бы рассказать о принципах, которым мы следовали, и о том, что мы сделали для достижения текущего состояния нашей системы, не углубляясь в техническую часть.

Читать дальше →

0

MaxRokatansky 27 авг 2020 в 07:43

Обзор нового UI для Structured Streaming в Apache Spark™ 3.0

5 мин

2K

Блог компании OTUSData Engineering * Apache *

Перевод

Перевод статьи подготовлен в преддверии старта курса «Data Engineer».

Structured Streaming был впервые представлен в Apache Spark 2.0. Эта платформа зарекомендовала себя как лучший выбор для создания распределенных приложений потоковой обработки. Унификация API SQL/Dataset/DataFrame и встроенных функций Spark значительно упрощают разработчикам реализацию их сложных насущных необходимостей, таких как агрегирование потоковой передачи (streaming aggregation), объединение потоков (stream-stream join) и поддержка работы с окнами (windowing support). С момента релиза Structured Streaming популярным запросом от разработчиков стала просьба улучшить управление потоковой передачей, точно так же, как мы сделали это в Spark Streaming (например, DStream). В Apache Spark 3.0 мы выпустили новый UI для Structured Streaming.

Читать дальше →

+2

CDTOCenter 26 авг 2020 в 05:45

Где IT-специалисту поучиться этике цифровых технологий? Подборка курсов на русском и английском языках

8 мин

4.1K

Блог компании Центр подготовки CDTOBig Data * Data Engineering * Карьера в IT-индустрии

Этика цифровых технологий — развивающаяся сфера прикладной этики. Например, она помогает ответить на вопрос, почему москвичи ненавидят приложение «Социальный мониторинг», но не только. На Западе этика уже является одним из краеугольных камней сферы IT. Коммерческие, некоммерческие и государственные организации пишут и даже стараются соблюдать этические кодексы с правилами разработки и использования цифровых технологий.

Мы задались вопросом, где российские IT-специалисты при желании могут получить базовые знания этики цифровых технологий. По всей видимости, это должен быть небольшой курс — не лекция на 10 минут, но и не семестр. Не в рамках обучения на бакалавриате или магистратуре в вузе, а доступное прямо сейчас и онлайн.

Мы выяснили:

на английском языке таких курсов мало;
на русском языке их практически нет.

Всего мы нашли 11 курсов на 8 площадках и один интересный курс от Fast.ai, пост о котором попал в умную ленту постов на Facebook после двух дней изучения темы. Полный список внутри.

Читать дальше →

+4

selesnow 25 авг 2020 в 06:53

Пишем telegram бота на языке R (часть 2): Добавляем боту поддержку команд и фильтры сообщений

10 мин

6.6K

Проектирование API * Data Engineering * R * Мессенджеры *

Туториал

В предыдущей публикации мы разобрались как создать бота, инициализировали экземпляр класса Bot и ознакомились с методами отправки сообщений с его помощью.

В этой статье я продолжаю данную тему, поэтому приступать к чтению данной статьи я рекомендую только после прочтения первой части.

В этот раз мы разберёмся как оживить нашего бота и добавим ему поддержку команд, а также познакомимся с классом Updater.

В ходе статьи мы напишем нескольких простых ботов, последний будет по заданной дате и коду страны определять является ли день в данной стране выходным или рабочим согласно производственного календаря. Но, как и прежде цель статьи ознакомить вас с интерфейсом пакета telegram.bot для решения ваших собственных задач.

Читать дальше →

+3

MaxRokatansky 24 авг 2020 в 17:41

Расширение возможностей Spark с помощью MLflow

9 мин

5.6K

Блог компании OTUSBig Data * Data Engineering * Машинное обучение *

Перевод

Привет, хабровчане. Как мы уже писали, в этом месяце OTUS запускает сразу два курса по машинному обучению, а именно базовый и продвинутый. В связи с этим продолжаем делиться полезным материалом.

Цель этой статьи – рассказать о нашем первом опыте использования MLflow.

Мы начнем обзор MLflow с его tracking-сервера и прологируем все итерации исследования. Затем поделимся опытом соединения Spark с MLflow с помощью UDF.

Читать дальше →

+2

lukyanchikov 24 авг 2020 в 14:45

InterSystems IRIS – универсальная AI/ML-платформа реального времени

23 мин

25K

Блог компании InterSystemsМашинное обучение * Искусственный интеллектDevOps * Data Engineering *

Автор: Сергей Лукьянчиков, инженер-консультант InterSystems

Вызовы AI/ML-вычислений реального времени

Начнем с примеров из опыта Data Science-практики компании InterSystems:

«Нагруженный» портал покупателя подключен к онлайновой рекомендательной системе. Предстоит реструктуризация промо-акций в масштабе розничной сети (допустим, вместо «плоской» линейки промо-акций теперь будет применяться матрица «сегмент-тактика»). Что происходит с рекомендательными механизмами? Что происходит с подачей и актуализацией данных в рекомендательный механизм (объем входных данных возрос в 25000 раз)? Что происходит с выработкой рекомендаций (необходимость тысячекратного снижения порога фильтрации рекомендательных правил в связи с тысячекратным возрастанием их количества и «ассортимента»)?
Есть система мониторинга вероятности развития дефектов в узлах оборудования. К системе мониторинга была подключена АСУТП, передающая тысячи параметров технологического процесса ежесекундно. Что происходит с системой мониторинга, ранее работавшей на «ручных выборках» (способна ли она обеспечивать ежесекундный мониторинг вероятности)? Что будет происходить, если во входных данных появляется новый блок в несколько сотен колонок с показаниями датчиков, недавно заведенных в АСУТП (потребуется ли и как надолго останавливать систему мониторинга для включения в анализ данных от новых датчиков)?
Создан комплекс AI/ML-механизмов (рекомендательные, мониторинговые, прогностические), использующих результаты работы друг друга. Сколько человеко-часов требуется ежемесячно для адаптации работы этого комплекса к изменениям во входных данных? Каково общее «замедление» при поддержке комплексом принятия управленческих решений (частота возникновения в нем новой поддерживающей информации относительно частоты возникновения новых входных данных)?

Читать дальше →

+10

paramonov_ruvds 22 авг 2020 в 10:47

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

9 мин

15K

Блог компании RUVDS.comBig Data * Data Engineering * Data Mining * Python *

Рассказываю из личного опыта, что где и когда пригодилось. Обзорно и тезисно, чтобы понятно было, что и куда можно копать дальше — но тут у меня исключительно субъективный личный опыт, у вас, может быть, все совсем по-другому.

Почему важно знать и уметь обращаться с языками запросов? По своей сути в Data Science есть несколько важнейших этапов работы и самый первый и важнейший (без него уж точно ничего работать не будет!) — это получение или извлечение данных. Чаще всего данные в каком-то виде где-то сидят и их нужно оттуда «достать».

Языки запросов как раз и позволяют эти самые данные извлечь! И сегодня я расскажу, о тех языках запросов, которые мне пригодились и расскажу-покажу, где и как именно — зачем оно нужно для изучения.

Всего будет три основных блока типов запросов к данным, которые мы разберем в данной статье:

«Стандартные» языки запросов — то, что обычно понимают, когда говорят о языке запросов, как, например, реляционная алгебра или SQL.
Скриптовые языки запросов: например, питоновские штучки pandas, numpy или shell scripting.
Языки запросов к графам знаний и графовым базам данных.

Все написанное здесь — это просто персональный опыт, что пригодилось, с описанием ситуаций и «зачем оно было нужно» — каждый может примерить, насколько подобные ситуации могут встретиться вам и попробовать подготовиться к ним заранее, разобравшись с этими языками до того, как придется их в (срочном порядке) применять на проекте или вообще попасть на проект, где они нужны.

Читать дальше →

+39

blognetology 21 авг 2020 в 09:23

Как компании выбрать инструменты для дата-инженеров и не превратить всё в технологический зоопарк: опыт PROFI.RU

11 мин

4.4K

Блог компании НетологияBig Data * Data Engineering *

Recovery Mode

Редактор Нетологии побеседовала с тимлидом команды BI в Profi.ru Павлом Саяпиным о том, какие задачи решают дата-инженеры в его команде, что за инструменты для этого используют и как же всё-таки правильно подойти к выбору инструментария для решения дата-задач, в том числе нетипичных. Павел — преподаватель на курсе «Дата-инженер».

Читать дальше →

0

MaxRokatansky 18 авг 2020 в 13:00

Как BigQuery от Google демократизировал анализ данных. Часть 2

6 мин

3.6K

Блог компании OTUSBig Data * Data Engineering *

Перевод

Привет, Хабр! Прямо сейчас в OTUS открыт набор на новый поток курса «Data Engineer». В преддверии старта курса продолжаем делиться с вами полезным материалом.

Читать первую часть

Управление данными

Сильное управление данными (Strong Data Governance) — основной принцип Twitter Engineering. Поскольку мы внедряем BigQuery в нашу платформу, мы концентрируемся на обнаружении данных, контроле доступа, безопасности и конфиденциальности.

Читать дальше →

+3

BIEI 18 авг 2020 в 12:39

Обзор Gartner MQ 2020: Платформы машинного обучения и искусственного интеллекта

7 мин

3.9K

Статистика в ITМашинное обучение * Искусственный интеллектData Engineering * Big Data *

Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 – Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату – можно здесь посмотреть. А я буду говорить про квадрат 2020го года, тем более, что изменения там с 2019го минимальные: выехал SAP и Altair купил Datawatch.

Это не систематизированный разбор и не таблица. Индивидуальный взгляд, еще с точки зрения геофизика. Но мне всегда любопытно читать Gartner MQ, они прекрасно некоторые моменты формулируют. Так что тут вещи, на которые я обратил внимание и в техническом плане, и в рыночном, и в философском.

Это не для людей, которые глубоко в теме ML, но для людей, которые интересуются тем, что вообще происходит на рынке.

Сам DSML рынок логично гнездится между BI и Cloud AI developer services.

Читать дальше →

+3

azathot 13 авг 2020 в 08:00

На пути к бессерверным базам данных — как и зачем

12 мин

23K

Блог компании Конференции Олега Бунина (Онтико)Блог компании ManyChatIT-инфраструктура * Data Engineering * Хранение данных *

Всем привет! Меня зовут Голов Николай. Раньше я работал в Авито и шесть лет руководил Data Platform, то есть занимался всеми базами: аналитическими (Vertica, ClickHouse), потоковыми и OLTP (Redis, Tarantool, VoltDB, MongoDB, PostgreSQL). За это время я разобрался с большим количеством баз данных — самых разных и необычных, и с нестандартными кейсами их использования.

Сейчас я работаю в ManyChat. По сути это стартап — новый, амбициозный и быстро растущий. И когда я только вышел в компанию, возник классический вопрос: «А что сейчас стоит брать молодому стартапу с рынка СУБД и баз данных?».

В этой статье, основанной на моем докладе на онлайн-фестивале РИТ++2020, отвечу на этот вопрос. Видеоверсия доклада доступна на YouTube.

Читать дальше →

+27

selesnow 13 авг 2020 в 06:53

Пишем telegram бота на языке R (часть 1): Создаём бота, и отправляем с его помощью сообщения в telegram

12 мин

20K

Проектирование API * Data Engineering * R * Мессенджеры *

Туториал

Аудитория telegram ежедневно растёт с геометрической прогрессией, этому способствует удобство мессенджера, наличие каналов, чатов, и конечно возможность создавать ботов.

Боты могут использоваться в совершенно разных целях, от автоматизации коммуникации с вашими клиентами до управления вашими собственными задачами.

По сути через бота можно используя telegram выполнять любые операции: отправлять, либо запрашивать данные, запускать задачи на сервере, собирать информацию в базу данных, отправлять электронные письма и так далее.

Я планирую написать серию статей, о том, как на языке R работать с telegram bot API, и писать ботов под свои нужды.

В этой, первой статье мы разберёмся как создать телеграм бота, и отправлять с его помощью уведомления в telegram.

Читать дальше →

+6

StepKsu 12 авг 2020 в 06:29

В диких условиях. Итоги проектов Школы программистов в эпоху самоизоляции

6 мин

2.2K

Блог компании hh.ruJavaScript * Java * Data Engineering * Big Data *

За четыре месяца занятий были прочитаны 54 лекции на двух потоках бекэнд и фронтенд, проведены несколько крутых практикумов с live-coding’ом. Проверены сотни заданий, на все вопросы получены две сотни ответов. Тут пришел 2020 год и сразу после того как мы сняли с елок гирлянды, всем нам самим пришлось нарядиться в маски и надеть перчатки. А теперь по порядку:

Десятая Школа Программистов hh.ru стала особенной. Юбилей, огромное количество планов, неиссякаемый поток учеников, неугасающая мотивация наших преподавателей и организаторов. Мы приложили максимум усилий, чтобы этот выпуск стал образцовым.

Читать дальше →

+4

CoolJuice 8 авг 2020 в 03:36

Проектирование озера данных с открытым исходным кодом

8 мин

11K

Блог компании OpsGuruData Engineering * Big Data *

Озера данных (data lakes) фактически стали стандартом для предприятий и корпораций, которые стараются использовать всю имеющуюся у них информацию. Компоненты с открытым исходным кодом часто являются привлекательным вариантом при разработке озер данных значительного размера. Мы рассмотрим общие архитектурные паттерны необходимые для создания озера данных для облачных или гибридных решений, а также обратим внимание на ряд критически важных деталей которые не стоит упускать при внедрения ключевых компонентов.

Читать дальше →

0

paramonov_ruvds 6 авг 2020 в 09:15

Заметки Дата Сайентиста: как измерить время забега марафона лежа на диване

5 мин

5.1K

Блог компании RUVDS.comData Engineering * Data Mining * Python * Лайфхаки для гиков

Продолжая цикл заметок про реальные проблемы в Data Science, мы сегодня разберемся с живой задачей и посмотрим, какие проблемы нас ждут в пути.

Например, помимо Data Science, я давно увлекаюсь атлетикой и одной из целей в беге для меня, конечно, является марафон. А где марафон там и вопрос — за сколько же бежать? Часто ответ на этот вопрос дается на глаз — «ну в среднем бегут» или «вот Х хорошее время»!

И сегодня мы займемся важным делом — применим Data Science в реальной жизни и ответим на вопрос:

А что нам говорят данные о московском марафоне?

Точнее, как уже понятно по таблице в начале — мы соберем данные, разберемся, кто и как бежал. А заодно это поможет понять, стоит ли нам соваться и позволит здраво оценить свои силы!

TL;DR: Я собрал данные по забегам московского марафона за 2018/2019, проанализиворовал время и показатели участников, а код и данные выложил в открытый доступ.

Добро пожаловать под кат!

+23

MaxRokatansky 4 авг 2020 в 13:20

Как BigQuery от Google демократизировал анализ данных. Часть 1

6 мин

3.1K

Блог компании OTUSData Engineering * Big Data *

Перевод

Привет, Хабр! Прямо сейчас в OTUS открыт набор на новый поток курса «Data Engineer». В преддверии старта курса мы традиционно подготовили для вас перевод интересного материала.

Каждый день более ста миллионов человек посещают Twitter, чтобы узнать, что происходит в мире, и обсудить это. Каждый твит и любое другое действие пользователя генерируют событие, доступное для внутреннего анализа данных в Twitter. Сотни сотрудников анализируют и визуализируют эти данные, и улучшение их опыта является главным приоритетом для команды Twitter Data Platform.

Мы считаем, что пользователи с широким спектром технических навыков должны иметь возможность находить данные и иметь доступ к хорошо работающим инструментам анализа и визуализации на основе SQL. Это позволило бы целой новой группе пользователей с меньшим техническим уклоном, включая дата аналитиков и продакт менеджеров, извлекать информацию из данных, позволяя им лучше понимать и использовать возможности Twitter. Так мы демократизируем анализ данных в Twitter.

Читать дальше →

+3

ArtemBoiko 4 авг 2020 в 10:05

Хайповые строительные сектора и стоимость работ в Большом городе. Инфляция и рост чека в Сан-Франциско

11 мин

2.6K

Python * Data Mining * Data Engineering * Big Data * Визуализация данных *

Сан-Франциско — технологическая «Москва» нашего мира, на примере которого (при помощи открытых данных) можно наблюдать за развитием строительной отрасли в больших городах и столицах. В этом технологичном городе очень выраженно проходили экономические циклы, которые в разные временные промежутки, давали взрывной рост спроса разным секторам недвижимости.

Данные о более чем миллионе разрешений на строительство (записей в двух датасетах) от департамента по строительству Сан-Франциско — позволяют проанализировать не только строительную активность в городе, но и критически рассмотреть последние тенденции и историю развития строительных секторов и спроса на недвижимость за последние 30 лет.

В прошлой статье была рассмотрена общая годовая сумма строительных объемов (инвестиций) в Сан-Франциско в период с 1980 по 2018 год. По разнице между ожидаемой (сметной) и фактической (пересмотренной) стоимостью строительства отслеживались движения настроений инвесторов в периоды экономических бумов и кризисов в регионе.

Взлёты и падения строительной отрасли Сан-Франциско. Тенденции и история развития строительной активности

В данной статье рассмотрим подробнее отдельные отрасли строительства: ремонт крыш, кухонь, лестниц и ванных комнат. После этого сравним инфляцию по отдельным типам работ с данными по официальной инфляции и другими экономическими показателями.

Читать дальше →

+1

skillfactory_school 3 авг 2020 в 09:17

Быстрый старт и низкий потолок. Что ждет молодых Data Science-специалистов на рынке труда

6 мин

15K

Блог компании SkillfactoryBig Data * Data Engineering * Data Mining *

Recovery Mode

По исследованиям HeadHunter и Mail.ru спрос на специалистов в области Data Science превышает предложение, но даже так молодым специалистам не всегда удается найти работу. Рассказываем, чего не хватает выпускникам курсов и где учиться тем, кто планирует большую карьеру в Data Science.

«Они приходят и думают, что сейчас будут зарабатывать 500к в секунду, потому что знают названия фреймворков и как из них запустить модель в две строчки»

Эмиль Магеррамов руководит группой сервисов вычислительной химии в компании biocad и на собеседованиях сталкивается с тем, что у кандидатов нет системного понимания профессии. Они заканчивают курсы, приходят с хорошо прокачанными Python и SQL, могут за 2 секунды поднять Hadoop или Spark, выполнить задачу по четкому ТЗ. Но при этом шаг в сторону — уже нет. Хотя именно гибкости решений работодатели ждут от своих специалистов в области Data Science.

Читать дальше →

+3

1 2 ...

74