Как стать автором
Поиск
Написать публикацию
Обновить
80.06

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Разбираемся, в чем разница между Data Mining и Data Extraction

Время на прочтение8 мин
Количество просмотров17K

Два этих модных слова, связанных с Data Science, сбивают с толку многих людей. Data Mining часто неправильно понимают как извлечение и получение данных, но на самом деле все намного сложнее. В этом посте давайте расставим точки над Mining и выясним разницу между Data Mining и Data Extraction.
Приятного чтения!

Магия Ensemble Learning

Время на прочтение4 мин
Количество просмотров4.3K

Привет, Хабр! Приглашаем Data Engineer'ов и специалистов по Machine Learning на бесплатный Demo-урок «Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций». А также мы публикуем статью Luca Monno — Head of Financial Analytics at CDP SpA.

Одним из наиболее полезных и простых методов машинного обучения является Ensemble Learning. Ensemble Learning – это метод, лежащий в основе XGBoost, Бэггинга, Случайного Леса и многих других алгоритмов.

На Towards Data Science есть много классных статей, но я выбрал две истории (первая и вторая), которые мне больше всего понравились. Так зачем же писать еще одну статью про EL? Потому что я хочу показать вам, как это работает на простом примере, который дал мне понять, что здесь нет никакого волшебства.

Читать далее

Как распознать шарлатана от Data Science?

Время на прочтение7 мин
Количество просмотров8K

Возможно, вы слышали об аналитиках, специалистах по машинному обучению и искусственному интеллекту, но слышали ли вы о тех, кому незаслуженно переплачивают? Встречайте шарлатана данных! Эти хитрецы, которых манит прибыльная работа, создают плохую репутацию настоящим специалистам по обработке данных. В материале разбираемся, как выводить таких людей на чистую воду.
Приятного чтения!

Курс «Промышленный ML на больших данных» — что это, для кого и каких навыков требует?

Время на прочтение4 мин
Количество просмотров2.5K

Привет Хабр. Приглашаем на бесплатный Demo-урок «Современные большие данные, анализ и оптимизация производительности распределенных приложений». А также в этой статье решили рассказать, как складывается ситуация на рынке специалистов Data Science и конкретно в Big Data и что вас ждет на курсе по промышленному машинному обучению.

Читать далее

Data Science: бесплатные курсы для продолжающих обучение

Время на прочтение5 мин
Количество просмотров6.2K


Как говорил Бьерн Страуструп: «Наша цивилизация в значительной степени зависит от программного обеспечения. Мы должны совершенствовать наши системы и для этого должны расти профессионально». Продолжая мысль Бьерна, можно сказать, что для профессионального роста, мы не можем перестать учиться — у более опытных коллег, а также самостоятельно, используя различные инструменты, например, массовые открытые онлайн-курсы. О них и пойдет речь в статье.
Добро пожаловать под кат!

Данные внутри нас: Чем занимаются биоинформатики?

Время на прочтение7 мин
Количество просмотров20K

Рассказываем про людей будущего, которые расшифровывают органическую биг-дату. За последние два десятилетия количество биологических данных, которые можно проанализировать, выросло во много раз благодаря тому, что был расшифрован геном человека. До этого мы и представить не могли, что по информации, хранящейся буквально у нас в крови, можно будет определить наше происхождение, проверить, как организм будет реагировать на определенные лекарства, и даже изменить свою биологическую наследственность.
Вот как это делается

7 бесплатных книг, которые следует прочитать каждому дата-сайентисту

Время на прочтение4 мин
Количество просмотров15K


Самообразование — пожалуй, один из самых сложных путей и процессов для взрослого человека. Когда вокруг столько отвлекающих факторов, уже трудно заставить себя довести дело до конца (особенно если мотивация неочевидна). Но самообразование как эволюция — это неотъемлемый элемент жизни любого профессионала или того, кто хочет им стать. Книги в этом случае могут стать тем самым выстрелом, которым убиваются два зайца, вы и растете как специалист, и не «выпадаете из жизни». Автор материала подобрал 7 бесплатных электронных книг, которые помогут вам изучать Data Science и ML.
Читать дальше →

Прогулка по граблям: 10 критических ошибок разработки теста для проверки знаний

Время на прочтение8 мин
Количество просмотров2.9K

Перед записью на новый курс Machine Learning Advanced мы тестируем будущих студентов, чтобы определить уровень их готовности и понять, что именно им необходимо предложить для подготовки к курсу. Но возникает дилемма: с одной стороны, мы должны проверить знания по Data Science, с другой — мы не можем устроить полноценный 4-х часовой экзамен.

Для решения такой задачи мы развернули штаб по TestDev прямо в команде разработки курсов по Data Science (и, похоже, это только начало). Представляем вам список 10 «граблей», на которые наступают при разработке тестов для оценки знаний. Надеемся, что мир онлайн-обучения станет после этого чуть лучше.
От винта!

Data Science — это пузырь?

Время на прочтение7 мин
Количество просмотров8K


У нас в SkillFactory, как в школе, которая специализируется на обучении дата-сайентистов и дата-аналитиков, внимательно подходят к вопросу восприятия самой профессии как самими студентами, так и их нанимателями. О требованиях к профессии Data Analyst и путанице в вакансиях мы уже рассказывали в этом материале, а теперь хотим поделиться с вами переводом статьи руководителя отдела интеллектуального принятия решений в Google, в которой она рассказывает о перспективах должности Data Scientist. О рисках компании при найме Data Scientist из-за разного понимания должности или из-за неопытных HR и о том, как обезопасить вас от ошибок в резюме.
Добро пожаловать под кат

Прогноз нестационарного ряда, или как жить дата-сайентисту в 2020 году

Время на прочтение13 мин
Количество просмотров4.5K

Пандемия и карантин изменили жизнь и поведение практически каждого жителя планеты. При этом некоторые изменения являются краткосрочными и исчезают со снятием карантинных мер, а другие могут остаться с нами надолго, возможно даже навсегда.

Мы, в Dentsu Aegis Network, в том числе прогнозируем изменения в поведении людей в части потребления видеоконтента, это необходимо для эффективного размещения рекламы наших клиентов в разных медиа. О том, как мы прогнозируем телесмотрение и насколько хорошо у нас это получается в реалиях динамично меняющегося 2020 года, и пойдёт речь в этой статье.

Читать далее

Пишем telegram бота на языке R (часть 5): Управление правами пользователей бота

Время на прочтение9 мин
Количество просмотров3.7K

В предыдущих статьях мы достаточно подробно разобрали тему ботостроения, от отправки первого сообщения до программирования логического диалога с ботом.


Это последняя статья из данной серии, в которой мы разберёмся с тем, как управлять правами использования отдельных методов бота на различных уровнях.


Читать дальше →

Сколько зарабатывает аналитик данных: обзор зарплат и вакансий в 2020

Время на прочтение9 мин
Количество просмотров114K

Привет, Хабр! 28 сентября Skillfactory запускает новый поток курса Data Analyst, поэтому мы решили сделать широкий обзор рынка вакансий, которые предлагают сегодня компании.

Действительно ли профессия аналитика данных может приносить до «300к/наносек»? Какие умения требуют работодатели от аналитиков и что вообще нужно знать, чтобы стать востребованным и высокооплачиваемым спецом? Какие возможности для роста предлагает рынок сегодня?

Мы проанализировали 450 вакансий на должность аналитика данных в России и за рубежом и собрали результаты в этой статье.
Читать дальше →

Применение low-code в аналитических платформах

Время на прочтение16 мин
Количество просмотров6.5K
Уважаемые читатели, доброго дня!

Задача построения ИТ-платформ для накопления и анализа данных рано или поздно возникает у любой компании, в основе бизнеса которой лежат интеллектуально нагруженная модель оказания услуг или создание технически сложных продуктов. Построение аналитических платформ — сложная и трудозатратная задача. Однако любую задачу можно упростить. В этой статье я хочу поделиться опытом применения low-code-инструментов, помогающих в создании аналитических решений. Данный опыт был приобретён при реализации ряда проектов направления Big Data Solutions компании «Неофлекс». Направление Big Data Solutions компании «Неофлекс» с 2005 года занимается вопросами построения хранилищ и озёр данных, решает задачи оптимизации скорости обработки информации и работает над методологией управления качеством данных.



Избежать осознанного накопления слабо и/или сильно структурированных данных не удастся никому. Пожалуй, даже если речь будет идти о малом бизнесе. Ведь при масштабировании бизнеса перспективный предприниматель столкнётся с вопросами разработки программы лояльности, захочет провести анализ эффективности точек продаж, подумает о таргетированной рекламе, озадачится спросом на сопроводительную продукцию. В первом приближении задача может быть решена «на коленке». Но при росте бизнеса приход к аналитической платформе все же неизбежен.

Однако в каком случае задачи аналитики данных могут перерасти в задачи класса «Rocket Science»? Пожалуй, в тот момент, когда речь идёт о действительно больших данных.
Чтобы упростить задачу «Rocket Science», можно есть слона по частям.



Чем большая дискретность и автономность будет у ваших приложений/сервисов/микросервисов, тем проще вам, вашим коллегам и всему бизнесу будет переваривать слона.

К этому постулату пришли практически все наши клиенты, перестроив ландшафт, основываясь на инженерных практиках DevOps-команд.
Читать дальше →

Ближайшие события

Масштабируемая классификация данных для безопасности и конфиденциальности

Время на прочтение19 мин
Количество просмотров2.2K


Классификация данных на основе контента — это открытая задача. Традиционные системы предотвращения потери данных (DLP) решают эту проблему путем снятия отпечатков с соответствующих данных и мониторинга конечных точек для снятия отпечатков. Учитывая большое количество постоянно меняющихся ресурсов данных в Facebook, этот подход не только не масштабируется, но и неэффективен для определения того, где находятся данные. Эта статья посвящена сквозной системе, построенной для обнаружения чувствительных семантических типов в Facebook в масштабе и автоматического обеспечения хранения данных и контроля доступа.

Описанный здесь подход — это наша первая сквозная система конфиденциальности, которая пытается решить эту проблему путем включения сигналов данных, машинного обучения и традиционных методов снятия отпечатков для отображения и классификации всех данных в Facebook. Описанная система эксплуатируется в производственной среде, достигая среднего балла F2 0,9+ по различным классам конфиденциальности при обработке большого количества ресурсов данных в десятках хранилищ. Представляем перевод публикации Facebook на ArXiv о масштабируемой классификации данных для обеспечения безопасности и конфиденциальности на основе машинного обучения.
Добро пожаловать

Data Science в обувном магазине: предсказали поведение клиентов и увеличили конверсию сайта на 16%

Время на прочтение6 мин
Количество просмотров3.7K
Российский производитель обуви Mario Berluchi автоматизировал маркетинг, внедрил привычные для интернет-магазинов механики, но не остановился на этом и запустил направление Data Science. Теперь магазин с помощью алгоритмов машинного обучения предсказывает действия клиента: что он сделает после добавления товара в корзину — купит или уйдет, а если уйдет, то когда вернется.

Предсказание помогает в нужный момент побуждать клиента к покупке или, наоборот, не трогать его, если он купит и так. В рамках AB-теста механика персонализации сайта на основе предсказания помогла увеличить конверсию интернет-магазина на 16,5% и ARPU на 35,7% относительно контрольной группы.

Азамат Тибилов, директор по маркетингу Mario Berluchi, рассказывает о механике с предсказанием, измерении результатов, истории запуска направления Data Science и делится советами для интернет-магазинов, которые тоже хотят растить выручку за счет полезного и основанного на данных маркетинга.

Mario Berluchi — российский производитель обуви, сумок и аксессуаров с пятью офлайн-магазинами в Москве и онлайн-магазином.

Масштаб. 200 тысяч посетителей сайта в месяц.

ИТ. Сайт на Bitrix, бэк-офис на «1С», платформа клиентских данных Mindbox.

Задача. Повысить выручку за счет работы с накопленными данными.

Результат. Рост конверсии сайта на 16,5% в рамках AB-теста, рост ARPU на 35,7%, снижение доли брошенных корзин на 17,2%.

Читать дальше →

SmartData 2020: конференция про data engineering

Время на прочтение3 мин
Количество просмотров2.7K


Если ваша должность — data engineer, то вы могли сталкиваться с обидным информационным перекосом. Тему data science освещают активно, по ней много полезных материалов. А вы работаете в смежной области, где тоже возникает много важных вопросов, но об этих вопросах говорят заметно меньше.


Мы решили, что стоит закрыть этот пробел, поэтому 9-12 декабря проведём конференцию SmartData. Она рассчитана на дата-инженеров и не только: разработчики и data scientists, которые сталкиваются с задачами дата-инженерии или хотят перейти в эту сферу, тоже извлекут пользу.


Кто-то вспомнит, что конференция с таким названием уже была, но тогда её формат отличался. Под катом написали и о том, почему она переродилась, и о том, чего именно ждать от новой.

Читать дальше →

Как мы оркестрируем процессы обработки данных с помощью Apache Airflow

Время на прочтение19 мин
Количество просмотров35K
Всем привет! Меня зовут Никита Василюк, я инженер по работе с данными в департаменте данных и аналитики компании Lamoda. В нашем департаменте Airflow играет роль оркестратора процессов обработки больших данных, с его помощью мы загружаем в Hadoop данные из внешних систем, обучаем ML модели, а также запускаем проверки качества данных, расчеты рекомендательных систем, различных метрик, А/Б-тестов и многое другое.

image

В этой статье я расскажу:

  • что за зверь этот Airflow, из каких компонентов состоит и как они между собой взаимодействуют
  • про основные сущности Airflow: пайплайны, которые называются DAG, Operator и еще про несколько вещей
  • как преуспеть в разработке на Airflow
  • как мы внедрили генерацию пайплайнов и так называемое «декларативное писание пайплайнов»
  • про плюсы и минусы использования Airflow
Читать дальше →

Пишем telegram бота на языке R (часть 4): Построение последовательного, логического диалога с ботом

Время на прочтение9 мин
Количество просмотров4.7K

Если вы уже ознакомились с предыдущими тремя статьями из данной серии, то вы уже умеете писать полноценных telegram ботов с клавиатурой.


В этой статье мы с вами научимся писать бота, который будет поддерживать последовательный диалог. Т.е. бот будет задавать вам вопросы, и ждать от вас ввода какой-либо информации. В зависимости от введённых вами данных бот будет выполнять некоторые действия.


Также в данной статье мы научимся использовать под капотом бота базы данных, в нашем примере это будет SQLite, но вы можете использовать любую другую СУБД. Более подробно о взаимодействии с базами данных на языке R я писал в этой статье.


Читать дальше →

Как Data Science продает вам рекламу? Интервью с инженером Unity

Время на прочтение14 мин
Количество просмотров6.7K
Неделю назад в наших соцсетях выступал Никита Александров — Data Scientist в Unity Ads, где он улучшает алгоритмы конверсии. Никита сейчас живет в Финляндии, и кроме прочего он рассказал об IT-жизни в стране.

Делимся с вами расшифровкой и записью интервью



Меня зовут Никита Александров, я вырос в Татарстане и там же окончил школу, занимался олимпиадами по математике. После этого поступил на факультет компьютерных наук ВШЭ и там закончил бакалавриат. В начале 4 курса съездил на учебу по обмену, провел семестр в Финляндии. Мне там понравилось, я поступил в магистратуру университета Аалто, хотя не закончил ее полностью – я закончил все курсы и начал писать диплом, но ушел работать в Unity, не получив степень. Сейчас я работаю в Unity data scientist-ом, отдел называется Operate Solutions (раньше он назывался Monetization); непосредственно моя команда занимается доставкой рекламы. То есть, внутриигровой рекламы – той, которая выдается, когда вы играете в мобильную игру и нужно заработать дополнительную жизнь, например. Я работаю над улучшением конверсии рекламы – то есть, делаю так, чтобы игрок с большей вероятностью прошел по рекламе.

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

Время на прочтение6 мин
Количество просмотров16K

TL;DR это пост для вопросов/ответов про Data Science и о том, как войти в профессию и развиваться в ней. В статьей я разберу основные принципы и FAQ и готов отвечать на ваши конкретные вопросы — пишите в комментариях (или в личке), я постараюсь на все ответить в течение нескольких дней.
С появлением цикла заметок «дата сатаниста» пришло немало сообщений и комментариев с вопросами о том, как начать и куда копать и сегодня мы разберем основные скиллы и вопросы возникшие после публикаций.

Все указанное тут не претендует ни какую истину в последней инстанции и является субъективным мнением автора. Мы разберем основные вещи, которые кажутся самыми важными в процессе.
Читать дальше →