Как стать автором
Обновить
60.4

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Собеседование на позицию Data Engineer в X5: чего ждать и как лучше подготовиться (часть 2)

Время на прочтение6 мин
Количество просмотров11K

В предыдущей статье мы поговорили про роль Data Engineer в Х5, какие задачи он решает и с каким технологическим стеком работает. Рассмотрели структуру собеседования, основные направления, по которым мы оцениваем кандидатов, и подробно разобрали базовые требования, предъявляемые нами к уровню владения Python.

В данной статье мы разберём требования к ключевым для Data Engineer в X5 навыкам: распределённые системы и вычисления на Hadoop / Spark, а также SQL и проектирование схемы данных.

Читать далее

Вот как Амазон измеряет свою эффективность

Время на прочтение18 мин
Количество просмотров8.3K

"Я ждал такую книгу, как Working Backwards, очень и очень долго."

Бизнес литературу полезно читать, чтобы не забывать про контекст, цели и человеческую составляющую сервисов. Помним, что конечные цели должны быть измеримы и контролируемы. Как раз об этом поговорим в статье Седрика Чина.

Читать далее

Подборка бесплатных курсов для тех, кто делает первые шаги в Data Science

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров80K

Курсы упорядочены по степени необходимости, начиная с базовых знаний, без которых будет тяжело даваться дальнейшее изучение (линейная алгебра, статистика, базовое знание python и т.д.), переходя к более сложным. Старался избавиться от избыточности, оставляя только самые ценные, на мой взгляд, курсы. Эти бесплатные курсы легко заменят вам платные.

Читать далее

Data Science: лучшие учебные курсы и программы сертификации

Время на прочтение7 мин
Количество просмотров26K
Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).



Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.
Читать дальше →

Как с применением Power BI создавалась система анализа финансово-хозяйственной деятельности предприятий России и зачем

Время на прочтение31 мин
Количество просмотров7.5K

Данный материал является, своего рода, рефератом, описывающим созданный продукт с применением инструмента Power BI, основанный на открытых статистических данных бухгалтерской отчётности предприятий России. В работе сделана попытка представить совокупность, как единым субъект, реагирующий на изменения, который, тем не менее, можно разложить на региональные составляющие и описывающие деятельность.

В статье показан полный цикл создания (сквозная задача), а также представлена возможность скачать и ознакомиться с продуктом.

Ознакомиться →

Расширение и перемещение ансамбля ZooKeeper

Время на прочтение3 мин
Количество просмотров2.8K

Всех приветствую! Недавно перед нашей командой DBA предстала задача по перемещению ансамбля ZooKeeper на другие сервера. Проблема оказалась в том, что в просторах интернета нет доступного руководства для ZooKeeper версии 3.6.2 и выше. Нашлось руководство для версии 3.4.5, но таким образом расширить и переместить наш ансамбль мы не решились.

Может появиться вопрос: Почему нельзя просто переместить файлы на другой сервер и запустить ансамбль там? Наш ансамбль хранит данные по слиянию и реплицированию данных кластера Clickhouse.

Читать далее

Как размечать данные для машинного обучения

Время на прочтение6 мин
Количество просмотров12K

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.

Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.

Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.

В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:

  • Что такое разметка данных?
  • Как она работает?
  • Какие оптимальные практики разметки данных существуют?
  • Как компании размечают свои данные?
  • Нужна ли мне платформа инструментария для разметки данных?
Читать дальше →

Airflow + Ray: Data Science История

Время на прочтение8 мин
Количество просмотров4K

Всем привет! Основным инструментом оркестрации задач для обработки данных в Леруа Мерлен является Apache Airflow, подробнее о нашем опыте работы с ним можно прочитать тут. А также мы находимся в постоянном поиске инструментов и фреймворков для упрощения работы наших дата сайентистов и дата инженеров. Один из таких инструментов – фреймворк Ray, который позволяет создавать ML пайплайны из DAGов Airflow. В статье от Astronomer подробно рассматривается, как начать его использовать и с его помощью быстро развернуть и обучить модель.

Читать далее

Как собрать требования к дашборду у технолога, который всегда занят

Время на прочтение8 мин
Количество просмотров5.8K

Бывало ли у вас так, что, приготовив потрясающе аппетитное блюдо, на дегустации вы обнаруживали, что что-то напутали с ингредиентами, например, пересолили рыбу? У меня бывало…

Я старший консультант по внедрению бизнес-приложений ИТ-компании КРОК, и это моя задача, чтобы как у плиты, так на рабочем месте, в наших проектах по внедрению озер данных и разработке BI-инструментов для производственных компаний все ингредиенты были на месте. А для этого нужно знать, на какой кухне ты готовишь.

Озера данных, наверное, не были бы так ценны и востребованы, если бы не позволяли «сдруживать» разнообразные стандартные производственные системы и аналитические решения. Для меня озеро - это база, платформа, если хотите, к которой прирастают аналитические решения (в моем случае - BI-дашборды), с которыми непосредственно работает конечный потребитель.

При создании BI-дашбордов для производственных подразделений мне важно обеспечить их бизнес-ценность не только для заказчика в глобальном смысле – некоего металлургического или нефтегазового гиганта, но, прежде всего, для рядового пользователя: если пользователю есть толк от наших панелек, значит и Компания получит эффект.

Если кратенько описывать, то дашборды, которые мы разрабатываем, можно обобщенно отнести к направлению мониторинга отклонений.

Для чего они предназначены? Разберемся.

Изменить сохранения Spark Часть вторая: реализация партишенера

Время на прочтение44 мин
Количество просмотров2.8K

Изменить сохранения Spark! Часть вторая: реализация партишенера!

Читать далее

Apache Airflow и будущее инжиниринга данных: вопрос и ответы

Время на прочтение7 мин
Количество просмотров4.5K

Иногда мне попадаются статьи о будущем технологий, в которых это будущее выглядит ясно и непротиворечиво.

Недавно это была статья восход дата инжиниринга от Maxime Beauchemin – инженера данных из Airbnb и создателя фреймворка Apache Airflow. В Astronomer Apache Airflow - основа технического стека: наши интеграционные потоки построены как пайплайны данных на направленных ациклических графов (DAG) в Airflow. Такие статьи как эта позволяют понять, почему именно сейчас лучшее время для компаний, таких как Astronomer.

После прочтения статьи я связался с Максом и попросил его об интервью, и к моей огромной радости, он согласился и дал полные ответы на вопросы про Apache Airflow и будущее дата инжиниринга.

Читать далее

Опыт извлечения обучающих данных из генеративных языковых моделей

Время на прочтение7 мин
Количество просмотров1.3K

Вдохновившись опытом зарубежных коллег по извлечению данных из больших языковых моделей из следующих источников:

A. Extracting Training Data from Large Language Models/Извлечение обучающих данных из больших языковых моделей (генеративных)/Authors: Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee1, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea, Colin Raffel (https://arxiv.org/abs/2012.07805)

B. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks/Открывающий секреты: оценка и тестирование непреднамеренного запоминания в нейронных сетях/ Nicholas Carlini, Chang Liu, Úlfar Erlingsson, Jernej Kos, Dawn Song. (https://arxiv.org/abs/1802.08232).

C. Membership Inference Attacks Against Machine Learning Models/Атаки на определение членства против моделей машинного обучения/ Reza Shokri, Marco Stronati, Congzheng Song, Vitaly Shmatikov (https://arxiv.org/abs/1610.05820).

D. An Attack on InstaHide: Is Private Learning Possible with Instance Encoding?/Атака на InstaHide: Возможно ли частное (приватное/не допускающее утечек) обучение с помощью кодировния экземпляра при обучении моделей / Nicholas Carlini, Samuel Deng, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Shuang Song, Abhradeep Thakurta, Florian Tramèr (https://arxiv.org/abs/2011.05315).

E. Comprehensive Privacy Analysis of Deep Learning: Passive and Active White-box Inference Attacks against Centralized and Federated Learning/ Всесторонний анализ конфиденциальности глубокого обучения: Пассивные и активные атаки вывода обучающего набора данных на модель в белом ящике при централизованном и федеративном обучении/ Milad Nasr, Reza Shokri, Amir Houmansadr (https://arxiv.org/abs/1812.00910).

Читать далее

Хранилища признаков: Сторона данных в конвейерах машинного обучения

Время на прочтение7 мин
Количество просмотров3.8K

По мере того как все больше моделей развертывается в современных конвейерах, снова и снова возникате понимание, что данные и их фичаризация** (featurization) важнее всего остального. Последнее поколение систем больших данных масштабировало ML на реальные датасеты, теперь хранилища данных быстро становятся новым рубежом для подключения моделей к данным в реальном времени

Читать далее

Ближайшие события

Изменить сохранения Spark! Часть первая: разделяй и… сортируй

Время на прочтение23 мин
Количество просмотров8.6K

В этой статье вы узнаете о том, какими способами мы пытались обновлять таблицы в Hadoop, содержащие сотни терабайт данных.

И если в начале нашего пути процесс обновления длился несколько часов (до десяти-двенадцати часов), то теперь ему требуется всего тридцать-сорок минут, а использование вычислительных ресурсов уменьшено вдвое!

При этом была создана библиотека расширения Spark, которая предоставляет DataSource для преобразования данных в файлах в формат этого DataSource, изменения данных командой MERGE через DataFrame API или SQL, а в будущем ещё и UPDATE, DELETE и некоторые операции DDL.

Файлы при этом можно будет читать любым привычным способом, ведь они не модифицированы, а метаданные не обязательны для их чтения.

Вы увидите код этой библиотеки на языке Scala, который сможете использовать, а может быть даже доработать и поделиться своими успехами.

Я постараюсь пояснить, почему был сделан тот или иной выбор, но могу умолчать о чём-то, что кажется очевидным, или, наоборот, о чём я не имею представления. Вы сможете задать вопросы, а я постараюсь ответить на них.

Это первая статья из нескольких, и в ней будет рассказано только о немногих реализованных классах (они нужны для распределения данных определённым способом), поэтому наберитесь терпения, я расскажу всё по частям. Впрочем, пора перейти к повествованию.

Читать далее

Clickhouse. Расширение кластера

Время на прочтение6 мин
Количество просмотров17K

Всем привет! Я хотел бы поделиться своим опытом по расширению высоконагруженного кластера ClickHouse, немного о том как работает репликация и шардирование.

Читать далее

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

Время на прочтение8 мин
Количество просмотров14K


Open In Colab


При разработке систем распознавания речи мы сталкиваемся с заблуждениями среди потребителей и разработчиков, в первую очередь связанными с разделением формы и сути. Одним из таких заблуждений является то, что в устной речи якобы "можно услышать" грамматически верные знаки препинания и пробелы между словами, когда по факту реальная устная речь и грамотная письменная речь очень сильно отличаются (устная речь скорее похожа на "поток" слегка разделенный паузами и интонацией, поэтому люди так не любят монотонно бубнящих докладчиков).


Понятно, что можно просто начинать каждое высказывание с большой буквы и ставить точку в конце. Но хотелось бы иметь какое-то относительно простое и универсальное средство расстановки знаков препинания и заглавных букв в предложениях, которые генерирует наша система распознавания речи. Совсем хорошо бы было, если бы такая система в принципе работала с любыми текстами.


По этой причине мы бы хотели поделиться с сообществом системой, которая:


  • Расставляет заглавные буквы и основные знаки препинания (точка, запятая, дефис, вопросительный знак, восклицательный знак, тире для русского языка);
  • Работает на 4 языках (русский, английский, немецкий, испанский);
  • По построению должна работать максимально абстрактно на любом тексте и не основана на каких-то фиксированных правилах;
  • Имеет минимальные нетривиальные метрики и выполняет задачу улучшения читабельности текста;

На всякий случай явно повторюсь — цель такой системы — лишь улучшать читабельность текста. Она не добавляет в текст информации, которой в нем изначально не было.

Читать дальше →

Нам нужны не дата-саентисты, а дата-инженеры

Время на прочтение7 мин
Количество просмотров8.2K

Данные. Они повсюду и их становится только больше. За последние 5-10 лет data science привлекла множество новичков, пытающихся ощутить вкус этого запретного плода.

Но как сегодня выглядит ситуация с наймом в data science?

Вот краткое изложение статьи в двух предложениях.

TLDR: в компаниях на 70% больше вакансий на должности дата-инженеров, чем на должности дата-саентистов. Так как мы обучаем новое поколение практиков в сфере обработки данных и машинного обучения, давайте сделаем больший упор на инженерные навыки.

Так как моя работа заключается в разработке обучающей платформы для профессионалов в области данных, я много думаю о том, как эволюционирует рынок вакансий, связанных с данными (машинное обучение и data science).

Общаясь с десятками перспективных новичков в сфере данных, в том числе и со студентами лучших вузов мира, я увидел серьёзное недопонимание того, какие навыки являются наиболее важными, помогают выделиться из толпы и подготовиться к карьере.

Дата-саентист может работать в любом сегменте следующих сфер: моделирование машинного обучения, визуализация, очистка и обработка данных (например, преобразование данных для SQL), проектирование и развёртывание на производстве.

С чего вообще начинать рекомендации курса обучения для новичков?

Данные говорят громче слов. Поэтому я решил провести анализ должностей в сфере данных, на которые есть вакансии у компаний, выходивших из Y-Combinator с 2012 года. Вопросы, которыми я руководствовался в своих исследованиях:

Читать далее

Руководство по типам аннотирования изображений

Время на прочтение6 мин
Количество просмотров2.3K

Задаётесь вопросом, какой тип аннотирования изображений лучше всего подойдёт для вашего проекта?

Аннотирование изображений — одна из наших основных специальностей, и мы с радостью поделимся информацией о плюсах и минусах каждого типа: от простых ограничивающих прямоугольников до полномасштабной попиксельной семантической сегментации.

Учтите, что это руководство относится только к типу визуального аннотирования, но на уровне изображений или объектов можно создавать дополнительные метаданные. К ним относятся строки, числа, булевы значения, выбор одного или нескольких вариантов, и т.п. Например, ограничивающий прямоугольник для автомобилей в сцене может содержать такие метки, как цвет, производителя, регистрационный номер и т.д.
Читать дальше →

KotlinDL 0.3: поддержка ONNX, Object Detection API, 20+ новых моделей в ModelHub, и много новых слоев

Время на прочтение12 мин
Количество просмотров2.6K

Представляем версию 0.3 библиотеки глубокого обучения KotlinDL!

Вас ждет множество новых фич: новые модели в ModelHub (включая модели для обнаружения объектов и распознавания лиц), возможность дообучать модели распознавания изображений, экспортированные из Keras и PyTorch в ONNX, экспериментальный высокоуровневый API для распознавания изображений и множество новых слоев, добавленных контрибьюторами. Также KotlinDL теперь доступен в Maven Central.

В этой статье мы коснемся самых главных изменений релиза 0.3. Полный список изменений доступен по ссылке.

Узнать больше о релизе

Распознаем медицинские тексты

Время на прочтение11 мин
Количество просмотров4.1K

Это третья публикация в рамках цикла статей по изучению московской базы ковидных больных. В настоящей работе были созданы векторные представления медицинских терминов, которые теперь доступны на Github.

Читать далее

Работа

Data Scientist
70 вакансий