Статьи / Закладки / Профиль antonio26 / Хабр

Anton @antonio26

инженер данных

Профиль Статьи Посты Новости Комментарии 3

X5Tech 22 окт 2021 в 13:08

Собеседование на позицию Data Engineer в X5: чего ждать и как лучше подготовиться (часть 2)

6 мин

10K

Блог компании X5 TechData Engineering*Карьера в IT-индустрииBig Data*SQL*

В предыдущей статье мы поговорили про роль Data Engineer в Х5, какие задачи он решает и с каким технологическим стеком работает. Рассмотрели структуру собеседования, основные направления, по которым мы оцениваем кандидатов, и подробно разобрали базовые требования, предъявляемые нами к уровню владения Python.

В данной статье мы разберём требования к ключевым для Data Engineer в X5 навыкам: распределённые системы и вычисления на Hadoop / Spark, а также SQL и проектирование схемы данных.

roastapps 28 июн 2024 в 18:00

Скука как катализатор успеха

Простой

5 мин

5.6K

Мозг

Скучать полезней, чем вы думали! С помощью науки и экспериментов разберём почему мы постоянно бежим от скуки, каждую свободную минуту пытаемся чем-нибудь себя занять: в очереди — телефон, в машине — радио, дома вечерком — сериалы и даже не представляем насколько вредим себе этим процессом.

+10

iosgetthrough 19 янв в 15:15

Хочешь найти работу? Продай себя

Простой

15 мин

66K

Карьера в IT-индустрииУправление персоналом*Исследования и прогнозы в IT*

Туториал

Из песочницы

Я написала трилогию из статей по поиску работы, в которых покажу, что надо делать, чтобы компании наняли именно тебя. В этой статье я дам тебе новый взгляд на найм и обучу инструментам, с которыми ты выделишься среди конкурентов. Во второй укажу на ошибки в твоём резюме и мы вместе их исправим, чтобы игнорировать и фильтровать тебя компаниям стало невозможно. В третьей расскажу всё, что знаю про продающую самопрезентацию, благодаря которой ты сможешь получить работу с хорошей зарплатой.

План понятен? Хорошо. Осталась всего одна деталь!

Чтобы моя статья действительно дала тебе пользу, представь: ты заплатил мне за неё 100 тысяч рублей и она написана специально по твоему заказу.

Представил? Отлично, тогда продолжай читать внимательно, ведь деньги ты уже перевел.

Давай сначала расскажу, как тебя воспринимают компании на работодательском рынке. Такой рынок живет тем, что кандидатов на нем кратно больше, чем рабочих мест. В таких условиях рождается нездоровая конкуренция и её нужно уметь преодолевать. Конкурс из 500 человек на одно место это не шутка, а обычные цифры с хедхантера.

прорваться вместе

197

Foppa 19 окт 2024 в 16:35

Пацанский английский. Ленивый способ наконец выучить английский язык: без курсов, без зубрежки, бесплатно

Простой

9 мин

192K

Изучение языковМозг

Туториал

Привет, Хабр! Я не являюсь преподавателем английского языка, но, как и многие присутствующие, долгие годы хотел постигнуть его дебри. В школе я от всего сердца завидовал ребятам, которым он даётся налегке, без видимых трудностей. Я же зубрил, пытался понять, получал двойки… и люто ненавидел английский язык как школьный предмет. Мечтал владеть, но совсем не хотел учить. После школы и университета приступал к его изучению несколько раз, однако каждый мой всплеск быстро угасал.

Наконец случилось чудо. В одну из очередных попыток я нащупал способ, который позволил продолжать развиваться, делать успехи, осознавать их и разжигать мой огонь всё сильнее и сильнее. Сегодня мне сложно представить день, проведенный без английского языка. И мне не хочется говорить без “изучения”, поскольку не сказал бы, что я именно учу. Скорее — постепенно “прошиваюсь” английским, как это обычно происходит с новорожденным детьми, которые постепенно начинают говорить, слушая и наблюдая за своими родителями. В настоящее время мой словарный запас не такой большой: 9 — 12 тысяч слов (зависит от теста). Я свободно смотрю видео на Ютубе разнообразной тематики (видеоуроки, спорт, фитнес, музыка, путешествия, кулинария, обзоры и т.д.), читаю документацию, компьютерную и популярную литературу, публицистику.

+148

293

Comedian 21 фев 2018 в 01:44

Введение в Data Vault

6 мин

142K

Анализ и проектирование систем*Хранилища данных*

Большинство компаний сегодня накапливают различные данные, полученные в процессе работы. Часто данные приходят из различных источников — структурированные и не очень, иногда в режиме реального времени, а иногда они доступны в строго определенные периоды. Все это разнообразие нужно структурированно хранить, чтоб потом успешно анализировать, рисовать красивые отчеты и вовремя замечать аномалии. Для этих целей проектируется хранилище данных (Data Warehouse, DWH).

Существует несколько подходов к построению такого универсального хранилища, которые помогают архитектору избежать распространенных проблем, а самое главное обеспечить должный уровень гибкости и расширяемости DWH. Об одном из таких подходов я и хочу рассказать.

Кому будет интересна эта статья?

Ищете более функциональную альтернативу схеме «звезды» и Третьей Нормальной Форме?
У Вас уже есть хранилище данных, но его тяжело дорабатывать?
Нужна хорошая поддержка историчности, а текущая архитектура для этого не подходит?
Возникают проблемы при сборе данных из нескольких источников?

Если на какой-либо из этих вопросов Вы ответили утвердительно, и при этом не знакомы с Data Vault — прошу заглянуть под кат!

Читать дальше →

EgorKotkin 23 апр 2021 в 11:52

Новая концепция диабета 2 типа: опасный, но обратимый

12 мин

37K

Блог компании RUVDS.comБиотехнологииЗдоровьеМедгаджетыНаучно-популярное

Технотекст 2021

Исторически сахарный диабет считался страшным заболеванием — в тяжёлых стадиях ему сопутствуют такие побочные эффекты, как слепота и гангрена конечностей. Большую часть истории диабета, известного ещё врачам Древней Греции как минимум 2500 лет назад, он считался неизлечимым. Терапия диабета уколами инсулина появилась только в XX веке: в следующем году исполнится 100 лет первому уколу инсулина, которым в 1922 году канадский доктор спас умиравшего от диабета 14-летнего мальчика. Однако инсулинотерапия — это лечение только для диабета 1 типа, при котором в организме человека нарушена выработка собственного инсулина. При более распространённом диабете 2 типа уколы инсулина — это не лечение, а симптоматическая терапия, которая только замедляет развитие болезни. Причины этого были открыты позже.

В XXI веке, благодаря развитию эндокринологии (науки о гормонах) представления о диабете 2 типа поменялись радикально. С одной стороны, список сопутствующих развитию диабета проблем только вырос и теперь включает сердечно-сосудистые заболевания, многие случаи рака и болезнь Альцгеймера. С другой — появившееся представление о пропущенном звене, их общем метаболическом корне — гормональном сбое, известном как инсулинорезистентность, привело к пониманию не только как диабет развивается, но и как это развитие остановить и обратить вспять, не доводя до инсулиновой иглы.

Симптоматику предиабета следует знать всем, кому за 30

+90

165

divolko3 29 фев 2024 в 11:38

Wubuntu: Linux с интерфейсом Windows 11 и возможностью запускать «виндовый» софт. А ещё и Windows 95

3 мин

69K

Блог компании МТС*nix*Операционные системы

Дистрибутивов Linux достаточно много — на любой запрос, вероятно, можно найти подходящий вариант. Не так давно появился ещё один дистрибутив, который внешне является почти полной копией Windows 11. Также он способен запускать Windows-программы и работает на относительно старых компьютерах и ноутбуках. Называется он Wubuntu, и подробности о нём — под катом.

+42

X5Tech 16 июн 2021 в 18:31

Почему в X5 Group выделили Data Engineering в отдельный центр компетенций

5 мин

4.1K

Блог компании X5 TechData Engineering*Карьера в IT-индустрииBig Data*Python*

Когда в X5 Group начали развивать BigData, то помимо самой DMP платформы и BI-аналитики, в компании стали активно запускать цифровые продукты, построенные на основе больших данных, использующие сложную аналитику и машинное обучение. Для примера можно привести продукты по прогнозированию спроса, управлению ассортиментной матрицей магазинов, предсказанию отсутствия товаров на полках, динамического ценообразования и т.п

GromovBI 23 ноя 2023 в 10:51

Выбор СУБД: шпаргалка, чтобы не запутаться

6 мин

34K

Big Data*Хранение данных*Хранилища данных*

Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.

Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.

MaxRokatansky 11 ноя 2023 в 15:45

ClickHouse: Передовой инструмент для оперативной обработки данных

17 мин

74K

Блог компании OTUSАдминистрирование баз данных*

Перевод

ClickHouse — система управления базами данных с открытым исходным кодом, построенная на основе колонок. Это означает, что данные хранятся и обрабатываются не по строкам, а по столбцам. Она стала широко популярной среди ИТ-организаций благодаря своим способностям по быстрой обработке данных и масштабируемости. Высокопроизводительная обработка запросов в ClickHouse делает ее идеальным выбором для работы с большими объемами данных и оперативной аналитики.

В данной статье мы подробно рассмотрим, что представляет собой разработка ClickHouse, а также как организации используют ее для хранения и обработки данных. Еще мы обсудим недостатки этой системы и разберемся, насколько подходит она под ваши потребности.

-1

k0mar0v 11 ноя 2023 в 14:55

Новый релиз Ubuntu Touch: Linux-смартфоны везде и всюду. Что обновилось в OTA-3?

5 мин

25K

Блог компании МТССофтРазработка под Linux*СмартфоныГаджеты

Как мы уже писали, сейчас Ubuntu Touch продолжает развиваться. Этим занимается команда Ubports. Сейчас представлена прошивка OTA-3 Focal (over-the-air). Она представляет собой третий выпуск Ubuntu Touch, который базируется на пакетной базе Ubuntu 20.04.

Обновление формируется для относительно большого количества моделей, включая Asus Zenfone Max Pro M1, Fairphone 3/3+ и 4, F(x)tec Pro1 X, Google Pixel 3a/3a XL, Vollaphone 22, Vollaphone X23, Vollaphone X, Vollaphone, JingPad A1, Sony Xperia X, Xiaomi Poco X3 NFC/X3, Xiaomi Redmi Note 9, 9 Pro, 9 Pro Max и 9S, Xiaomi Poco M2 Pro. Готовы и бета-версии для таких устройств, как Pine64 PinePhone, PinePhone Pro, PineTab и PineTab2. Подробности — под катом.

+32

Endrey_cot 5 ноя 2023 в 22:15

7 шагов к результату эффективного обучения

Простой

16 мин

24K

Читальный залНаучно-популярноеЛайфхаки для гиков

Обучение воспринимается нами как сложный процесс, где мы часто теряемся и не знаем с чего начать. Но как и любое другое дело, оно разбивается на множество простых шагов.

Данная статья будет вашим персональным гайдом/учебником (называйте как хотите), по тому как именно обучаться, на что следует обращать внимание и какие техники могут помочь вам.

Проблемы мы обозначили 7-ю шагами, на которые вам нужно будет сделать акцент, чтобы повысить свою эффективность.

-3

SacredDiablo 20 сен 2023 в 12:02

Форматы ORC и Parquet на базе HDFS

Простой

10 мин

6.7K

Блог компании Конференции Олега Бунина (Онтико)Блог компании билайнBig Data*Хранение данных*

Ретроспектива

Каждая компания непрерывно производит и хранит кучу данных, и это вызывает множество проблем. Объёмы хранилищ не бесконечны, как и ресурсы железа. Вот только оптимизация обработки и хранения данных не всегда приносит желаемые результаты. Как всё настроить так, чтобы значительно сократить объём занимаемый ими на диске?

У нас получилось! Мы снизили количество данных на диске в 3 раза, при этом ускорив их обработку. И сейчас расскажу как. Меня зовут Александр Маркачев, я Data Engineer команды Голосовой Антифрод в beeline. В статье затронем тему форматов ORC и Parquet, как их правильно использовать и хранить, чтобы всем было хорошо.

x-sile 17 окт 2023 в 15:33

MLOps в билайн: как катить машинное обучение в production без ML-инженеров. Часть I

Средний

10 мин

6.7K

Блог компании билайнIT-инфраструктура*Big Data*Машинное обучение*DevOps*

Туториал

Всем привет! Меня зовут Николай Безносов, я отвечаю за применение и развитие машинного обучения и продвинутой аналитики в билайне. В одной из прошлых статей мои коллеги рассказывали о месте Seldon в ML-инфраструктуре компании, а сегодня мы поднимемся на уровень выше и поговорим о том, что из себя представляет MLOps в билайне в целом - как с точки зрения инфраструктуры, так и с точки зрения процессов.

В статье речь пойдет о нашем опыте создания ML-платформы, которая помогает дата-сайентистам самостоятельно управлять всем жизненным циклом ML-моделей - от разработки до постановки в production. Я рассчитываю, что статья будет полезна как небольшим командам, которые только начинают выстраивать у себя ML-инфраструктуру, так и корпорациям с большим количеством команд и жесткими требованиями к безопасности, которые при этом хотят эффективно масштабироваться.

Статья будет состоять из двух частей. В первой части мы посмотрим верхнеуровнево, как и по каким причинам менялись наши ML-процессы и инфраструктура в билайне - с чего мы начинали и к чему в итоге пришли. Во второй части поговорим о конкретных инструментах и технологиях, которые мы внедрили, чтобы сделать наш процесс разработки и деплоя моделей простым, воспроизводимым, автоматизируемым и наблюдаемым.

+17

valexv 18 сен 2021 в 01:29

Apache Spark: оптимизация производительности на реальных примерах

13 мин

28K

Блог компании NeoflexApache*Big Data*Хранилища данных*Data Engineering*

Из песочницы

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

+18

metaformus 1 сен 2020 в 17:46

Частотный анализ русского текста и облако слов на Python

6 мин

76K

Машинное обучение*

Из песочницы

Частотный анализ является одним из сравнительно простых методов обработки текста на естественном языке (NLP). Его результатом является список слов, наиболее часто встречающихся в тексте. Частотный анализ также позволяет получить представление о тематике и основных понятиях текста. Визуализировать его результаты удобно в виде «облака слов». Эта диаграмма содержит слова, размер шрифта которых отражает их популярность в тексте.

Обработку текста на естественном языке удобно производить с помощью Python, поскольку он является достаточно высокоуровневым инструментом программирования, имеет развитую инфраструктуру, хорошо зарекомендовал себя в сфере анализа данных и машинного обучения. Сообществом разработано несколько библиотек и фреймворков для решения задач NLP на Python. Мы в своей работе будем использовать интерактивный веб-инструмент для разработки python-скриптов Jupyter Notebook, библиотеку NLTK для анализа текста и библиотеку wordcloud для построения облака слов.

Читать дальше →

Alexei_Popov 23 апр 2023 в 16:55

Мой поиск аналога Microsoft Visio

Простой

5 мин

70K

Инженерные системы*Визуализация данных*Visual Studio*Анализ и проектирование систем*Подготовка технической документации*

Из песочницы

Доброго дня всем.

В сегодняшней статье хотел бы поделиться проведенным анализом приложений, потенциально способных заменить MS Visio для разного рода задач.

+33

UprightMan 10 фев 2023 в 11:00

5 неочевидных возможностей FastAPI: упрощаем работу с бэкендом на Python

Средний

11 мин

26K

Блог компании FirstVDSPython*Программирование*API*

Туториал

Перевод

Почти все, с чем мы сталкиваемся в интернете, имеет отношение к API, а точнее к версиям этого программного интерфейса, использующим для работы HTTP-запросы. Когда мы хотим узнать прогноз погоды, интерфейс браузера или мобильного приложения вызывает API Яндекс.Погоды или API Gismeteo. Когда прокладываем кратчайший маршрут из одного места в другое, Яндекс.Карты вызывают соответствующее API.

Пользовательские API-интерфейсы могут быть реализованы на Python с использованием нескольких фреймворков. В этой статье остановимся на особенностях работы с одним из самых популярных вариантов — платформой FastAPI, библиотеки которой активно используют такие технологические гиганты, как Microsoft, Netflix, Uber. Речь пойдет о некоторых расширенных функциях FastAPI, которые могут использовать в своих проектах те разработчики, у кого уже есть базовые знания о фреймворке.

+13

Plarium 6 мар 2019 в 12:44

Математика для Data Scientist: необходимые разделы

3 мин

97K

Блог компании PlariumЧитальный залМатематика*Data Mining*Big Data*

Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.

Для специалиста Data Science важны следующие направления математики:

статистика;
теория вероятностей;
математический анализ;
линейная алгебра.

В предыдущей статье «Data Science: книги для начального уровня» специалисты Plarium Krasnodar рекомендовали литературу по программированию на Python, а также по визуализации результатов и machine learning. В этой статье они предлагают подборку материалов и книг по математике, полезных в Data Science.

Читать дальше →

+12

Plarium 9 янв 2019 в 15:01

Data Science: книги для начального уровня

3 мин

72K

Блог компании PlariumBig Data*Data Mining*Python*Машинное обучение*

Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.

Ключевыми навыками для начинающих специалистов являются:

умение писать код (Python);
способность визуализировать свои результаты;
понимание того, что происходит «под капотом».

На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.

Читать дальше →

+17

Собеседование на позицию Data Engineer в X5: чего ждать и как лучше подготовиться (часть 2)

Скука как катализатор успеха

Хочешь найти работу? Продай себя

Пацанский английский. Ленивый способ наконец выучить английский язык: без курсов, без зубрежки, бесплатно

Введение в Data Vault

Кому будет интересна эта статья?

Новая концепция диабета 2 типа: опасный, но обратимый

Wubuntu: Linux с интерфейсом Windows 11 и возможностью запускать «виндовый» софт. А ещё и Windows 95

Почему в X5 Group выделили Data Engineering в отдельный центр компетенций

Выбор СУБД: шпаргалка, чтобы не запутаться

ClickHouse: Передовой инструмент для оперативной обработки данных

Новый релиз Ubuntu Touch: Linux-смартфоны везде и всюду. Что обновилось в OTA-3?

7 шагов к результату эффективного обучения

Форматы ORC и Parquet на базе HDFS

MLOps в билайн: как катить машинное обучение в production без ML-инженеров. Часть I

Apache Spark: оптимизация производительности на реальных примерах

Частотный анализ русского текста и облако слов на Python

Мой поиск аналога Microsoft Visio

5 неочевидных возможностей FastAPI: упрощаем работу с бэкендом на Python

Математика для Data Scientist: необходимые разделы

Data Science: книги для начального уровня

Информация

Специализация