Articles / Bookmarks / Profile of RogerSmith / Habr

@RogerSmith

Пользователь

Profile Publications Comments 6Bookmarks 57

eaterman99 Jun 9 at 12:12

Я проработал в IT больше 10 лет. Вот 5 вещей, которые я бы хотел знать, если бы начинал сейчас

Easy

5 min

187K

IT career

Retrospective

Привет, дорогой Хабр. Душа просит выговориться, так что я пришел к тебе – заодно надеюсь поделиться чем-то полезным с молодыми айтишниками. За свою карьеру я прошел через фриланс, стажировки, корпорации, смену профессии и даже запуск собственного SaaS'а (об этом как-нибудь отдельно...). Я наделал кучу ошибок и набил болезненных шишек. Под катом я вспоминаю 5 важных уроков, которые я бы хотел получить 10 лет назад.

Под кат →

+146

236

AntonSenior Jun 6 at 13:48

Базы данных простыми словами

Easy

4 min

6.6K

SQL*Database Administration*Open data*Data visualization*Data storage*

Review

Привет, Хабр!
Это статья больше для начинающих или любознательных, тут я постарался простыми словами объяснить что же такое эта база данных и для чего они используются на проектах.

-9

GromovBI May 27 at 10:28

Ландшафт Open Source Data Engineering в 2024 году: место России и мировые тенденции

13 min

3.5K

Big Data*Data visualization*Data Engineering*

Недавно на Practical Data Engineering Substack вышла статья, посвященная общемировому развитию Open Source дата-инжиниринга, которая может оказаться полезной и для российских специалистов. Мы перевели статью, в полном виде она опубликована здесь (ссылка). А в этом посте мы предлагаем вам наше осмысление результатов этой статьи и State of Data Engineering вместе с собранными нами данными непосредственно по России.

Предыстория

2023 год был примечателен не только всплеском активности в области генеративного ИИ и вокруг продуктов, подобных ChatGPT, но и значительным влиянием на сферу инженерии данных. Появление новейших инструментов и фреймворков открыло перед дата-инженерами целый спектр новых возможностей. Надо уметь выбрать инструмент для решения задачи и этот навык является ключевым для дата-инженера.

Многие известные отчеты, вроде MAD Landscape или State of Data Engineering, предлагают обширный обзор инструментов и сервисов в этой области. Однако основной фокус данного обзора – open-source инструменты, используемые для работы с данными на всех этапах жизненного цикла data-engineering.

Ниже представлены данные об экосистеме data engineering по состоянию на начало на 2024 года:

paulbuzakov May 10 at 22:13

Git: Очередной лист Вопросов и Ответов

Easy

3 min

11K

Git*

Review

В статье я постарался затронуть базовые темы в виде вопрос/ ответ на горячо любимые темы на собеседованиях и не только.

+24

JuliaVolkova May 7 at 09:08

Мегагайд: культура работы с Git

Easy

16 min

31K

Website development*Open source*Programming*IT Standards*Яндекс Практикум corporate blog

Review

Привет всем! Меня зовут Юля, я фронтенд-разработчик, наставник на курсах по JS и React и организатор профессионального сообщества Tbilisi JS. В Практикуме я помогаю студентам на курсе «React-разработчик».

За время работы в разных компаниях и над разными проектами я поняла, что Git — это не только (и не столько!) знание самой технологии и конкретных команд, но и определённая культура взаимодействия, практики, подходы, договорённости. Всё это помогает участникам команды лучше понимать друг друга и работать быстрее и чётче.

Поговорим как раз об этом — о том, что формирует культуру работы с Git: начнём с конвенций именования коммитов и закончим практиками работы в пуллреквесте. В конце статьи я поделюсь полезными ссылками на интерактивные обучалки, шпаргалки и гайды.

+31

erbanovanastasia May 7 at 11:36

Linux, Git и базы данных: что почитать новичкам в Академии Selectel

4 min

8.5K

Configuring Linux*System administration*Programming*Git*Selectel corporate blog

Источник.

Новичкам бывает сложно войти в администрирование. Комплексные курсы стоят дорого, а самостоятельный поиск информации заканчивается пополнением закладок, о которых вспоминают раз в год. В тексте собрали шесть бесплатных курсов по рекомендации от наших коллег. Их можно пройти сразу или постепенно — сохраним ваш прогресс, когда бы вы ни вернулись.

Читать дальше →

+52

badcasedaily1 May 2 at 20:48

Управление оффсетами в Kafka

Easy

6 min

3.1K

Apache*OTUS corporate blog

Review

Сегодня в статье разберем, как Kafka обрабатывает оффсеты сообщений и какие существуют стратегии их сохранения и обновления.

Оффсет в Kafka — это числовой идентификатор, который указывает позицию каждого сообщения внутри партиции топика. Оффсеты представляют собой порядковые номера, начинаемые с нуля, и уникальны в рамках каждой партиции, но не между разными партициями. Т.е сообщение с оффсетом 5 в партиции 1 и сообщение с оффсетом 5 в партиции 2 — это разные сообщения.

artromone Apr 29 at 13:15

Принципы SOLID, только понятно

Easy

6 min

64K

Programming*Java*Perfect code*C++*Designing and refactoring*

From sandbox

Когда я только знакомился с принципами SOLID, я искал понятные статьи на Хабр. При этом пришлось прочитать не одну статью, и полное понимание пришло сильно позже. Хотелось бы, чтобы новички на более простых примерах смогли почувствовать, о чем эти принципы.

Изучить принципы

+59

Ninil Apr 24 at 12:34

[Перевод] Почему стоит начать писать собственные Spark Native Functions?

5 min

951

Scala*Big Data*Hadoop*Data Engineering*

Tutorial

Translation

Это мой вольный перевод статьи "Why You Should Start Writing Spark Custom Native Functions", которая вдохновила меня на некоторые собстенные изыскания по данной теме. Их результат я планирую опубликовать позже, а пока выношу на ваш суд этот перевод.

Статья на примере реализации функции по генератации UUID рассматривает, как писать Spark native функции, которые были бы "прозрачны" для Catalyst (в отличии от UDF, которые являются "черными ящиками" для него). Сравнение производительности ожидаемо показывает, что Catalyst Expressions значительно превосходят UDF при увеличении размера данных.

Кому интересно узнать, как писать Spark native функции - прошу под кат.

qlever Jan 16 at 15:45

Снежинка, Data Vault, Anchor Modeling. Какая методология проектирования DWH подойдет для вашего бизнеса?

6 min

8.6K

Big Data*Data storage*Data storages*

Зачем тратить время на выбор методологии построения DWH? Крайне важно правильно выбрать методологию моделирования данных для хранилища еще на этапе проектирования, это поможет обеспечить необходимый уровень гибкости и масштабируемости, а также позволит синхронизоваться с поставленными бизнес-задачами.

Сравниваем Снежинку, Data Vault и Anchor Modeling и предлагаем алгоритм выбора методологии построения DWH.

qlever Apr 22 at 18:26

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

9 min

5.5K

System Analysis and Design*Database Administration*Big Data*Data storage*Data storages*

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.

SobolevP Mar 24 at 16:28

Что нужно для внедрения Apache Superset

Medium

5 min

5.5K

Open source*Data visualization*Data storages*Project management*

Review

Уже много написано о его развертывании и о функционале, поэтому мне бы хотелось поговорить об опыте внедрения Superset с организационной точки зрения, а также я постараюсь описать техническое окружение и важные отличия от Power BI. Отдельно остановлюсь на системе прав доступа, т.к. в нашей компании этот вопрос важен.

ph_piter Mar 4 at 14:04

Книга «Объектно-ориентированный Python, 4-е изд.»

19 min

9.4K

Python*Programming*ООP*Издательский дом «Питер» corporate blogProfessional literature*

Привет, Хаброжители!

Глубоко погрузитесь в различные аспекты объектно-ориентированного программирования на Python, паттерны проектирования, приемы манипулирования данными и вопросы тестирования сложных объектно-ориентированных систем. Обсуждение всех понятий подкрепляется примерами, написанными специально для этого издания, и практическими упражнениями в конце каждой главы. Код всех примеров совместим с синтаксисом Python 3.9+ и дополнен аннотациями типов для упрощения изучения.

Стивен и Дасти предлагают вашему вниманию понятный и всесторонний обзор важных концепций ООП, таких как наследование, композиция и полиморфизм, и объясняют их работу на примерах классов и структур данных Python, что заметно облегчает проектирование. В тексте широко используются UML-диаграммы классов, чтобы было проще понять взаимоотношения между классами. Помимо ООП, в книге подробно рассматривается обработка исключений в Python, а также приемы функционального программирования, пересекающиеся с приемами ООП. В издании представлены не одна, а две очень мощные системы автоматического тестирования: unittest и pytest, а в последней главе детально обсуждается экосистема параллельного программирования в Python.

Получите полное представление о том, как применять принципы объектно-ориентированного программирования с использованием синтаксиса Python, и научитесь создавать надежные и устойчивые программы.

Читать дальше →

+10

qlever Mar 1 at 10:58

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

9 min

14K

Database Administration*Big Data*Data storage*Data storages*

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД.

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.

badcasedaily1 Feb 2 at 20:05

Helm Charts

Easy

7 min

17K

OTUS corporate blogKubernetes*

Добрый день!

Helm - это менеджер пакетов для Kubernetes. Этот инструмент позволяет нам обернуть Kubernetes приложения в удобные пакеты, называемые чартами, которые можно легко развертывать, обновлять и управлять ими в любой момент времени.

Чарты – это пакеты, которые могут включать в себя все для запуска приложения в Kubernetes, от deployments до services. Все это дает возможность работать с приложениями как с единой сущностью, а не как с набором отдельных ресурсов, которые еще и в ручную нужно настраивать...

Так же Helm упрощает управление зависимостями между приложениями, позволяет легко параметризировать настройки приложений через файлы values.yaml и дает возможность повторного использования чартов с помощью шаблонизации.

К тому же можно с легкостью откатиться к предыдущей версии нашего приложения.

ITSumma Feb 1 at 11:53

Как проводят оценку качества данных в Airbnb

Easy

9 min

2.5K

ITSumma corporate blogBig Data*Community management*DevOps*Statistics in IT

Case

Translation

Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.

Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.

Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.

Читать дальше →

+28

Digital_League Dec 7 2023 at 11:49

Как работать со словарями данных и оптимизировать запросы в ClickHouse

11 min

6.6K

IT Infrastructure*Data storage*Distributed systems*Лига Цифровой Экономики corporate blog

Приветствуем! На связи вновь Глеб Кононенко и Алексей Диков — разработчики из Лиги Цифровой Экономики. Ранее мы уже немного рассказывали про наш опыт работы с распределенными таблицами в ClickHouse в этой статье.

Сегодня хотим поделиться опытом оптимизации запросов и работы со словарями данных. Используемая версия ClickHouse: 23.8.7.24

fedorborovitsky Nov 17 2023 at 09:23

Разработка алгоритмов обработки данных в реальном времени на Python

Easy

14 min

Python*System Analysis and Design*Machine learning*М.Видео-Эльдорадо corporate blog

Привет, Хабр!

Разработчикам все чаще приходится создавать эффективные алгоритмы обработки и анализа данных по мере их поступления и без задержек. В этой статье мы рассмотрим ключевые аспекты разработки на Python начиная с выбора инструментов и заканчивая оптимизацией производительности и обеспечением безопасности системы. Погрузимся глубже в тему, предоставив вам множество примеров кода и практических рекомендаций для успешной разработки.

Читать дальше →

+11

Liloon21 Oct 31 2023 at 15:19

Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Easy

13 min

5.6K

Big Data*Слёрм corporate blogData Engineering*

Tutorial

Recovery Mode

Translation

Публикуем перевод гайда по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.

GrigoriyP Jul 20 2023 at 15:39

Jira worklog без плагинов

Easy

4 min

2.4K

Python*Project management*Atlassian*

From sandbox

В связи с ситуацией отключения плагинов табеля рабочего времени для пользователей РФ в Jira я начал изучать тему получения нужной информации по трудозатратам через Jira API. Даже нашел несколько статей на эту тему на уважаемом ресурсе. Но, как оказалось, некоторые моменты устарели, а некоторые были упущены авторами, либо они на них просто не наткнулись.

2 3