Статьи / Закладки / Профиль RomalVekasi / Хабр

Romal Vekasi @RomalVekasi^{read⁠-⁠only}

Программист Ваба-лаба-дапс-дап

Профиль Закладки 93

sergei_smirnov 21 авг в 13:24

Оптимизируем Shuffle в Spark

Средний

11 мин

1.8K

Блог компании X5 TechBig Data*IT-компанииData Engineering*

Туториал

Привет, Хабр! Меня зовут Сергей Смирнов, я аналитик в продукте CVM в X5 Tech. Я занимаюсь разработкой инструмента анализа A/B экспериментов. Мы ежедневно считаем десятки метрик для сотен экспериментов на десятки миллионов клиентов –- это терабайты данных, поэтому наш инструмент разработан на Spark.

В последнее время мы заметили, что существенную часть времени работы наших Spark-приложений занимает обмен данными (Shuffle) между исполнителями. В этой статье я расскажу о том, какие оптимизации помогли нам избавиться от самых тяжёлых операций Shuffle. Речь пойдёт не только о BroadcastJoin, но и о двух других неочевидных методах – предварительное репартицирование и бакетирование.

parshikov 7 авг в 07:44

Калибровка Life Work Balance. Система планирования, которую я развиваю уже 14 лет

Средний

9 мин

23K

Блог компании Альфа-БанкGTD*Карьера в IT-индустрии

Мнение

У вас бывает ощущение, что год прошел зря? Коллеги влетают на вершины карьерной лестницы, бизнес знакомых активно развивается, друзья объездили весь мир и покупают очередную квартиру? А у нас жопа в огне, мы тонем в рабочих задачах, едва успевая найти время на бытовую рутину, не оставляя время на себя?

+32

maxxborer 6 авг в 17:16

Эффективная постановка и ведение задач в IT-проектах

Простой

5 мин

Управление разработкой*Управление проектами*Управление продуктом*

Из песочницы

Привет, Хабр!

Как Frontend-разработчик, я в одной из своих прошлых работ столкнулся с проблемой неэффективной постановки задач в моей команде. Это привело к потере времени, недопониманию и снижению качества работы. Например, однажды мы потратили целую неделю на разработку функциональности, которая в итоге оказалась не той, что ожидал заказчик из-за неполного описания требований. В другой раз из-за отсутствия четких критериев приемки мы трижды возвращались к доработке уже "готовой" задачи.

В этой статье я поделюсь результатами своего исследования и практическими рекомендациями по улучшению процесса постановки и ведения задач, которые мы теперь применяем в работе.

Шаблоны и примеры задач будут в конце статьи.

+14

AshBlade 28 мар в 11:00

А в чем проблема работать с файлами?

Средний

53 мин

32K

Программирование*.NET*Системное программирование*Хранение данных*Разработка под Linux*

Аналитика

Лучший Техноавтор 2023

Данные - это важный компонент системы. Приложение может хранить их где угодно, но в результате все сводится к файлам. Файлы - это хорошая абстракция, но она протекает: если не знать того, как работают ОС или гарантии файловой системы, то легко выстрелить себе в ногу.

Меня увлекла тема отказоустойчивости, а конкретно - отказоустойчивой работы с файлами. В этой статье я попытался соединить все полученные знания:

Кто участвует в процессе записи

Ошибки, которые могут произойти

Что от нас зависит, а что нет

И самое главное - как это этого защититься

+169

varagian 22 янв в 10:25

Это один из лучших подходов к изучению английского, что я видел за последние годы — коллокации

7 мин

123K

Учебный процесс в ITЛайфхаки для гиковИзучение языков

Туториал

Значение слова – это его использование в языкеЛюдвиг Витгенштейн (сурс)

Что это вообще за магия такая? Коллокация – это просто пара или группа слов, которые часто возникают вместе. Такие комбинации звучат естественно для носителей языка, однако, тем, у кого язык не родной, бывает сложно догадаться до этой естественной комбинации.

А что если я скажу, что они улучшают сразу и вашу способность органично говорить, и канонично писать, и что совсем удивительно воспринимать английский от носителей языка на слух? И главный вопрос, который меня мучает – почему я узнал об этой технике изучения языка только полгода назад? (Рассказ об этой подготовке здесь.)

Внимательно посмотрите на пример с картинки. Как только собеседник начал(а) произносить “pitch d…” ваш мозг, зная нужные коллокации, подскажет, что там должно быть “dark”. Даже если вы плохо расслышали эту часть. Это один из механизмов, через который коллокации позволяют лучше воспринимать язык на слух.

Подробнее о том, как их учить и использовать и будет эта статья.

Disclaimer: если у вас филологическое образование, то вам наверное будет смешно, что кто-то открыл для себя коллокации и их использование для изучения иностранного языка в 202N году, а вот если вы, как и я, когда-то читали “randomize” как “рандомизе”, то возможно эта статья будет вам полезной.

Добро пожаловать под кат

+95

116

MaxRokatansky 17 мая 2021 в 16:30

Подготовка приложений Spark Streaming к использованию в рабочей среде

16 мин

Блог компании OTUSApache*

Перевод

Проект Apache Spark стал одним из основных инструментов в наборе средств инженеров по обработке больших данных. Он включает широкий ряд возможностей: от высокопроизводительного ядра пакетной обработки до ядра потоковой передачи в режиме, близком к реальному времени.

smlab_analyst 11 янв в 16:57

Есть проблема? Нет проблем. Инструменты принятия решений

Простой

7 мин

9.8K

Блог компании SM LabАнализ и проектирование систем*Управление проектами*Управление продуктом*Мозг

Туториал

Привет, Хабр! Меня зовут Ирина Ремизова, я куратор департамента системного анализа Sportmaster Lab, где, собственно, и курирую системных аналитиков, развивая их и рассказывая про инструменты принятия решений.

В этом посте расскажу про три инструмента, которые я использую в работе, и приведу ряд практических примеров. Если у вас иногда бывают проблемы с принятием решений (а таких проблем обычно достаточно, как и вызывающих их факторов), то, возможно, пост вам пригодится.

Начнём мы с ББМ. Это аббревиатура из трех слов, которая представляет собой три реакции человека при принятии решения. Боль (приобретение или потеря), боязнь сделать неправильное решение (верно или неверно) и муки (а что было бы, если…).

Почему бывает так трудно?

Когда у нас есть много факторов, или наоборот — их недостаточно, или мы не знаем, какие есть переменные в этих факторах, то возникает неопределенность. Вторая причина — сложность. Факторов может быть бесконечное множество, они могут быть запутаны в своих связях либо вообще исключать друг друга. У высокого риска есть последствия: наше решение влияет на нас, на окружающих людей, наши решения могут привести к радикальным изменениям судьбы.

Ещё есть межличностные проблемы. Вы приняли какое-то решение, которое повлияло на кого-то другого. Реакция этого человека тоже влияет на вас, поэтому при принятии решения можно сохранить отношения (или потерять их).

Последнее — безумное количество вариантов и альтернатив наших решений. Мы будем их перебирать, будем оценивать каждое из них, у каждого есть какой-то риск или какая-то цена. Такое большое количество альтернатив рождает трудность выбора.

+26

AshBlade 7 янв в 15:21

Чистая архитектура на примере

Простой

27 мин

47K

Программирование*.NET*Проектирование и рефакторинг*C#*

Туториал

Познакомил друга с понятием "Чистая архитектура" и он стал часто спрашивать меня как лучше сделать то или другое. Хотел дать ему к какому-нибудь туториал, но, к удивлению (плохому), не нашел подходящего.

Поэтому выкладываю небольшой обзор:

1.. Что такое чистая архитектура;
2.. Как можно реализовать;
3.. Мои мысли.

+11

PatientZero 26 дек 2023 в 10:27

Почему B-деревья быстрые?

Простой

7 мин

50K

Алгоритмы*Администрирование баз данных*Хранение данных*

Обзор

Перевод

B-дерево — это структура, помогающая выполнять поиск в больших объёмах данных. Она была изобретена более сорока лет назад, однако по-прежнему используется в большинстве современных баз данных. Хотя существуют и более новые структуры индексов, например, LSM-деревья, B-дерево пока никто не победил в обработке большинства запросов баз данных.

После прочтения этого поста вы будете знать, как B-дерево упорядочивает данные и выполняет поисковые запросы.

+183

tech_priestess 18 ноя 2023 в 18:06

Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Простой

26 мин

215K

Машинное обучение*Учебный процесс в ITКарьера в IT-индустрииИскусственный интеллект

Туториал

Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы, и, наконец, выполняю свое обещание. Надеюсь, этот гайд станет подсказкой, которая поможет найти правильное направление новичкам, которые хотят погрузиться в нашу область.

+155

ArtemLoginov1 23 окт 2023 в 11:05

Как из вакансии понять, что наниматель-муд**: 5 признаков

3 мин

56K

Управление персоналом*Карьера в IT-индустрии

Мнение

Всем привет! Я Тёма Логинов, за 4 года работы в digital я неоднократно искал работу, нанимал людей и помогал это делать другим.

Многие компании оформляют вакансии по-странному: предлагают работу за три рубля или вешают на одного сотрудника работу целого отдела. Рассказываю, как распознать такие вакансии, чтобы уберечь себя от работы на [ч]удаков.

+87

583

aledovskiy 6 окт 2023 в 12:00

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

7 мин

17K

Блог компании AvitoTechPython*Data Mining*Big Data*

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

Lika_Chernigo 24 авг 2023 в 12:58

Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером

7 мин

13K

Блог компании СлёрмBig Data*Хранение данных*Карьера в IT-индустрииData Engineering*

Обзор

Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.

В статье сначала опишем паттерны построения распределённых хранилищ, чтобы понимать, через какие процессы проходят данные. А после поговорим о задачах специалистов по работе с данными и необходимых для каждой позиции навыках.

P.S. На картинке спрятаны 6 инструментов для работы с данными. Узнали их?

+13

maxim_babenko 20 мар 2023 в 13:57

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

14 мин

59K

Блог компании ЯндексOpen source*C++*Big Data*

✏️ Технотекст 2023

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT, ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.

+217

honsour72 5 июл 2023 в 01:38

Шпаргалка по SQL (postgres), которая выручает меня на собесах

Простой

8 мин

200K

PostgreSQL*SQL*Администрирование баз данных*Терминология ITИнтервью

Из песочницы

Привет, Хабр!

Я решил посвятить свою первую статью SQL. Вопросы, рассмотренные ниже мне задавали на собеседованиях на позицию python-разработчика. Естественно отвечать правильно получалось не всегда, а если точнее то чаще не правильно, однако проведя N часов в рефлексии я составил перечень ответов, которыми пользуюсь до сих пор.

Данная информация предполагает знание основ языка запросов и я надеюсь, она окажется полезной для разработчиков, которые сейчас активно ищут работу а также, что ты прочитаешь этот текст до конца и добавишь свой вопрос к перечню (ну или поправишь неточности в существующих)

+177

178

Bright_Translate 5 мая 2023 в 16:00

16 простых и эффективных правил дизайна UI

Простой

11 мин

31K

Блог компании RUVDS.comВеб-дизайн*Интерфейсы*

Туториал

Перевод

Проектировать пользовательский интерфейс сложно. Здесь есть множество возможных вариаций макета, отступов, типографики и цвета, в которых можно просто запутаться. А если к этому дополнительно прибавить юзабилити, доступность и принципы психологии, то задача становится ещё труднее.

К счастью, дизайн UI не обязательно должен представлять такие сложности. Работая в качестве дизайнера продуктов более двух десятков лет, я понял, что большая часть моих решений в плане визуального представления и реализации взаимодействия определялись системой логических правил. Не художественным чутьём или магической интуицией, а простыми правилами.

Наличие системы логических правил помогает эффективно принимать в дизайне продуманные решения. Без логической системы вы просто используете внутреннее чутьё, меняя компоновку элементов, пока не получится желаемый красивый результат.

Мне нравятся правила и логика, но в дизайне решения редко являются двоичными. Вместо строгих правил, которым вам необходимо следовать, воспримите приведённые далее рекомендации как руководства, которые прекрасно работают во многих случаях.

Самый быстрый способ обучения — это практика, так что приступим!

Читать дальше →

+65

xxlagr 9 фев 2023 в 10:50

Делай нейминг как сеньор

13 мин

118K

Блог компании Dodo EngineeringПрограммирование*Анализ и проектирование систем*Совершенный код*Управление разработкой*

✏️ Технотекст 2023

Это объект Pizza, там хранится инфа о латте, а заказали его в Restaurant или в Pizzeria? Неудобно? Максимально. Мы читаем код существенно больше, чем пишем. И хочется сразу понимать, что происходит, не играя в квесты «что имел в виду автор», «да как это работает» и «я снова ничего не понял». Без навыка давать хороший нейминг невозможно писать качественный и поддерживаемый код. Про нейминг говорят заодно, в рамках архитектуры и общих инженерных практик. В статье поговорим про него отдельно.

Как получается, что код становится мало понятным даже для его авторов? Почему нейминг так важен? Как придумывать названия, не применяя целые теории нейминга? Как лёгким процессом организовать работу с неймингом в команде? На все эти вопросы мы ответим в статье.

+182

221

SnezhSh 30 дек 2022 в 12:36

Разделяй и властвуй, или Зачем управлять данными

16 мин

9.7K

Блог компании GlowByteBig Data*Agile*Управление продуктом*Бизнес-модели*

Мнение

Хабр, привет! Сегодня, в предпраздничный день, публикую статью Кирилла Евдокимова, директора практики Data Governance GlowByte. В области данных и аналитики он работает уже около 20 лет, последние 7 лет основной фокус – это Data Governance. Как говорит Кирилл, история с управлением данными всё еще остаётся terra incognita. В статье под катом он разбирает наиболее частые ошибки, проблемы, с которыми приходится сталкиваться компаниям, вступающим на тернистый путь управления данными.

Читать статью Кирилла

+12

blozheupasi 12 окт 2022 в 01:20

Ошибки выбора MongoDB в качестве основной БД в стартапе

6 мин

39K

Python*Программирование*Проектирование и рефакторинг*MongoDB*

Из песочницы

В этой статье я хочу рассказать о своих ошибках, которые я допустил, когда писал сервис, у которого MongoDB была основной БД для хранения пользовательских данных (да и не только, но об этом ниже).

Я ни в коем случае не считаю, что MongoDB это плохая БД и ее не нужно использовать. Более того, я считаю, что только мои кривые руки завели меня в ситуацию, из которой пришлось выходить переписыванием сервиса под другую БД (ушел на Postgres и кайфую).

Тем не менее, нельзя знать всего и чтение документации не спасает от катастроф во время самой реализации проекта. Особенно, если ваши ожидания от инструмента разошлись с реальностью.

На мой взгляд, маркетологи MongoDB приукрасили области применениях БД на своем сайте. MongoDB не универсальная. Далеко не универсальная и даже не пытайтесь на нее смотреть как на решение всех ваших проблем.

Встать на грабли вместе

+115

131

makushevkm 28 окт 2022 в 15:12

Как улучшить английский в документации

11 мин

35K

Блог компании documentat.ioИзучение языковПодготовка технической документации*

Технотекст 2022

Из песочницы

Я работаю техническим писателем в компании documentat.io. Мы занимаемся заказной разработкой технической документации, в том числе на английском языке. Иногда я дорабатываю уже существующие документы или спецификации к API на английском. Как правило, такие документы написаны русскоязычными разработчиками, которые неплохо владеют английским. И всё же они часто допускают характерные грамматические, пунктуационные и стилистические ошибки.

Корень этих ошибок один — разные языковые механизмы. Нам бывает легко запутаться в употреблении временных форм, порядке слов или непонятно зачем придуманных артиклях.

Поэтому в этой статье я постарался не просто дать рекомендации о том, как можно избежать распространённых ошибок, но и подсветить те отличительные черты английского языка, которые к этим ошибкам приводят.

+97

2 3 4 5