Статьи / Закладки / Профиль Demacr / Хабр

@Demacr

Пользователь

ПрофильСтатьиПостыНовостиКомментарии76

@gandjustas 3 фев 2023 в 08:28

Сортировка слиянием — не так просто, как кажется

20 мин

35K

Программирование * .NET * Алгоритмы * C# *

Кейс

В одной конторе соискателю на позицию Senior C# developer выдали тестовое задание: отсортировать файл со строками определенного формата.

Требования такие:

* Формат строки: число, точка, пробел, далее любые символы до конца строки.

* Порядок сортировки — сначала сортируем текстовой части строки, потом по числу если текстовые части совпадают.

* Кодировка — UTF-8.

* Размер файла — 100гб - гарантированно больше объема ОП.

Должно отработать за 1 час на машине проверяющего, вряд ли там будет супер-быстрый SSD и огромное количество оперативной памяти.

Как и многие другие программисты, узнав о таком тестовом задании, я возмутился. Внешнюю сортировку слиянием практически всех проходили в ВУЗе, но практически никто никогда не писал её. Задача очень непрактическая и непонятно какие навыки проверяет. Так мне казалось.

Эта задача вызвала бурные обсуждения о способах её решения. Многие программисты, причисляющие себя к рангу senior, предложили использовать базы данных, ибо не барское это дело - вручную писать алгоритмы сортировки. Некоторые даже попытались сделать решение на Apache Spark. Однако никто до конца задачу не решил, ибо мало кому удалось отсортировать в нужном порядке даже 10ГБ файл менее чем за 15 минут без SSD.

Я подумал, что стоит решить задачу до конца с помощью программирования, и тоже причислить себя к рангу senior developer.

+72

175

@igor_suhorukov 2 фев 2023 в 05:42

Как поместить весь мир в обычный ноутбук: PostgreSQL и OpenStreetMap

29 мин

29K

PostgreSQL * Java * OpenStreetMap * Геоинформационные сервисы *

Когда человек раньше говорил что он контролирует весь мир, то его обычно помещали в соседнюю палату с Бонапартом Наполеоном. Надеюсь, что эти времена остались в прошлом и каждый желающий может анализировать геоданные всей земли и получать ответы на свои глобальные вопросы за минуты и секунды. Я опубликовал Openstreetmap_h3 — свой проект, который позволяет производить геоаналитику над данными из OpenStreetMap в PostGIS или в движке запросов, способном работать с Apache Arrow/Parquet.

Первым делом передаю привет хейтерам и скептикам. То что я разработал — действительно уникально и решает проблему преобразования и анализа геоданных используя обычные и привычные инструменты доступные каждому аналитику и датасаенс специалисту без бигдат, GPGPU, FPGA. То что выглядит сейчас простым в использовании и в коде — это мой личный проект в который я инвестировал свои отпуска, выходные, бессонные ночи и уйму личного времени за последние 3 года. Может быть я поделюсь и предысторией проекта и граблями по которым ходил, но сначала я все же опишу конечный результат.

Первый пост не претендует на монографию, начну с краткого обзора...

+79

@zloishavrin 27 янв 2023 в 19:19

Яндекс Карты и React Native. Часть 2. HUD и методы карты

5 мин

5.9K

JavaScript * iOS * Android * ReactJS *

Туториал

В этой статье речь пойдет о наложении HUD на карту. Рассмотрим на конкретных примерах методы для взаимодействия с картой. Реализуем функционал перехода центра камеры на конкретную координату, зум камеры, а также функцию подгонки камеры под такую позицию, при которой все маркеры отображались бы на экране.

@VlaSard 16 сен 2022 в 11:43

Импорт фотографий из командной строки Linux

8 мин

6.5K

Программирование * Linux *

Из песочницы

Как просто и быстро импортировать фотографии в альбом и отсортировать по времени съемки.

@e11it 7 сен 2022 в 07:48

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

12 мин

17K

Блог компании НЛМК ИТВысоконагруженные системы * Системное администрирование * Big Data *

Туториал

Технотекст 2022

Привет! Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.

А это сразу ссылка на часть 2.

+23

@bocharovf 6 сен 2022 в 08:45

Распределенная трассировка: подключить всех и не умереть

14 мин

8.5K

Блог компании Конференции Олега Бунина (Онтико)Блог компании МТСПрограммирование * Анализ и проектирование систем *

Всем привет! Меня зовут Филипп Бочаров, я руководитель центра мониторинга и наблюдаемости в МТС Digital. Мы с командой делаем платформу Наблюдаемости – это набор сервисов, который позволяет сделать работу других продуктов МТС прозрачной и понятной. Сегодня я расскажу про распределенную трассировку экосистемы МТС.

Давайте вместе спроектируем коммунальную систему, в которой соберем распределенную трассировку всей нашей экосистемы. Отмасштабируем ее от 0 до 50 тысяч документов в секунду и посмотрим, как меняется наша архитектура, откуда берутся потери и пиковые нагрузки, какие есть пределы и ограничения. В общем, постараемся выжить под нагрузкой!

+17

@neoflex 5 сен 2022 в 10:07

Заметки дата-инженера: интеграция Kafka и PySpark

52 мин

18K

Блог компании NeoflexBig Data * Программирование * Python *

Туториал

Данная статья будет полезна тем, чья деятельность связана с Data Engineering, и тем, кто только знакомится с этой славной профессией. Вы узнаете про особенности настройки и интеграции Kafka со Structured Streaming, а также увидите различные способы чтения данных, работы с водяными метками и скользящим окном.

Привет, меня зовут Андрей, я работаю дата-инженером и по совместительству тимлидом разработки на проекте из банковского сектора. За плечами у меня и моих коллег большое количество успешных проектов, касающихся проектирования DWH и разработки ETL-процессов. Нам всем стали уже «родными» такие системы и инструменты как: Oracle, PostgreSQL, GreenPlum, Hive, Impala, YARN, Spark и Airflow (и прочие бигдата-покемоны), которые применялись в режиме пакетной обработки данных. А вот с потоковыми процессами на тот момент плотно работать ещё не приходилось. Нашей команде предстояло разработать «под ключ» систему типа «Real Time Marketing» – в онлайн формате анализировать действия пользователей в мобильном и интернет банке, сверяться и джойниться с множеством различных источников данных, чтобы в итоге эффективно генерировать актуальные и выгодные предложения для каждого из пользователей.

@Rast1234 5 сен 2022 в 06:05

Человеческим языком про метрики 2: Prometheus

10 мин

192K

Блог компании Точка БанкАнализ и проектирование систем * IT-инфраструктура * DevOps * Микросервисы *

Туториал

Это вторая статья из цикла. В первой, вводной, я рассказывал, как устроены метрики для сервисов, чем отличаются от логов, и какую задачу вообще решают. Теперь подробнее про то, как их готовить.

Под катом: формат данных, способы отправки, типы метрик и их применение, кардинальность.

+16

@rockstardavid 31 авг 2022 в 21:10

Средние highload паттерны на Go

20 мин

15K

Go * Программирование * Высоконагруженные системы *

Привет, Хабр! Меня зовут Агаджанян Давид и ранее я опубликовал статью «простые highload паттерны на Go», в которой были рассмотрены простые подходы увеличения пропускной способности отдельно взятого экземпляра приложения без хардкора. Мне импонируют простые подходы, так как over engineering подходы требуются в исключительных проектах, и то чаще всего только в отдельно взятых подсистемах, в остальном можно воспользоваться давно известными лучшими практиками.

+16

@alatobol 25 авг 2022 в 08:22

Отказоустойчивая архитектура контентной платформы на 4 Тбит/с — опыт VK Видео

16 мин

25K

Блог компании VKВысоконагруженные системы * Анализ и проектирование систем * IT-инфраструктура * Распределённые системы *

Представьте идеальный мир с бесконечными ресурсами, в котором можно сколько угодно линейно масштабироваться под нагрузку: просто доставлять серверы, диски, видеокарты, как только потребуется больше мощностей. Звучит хорошо? Только оказывается, что когда серверов 5 000 и дисков 100 000, то несколько из них обязательно находятся в состоянии maintenance или repair, куда их привели обстоятельства непреодолимой силы. И главная задача здесь — обеспечить доступность сервиса в условиях постоянных сбоев.

В статье разберём, как построить отказоустойчивую платформу, с какими неочевидными corner cases может столкнуться сервис с UGC-контентом, а ещё — как жить в реальном, а не идеальном мире и оптимизировать железо. Чтобы раздавать 4 Тбит/с можно, конечно, использовать 400 серверов по 10 Гбит/с, но гораздо интереснее грамотно всё потюнить и выжать 100 Гбит/с с Java-сервера.

+56

@zoldaten 12 мая 2021 в 13:15

Анализ сети YELP с Neo4j, python

8 мин

4.1K

Data Engineering * Data Mining * Python * Алгоритмы * Социальные сети

Туториал

YELP — зарубежная сеть, которая помогает людям находить местные предприятия и услуги, основываясь на отзывах, предпочтениях и рекомендациях. В текущей статей будет проведен определенный ее анализ с использованием платформы Neo4j, относящаяся к графовым СУБД, а также язык python.

Что посмотрим:

как работать с Neo4j и объемными датасетами на примере YELP;
чем может быть полезен YELP dataset;
частично: какие особенности в новых версиях Neo4j и почему книга «Графовые алгоритмы» 2019 года от O'REILLY уже устарела.

Читать дальше →

@YourChief 22 авг 2022 в 01:01

Босяцкий кластер высокой доступности

8 мин

20K

Высоконагруженные системы * Системное администрирование * Nginx * Сетевые технологии *

Туториал

Перевод

Крайне минималистичная схема кластера высокой доступности, требующая только 2 сервера и ничего более. Пригодна в том числе для серверов у разных хостеров или в разных датацентрах. Позволяет решить вопрос отказоустойчивости для балансировщика, так чтобы он сам не был единой точкой отказа.

+39

@IvanSTV 17 авг 2022 в 07:22

Почему некоторым так сложно учиться программированию?

15 мин

116K

Программирование *

Recovery Mode

На эту тему на Хабре была не так давно статья, и там высказывалась мысль, что программирование-де сложная область знаний в принципе и требует некой особой склонности и серьезного бэкграунда.

Однако с этим я согласиться никак не могу. Программирование по содержанию ничуть не сложней многих других отраслей знаний, а в чем-то даже и легче, особенно когда касается прикладных задач. Наткнулся на заметку человека, который высказал весьма небанальную мысль: при обучении программированию "с нуля" этот "ноль" для всех сильно разный. И у меня есть стойкое убеждение, что сложность освоения четко зависит от значения этого нуля. А вот почему он разный и что на него влияет- мне и хотелось бы поразмышлять.

+235

721

@Number571 16 авг 2022 в 19:58

Абстрактные анонимные сети

27 мин

6.6K

Децентрализованные сети * Информационная безопасность * Криптография * Go *

Среди анонимных сетей можно выявить класс систем максимально разграничивающих субъектов информации от их объектов, что приводит к возможности различных способов транспортирования информации. Из-за своей специфичной архитектуры передача информации может осуществляться в любой дуплексной среде, что полностью отрывает распространение объектов от своей сетевой архитектуры и переводит маршрутизацию в этап виртуального транслирования.

+12

@exitialis 27 янв 2021 в 09:45

Оптимизация микросервиса на Go на живом примере

17 мин

25K

Блог компании AvitoTechGo * Микросервисы * Серверная оптимизация *

Технотекст 2021

Всем привет. Меня зовут Нещадин Иван, и я расскажу про оптимизацию одного из микросервисов Авито на Go. История построена вокруг различных инструментов, которые доступны в языке, и пойдёт от простых примеров к более сложным.

Читать дальше →

+33

@sinhbad 15 авг 2022 в 04:34

Любительская почта — чебурнет судного дня

9 мин

12K

.NET * Анализ и проектирование систем * Python * Децентрализованные сети *

Всем привет!

В данной статье описан мой опыт создания sneakernet-сети, мотивация, побудившая написать данное ПО, общее описание работы, бенчмарки, а также ссылки на сторонние ресурсы, где можно почитать документацию и скачать исходный код и готовую скомпилированную сборку.

+36

@debsaw 4 авг 2022 в 06:00

Запуск Flannel & kube-proxy отдельно от кластера

8 мин

6.1K

Блог компании hh.ruСистемное администрирование * Сетевые технологии * Kubernetes *

Всем привет! В сегодняшнем материале разберемся, как сделать внутренние сетевые ресурсы кластера k8s доступными напрямую с внешнего хоста. Спойлер: в этом нам поможет запуск Flannel в связке с kube-proxy этом самом хосте.

Так мы получим доступ к приложениям, запущенным в Kubernetes без использования NodePort, LoadBalancer и Ingress Controller.

Мы в hh.ru уже используем это решение для поднятия окружения в разработке и тестировании, решили поделиться с комьюнити. Поехали!

@m1rko 25 апр 2019 в 18:46

Советы по организации работы c Git

4 мин

19K

Git * Системы управления версиями *

Туториал

Перевод

Как обычно используют git? Пара базовых команд, чтобы «всех синхронизировать». Разочарование от git часто возникает у тех, кто никогда не выходит за пределы этого поверхностного понимания. Однако освоение git наверняка окупится. Сколько времени вы тратите на использование git? Я бы предположил, что на вашем поясе немало инструментов, которые вы используете вдвое реже и потратили вдвое больше времени на изучение.

Читать дальше →

@akaDuality 25 апр 2019 в 15:25

Я прочитал 80 резюме, у меня есть вопросы

6 мин

116K

Блог компании Dodo EngineeringКарьера в IT-индустрииУправление персоналом *

Recovery Mode

У нас не очень простое собеседование. Нужно пройти 3 шага:

Прислать резюме, программист его посмотрит, лайкнет если всё хорошо. Рекрутер позвонит, задаст несколько вопросов.
Встретиться или созвониться с нами. Узнаем, какой вы специалист.
Прийти на тестовый день. Познакомиться с командой и поработать вместе. Пообщаться с техническим директором, обсудить зарплату и получить оффер.

Я три месяца был тем программистом, который оценивает резюме. Мне есть о чём с вами поговорить.

Читать дальше →

+37

637

@aigrychev 8 авг 2018 в 06:05

Пакетный менеджер для Kubernetes — Helm: прошлое, настоящее, будущее

11 мин

105K

Блог компании ФлантDevOps * IT-инфраструктура * Kubernetes * Open source *

Перевод

Прим. перев.: Этой статьёй мы открываем цикл публикаций про пакетный менеджер для Kubernetes, который активно используем в повседневной работе, — Helm. Оригинальным автором материала является Matt Butcher — один из основателей проекта Helm, работающий над Open Source-проектами в Microsoft и написавший 8 технических книг (в частности, «Go in Practice»). Однако статья дополнена нашими (местами — обширными) комментариями, а в скором времени будет ещё больше расширена новыми заметками по Helm более практической направленности. ОБНОВЛЕНИЕ (03.09.2018): вышло продолжение — «Практическое знакомство с пакетным менеджером для Kubernetes — Helm».

В июне Helm перешёл из статуса ведущего проекта Kubernetes в фонд Cloud Native Computing Foundation (CNCF). CNCF становится родительской организацией для лучших в своём роде cloud native-инструментов с открытым исходным кодом. Поэтому большая честь для Helm стать частью такого фонда. И наш первый значимый проект под покровительством CNCF по-настоящему масштабный: мы создаём Helm 3.

Читать дальше →

+29

1 2

4 5 ...

8 9