Articles / Bookmarks / Profile of resetme / Habr

@resetme^{read⁠-⁠only}

Скромный пастух нулей и единиц…

ProfileComments196Bookmarks884

aio350 Jun 29 2023 at 04:58

Введение в потоковую передачу данных в Вебе

Medium

8 min

19K

JavaScript*Website development*

Review

Translation

Веб-потоки (web streams) предоставляют основанный на веб-стандартах способ асинхронной потоковой передачи данных по сети. Они позволяют разработчикам обрабатывать большие наборы данных по чанкам (chunks — части, куски), контролировать перегрузку сети (обратное давление — backpressure) и создавать высокоэффективные и отзывчивые приложения.

Использование веб-потоков может повысить производительность и отзывчивость приложения. Обработка данных по мере их поступления позволяет применять обновления и реагировать на взаимодействия пользователя в реальном времени, обеспечивая бесшовный пользовательский опыт за счет быстрой загрузки данных, предоставления актуальной информации и плавного, более интерактивного интерфейса.

Web Streams API постепенно становится краеугольным камнем основных веб-платформ, включая браузеры, Node.js и Deno. В этой статье мы рассмотрим, что такое веб-потоки, как они работают, их преимущества, а также инструменты, созданные на их основе.

Читать дальше →

AlexAntonov Jun 6 2023 at 17:18

Дообучение модели машинного перевода

Medium

1 min

3.7K

Machine learning*Big Data*Algorithms*

Tutorial

Разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей. Захотелось дообучить такую модель самому, но пришлось приложить усилия, чтобы найти понятный пример. Поэтому после того, как код заработал, решил поделиться скриптами.

devozerov Jun 6 2023 at 18:26

Почему Trino такой быстрый: динамические фильтры

8 min

4.6K

CedrusData corporate blogSQL*Big Data*Data Engineering*

Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.

Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.

Рассмотрим реализацию динамических фильтров на примере Trino.

Узнать, как работают динамические фильтры

quwarm Apr 29 2021 at 15:38

Расстояние Махаланобиса

24 min

24K

Python*Programming*Algorithms*Mathematics*

Tutorial

From sandbox

Основной смысл использования метрики Махаланобиса
1. Термины и определения
2. Расстояние Махаланобиса между двумя точками и между точкой и классом
2.1. Теоретические сведения
2.2. Алгоритм вычисления расстояния между двумя точками и между точкой и классом
2.3. Пример вычисления расстояния между двумя точками и между точкой и классом
3. Расстояние Махаланобиса между двумя классами
3.1. Теоретические сведения
3.2. Алгоритм вычисления расстояния между двумя классами
3.3. Пример вычисления расстояния между двумя классами
4. Расстояние Махаланобиса и метод k-ближайших соседей
5. Взвешенное расстояние Махаланобиса
6. Заключение

Если есть замечания или ошибки, пишите на почту quwarm@gmail.com или в комментариях.

+32

t3chnowolf May 29 2023 at 08:27

Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё

6 min

17K

МТС corporate blogStatistics in ITBig Data*Data Mining*Python*

Диаграммы помогают визуализировать как простые, так и самые сложные наборы данных. При этом диаграмм — множество видов, у каждого есть свои достоинства и недостатки. О наиболее эффектных и эффективных, реализуемых с Python, мы решили рассказать в сегодняшней подборке. Если вам интересна эта тема – просим под кат. А если у вас есть собственные предпочтения среди графиков (или вы используете что-то ещё), то пишите в комментариях, обсудим. Что же – поехали!

+24

alextretyak May 31 2023 at 21:00

Простейший алгоритм разделения слова на слоги

3 min

6.7K

Algorithms*

Однажды на проводимом мной практическом занятии [по ЯП] я, скучая, разглядывал список студентов группы. Глаз зацепился за знак ударения в фамилии Лемзекóв, который я поставил [для себя] после того, как произнёс фамилию этого студента неправильно. Я мысленно прочёл эту фамилию по слогам, и тут у меня возник вопрос: «а по какому алгоритму мозг разбивает слова по слогам?» Почему-то интуитивно получается "Лем-зе-ков", а не "Ле-мзе-ков" или "Лем-зек-ов". Я выписал ещё несколько примеров, и разглядывая их размышлял о том, как перевести это в алгоритм.

Читать дальше →

+17

valbok Dec 9 2013 at 14:41

Поиск кропнутых дубликатов изображений с помощью перцептуальных хешей

6 min

72K

Image processing*

В этой статье пойдет речь о том, как решалась небольшая задачка поиска дубликатов по фрагменту или кропу картинки.

Читать дальше →

+107

kesn Dec 10 2021 at 05:16

Окей, Джанго, у меня к тебе несколько вопросов

36 min

60K

Python*Programming*Django*

Недавно я проходил очередное интервью, и меня спросили, пишу ли я на flask, на что я ответил, что я себя люблю, и поэтому пишу на django. Меня не взяли, потому что, кхм, у них, оказывается, много чего было на фласке, и вышло неловко. Да-да, я знаю, фласк крут, потому что он простой, всё что надо ставишь сам, а чего не надо там и так нет, но как по мне, всё равно потом получается django.

И тут, наверно, покажется, что я я свидетель Джанго, хожу по домам, стучу в двери и рассказываю, как круто на нём кодить, но вообще-то нет - Джанго тоже не без проблем... Вот об этом я и хочу поговорить.

+85

Sivchenko_translate May 22 2023 at 21:09

Улучшенная эвристика при квантовании цветовой палитры

11 min

1.8K

Computer Animation*Image processing*Programming*Python*

Translation

В 2015 году я написал статью о том, как было улучшено квантование цветовой палитры в FFmpeg для создания красивых анимированных гифок. По какой-то причине эта статья — по сей день самая популярная из всех моих постов.

Время шло, я набирал опыт в работе с цветами и в результате стал весьма стыдиться и переживать по поводу того, в каком состоянии лежат мои фильтры. Многий код в них был наивен (а то и ужасно неправилен), несмотря на всю очевидную результативность этих фильтров.

Вот в чём заключалось одно крупное изменение, которое я хотел внести: оценить расстояния между цветами, воспользовавшись при этом равномерно воспринимаемым цветовым пространством, а не наивное евклидово расстояние между RGB-тройками.

Как обычно, казалось, что с таким проектом можно управиться за неделю. В конце концов, мне всего-то и требовалось изменить функцию расстояния, так, чтобы она стала работать в ином пространстве, верно? Что ж, как обычно, я сам себе устроил множество приключений, наслоившихся друг на друга:

+23

crazyfrogspb1 May 23 2023 at 09:43

Все DETRы мира: выкидываем и возвращаем энкоры. Часть 1

Hard

22 min

7.1K

Python*Big Data*Machine learning*Artificial Intelligence

Big data season

Материал для ТГ-канала “Варим ML”

Я - большой фанат задачи детекции, она мне нравится по всем критериям. Она самая интересная концептуально - одновременно нужно и искать объекты, и определять их тип. Классификация целых изображений скучновата и не так часто применима на практике (по крайней мере в медицине), а сегментация мне кажется нудноватой - ну их, эти конкретные пиксели. Ещё статьи про детекцию - самые интересные для меня в техническом плане. Мне нравится разбираться в разных видах архитектур - anchor-based и anchor-free, one-stage и multi-stage, а ещё я очень люблю разные крутые идеи, которые улучшают тот или иной компонент детекционного пайплайна - например, PISA для умного взвешивания разных сэмплов в лоссе, Precise RoIPooling и Deformable RoIPooling для более точного и хитрого пулинга фичей, D2Det для декаплинга задач локализации и классификации, SoftNMS для замены традиционного NMS.

В 2020 году вышла крутая статья про новую архитектуру для детекции - DETR. Она меня очень вдохновила, и я тут же бросился впиливать её в проект Маммография (ММГ), тем более что код был с виду очень простой. После недели мучений я не смог выжать ничего адекватного - обучалось ужасно, долго и предиктило в основном фигню. Возможно, я где-то набаговал, но возиться дольше не хотелось.

Тем не менее, все три года идея всё-таки впилить DETR преследовала меня по пятам, тем более что за это время вышло несколько десятков статей, тем или иным образом улучшающим оригинальную архитектуру. И вот, в один прекрасный день я зачем-то решил прочитать вообще все статьи про DETRы, а заодно попробовать несколько вариаций в ММГ. Задача оказалась слегка сложнее, чем я ожидал…

Demir_Uzun May 23 2023 at 15:02

Реализация функции потерь Triplet Loss в Python (функция тройных потерь)

Medium

9 min

11K

TensorFlow*Python*Data Engineering*

Tutorial

Recovery Mode

Большинство из нас думают о машинном обучении как о "черном ящике", который принимает некоторые данные и выдает отличные результаты. В последние годы этот черный ящик работает как имитация человека в соответствующих областях, где он используется, и достигает выдающихся результатов.

+10

AlexKaut May 24 2023 at 11:01

Thinkpad T480 — сравнение вариантов охлаждения ноутбука (MX4, PTM7950, жидкий металл, разные радиаторы и т. д.)

3 min

18K

LaptopsDIYComputer hardwareLifehacks for geeks

From sandbox

Thinkpad T480 с i5 8350U троттлит в своей стоковой комплектации, я провёл несколько тестов с разными вариантами охлаждения процессора этого ноутбука, и детально сравнил результаты в этом гайде. Он будет полезен не только для владельцев T480, так как эти способы могут быть использованы и в других устройствах.

T480 выпускается в различных комплектациях, версия с i5 8350u без дискретной видеокарты имеет радиатор с одной медной трубкой, он справа на фотографии. Версия ноутбука с процессором i7 8550U и дискретной видеокартой mx150 имеет радиатор с двумя медными трубками и область для GPU.

Ничто не мешает поставить большой радиатор в ноутбук без дискретной видеокарты, чтобы значительно понизить температуру процессора. Я купил радиатор с двумя медными трубками на Aliexpress за 26$ (2100 рублей на момент написания статьи).
Маленький радиатор весит 69 грамм, большой 93.

+18

Demir_Uzun May 21 2023 at 13:59

Реализация функции потерь в Python

4 min

21K

Python*Big Data*Data Engineering*

From sandbox

Функции потерь Python являются важной частью моделей машинного обучения. Эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического.

Существует несколько способов вычислить эту разницу. В этом материале мы рассмотрим некоторые из наиболее распространенных функций потерь.

Ниже будут рассмотрены следующие четыре функции потерь.

glider_skobb May 19 2023 at 14:01

Как создать анимированные шейдеры в Jetpack Compose

Easy

3 min

3.7K

Timeweb Cloud corporate blogJetpack Compose*Kotlin*Development for Android*

Tutorial

Jetpack Compose — молодой, но бурно развивающийся фреймворк для разработки под Android, который обладает множеством не всегда очевидных фичей. Сегодня я хотел бы описать одну из таких встроенных возможностей: речь идет об использовании OpenGL-шейдеров. Они позволяют делать красивые анимированные интерфейсы, как на картинке ниже.

Читать дальше →

+10

ru_vds May 20 2023 at 14:00

Правда ли, что теоретическая физика поломана, или она просто сложная?

Medium

9 min

27K

RUVDS.com corporate blogPopular sciencePhysics

Аксионы, одни из ведущих кандидатов на частицы тёмной материи, могут превращаться в фотоны (и наоборот) при соответствующих условиях. Если мы сможем вызывать и контролировать их превращение, мы, возможно, откроем первую частицу за пределами Стандартной модели и решим проблемы тёмной материи и проблему сохранения CP-инвариантности в сильных взаимодействиях.

Если послушать какого-нибудь современного разочарованного физика высоких энергий, можно прийти к выводу, что вся современная теоретическая физика не имеет смысла. В конце концов, XX век был веком теоретических триумфов: мы смогли разобраться во Вселенной как на субатомном, так и на космическом масштабе. Мы выяснили, что такое фундаментальные силы и взаимодействия, управляющие физикой, что такое фундаментальные составляющие материи, как они собираются вместе, чтобы сформировать мир, который мы наблюдаем и населяем, и как предсказать, какими будут результаты любого эксперимента, проведённого с этими квантами.

В совокупности Стандартная модель элементарных частиц и Стандартная модель космологии представляют собой кульминацию физики XX века. Но при этом эксперименты и наблюдения выявили ряд до сих пор нерешённых загадок, таких как тёмная материя, тёмная энергия, космическая инфляция, бариогенез, массивные нейтрино, проблема сильного CP и многие другие. И теоретики не смогли добиться значительного прогресса по всем этим вопросам за последние 25 с лишним лет. Неужели все они просто тратили своё время впустую?

Читать дальше →

+105

340

ostinru May 15 2023 at 04:00

Назад в прошлое: как быстро восстановить MySQL на точку во времени

Medium

8 min

7.8K

MySQL*Database Administration*

Tutorial

Point in Time Recovery (PiTR) — это восстановление базы данных на какой‑то конкретный момент времени (с точностью до секунд или до конкретной транзакции).

PiTR невероятно полезен для восстановления базы данных после того, как «случилось непоправимое». Если достаточно точно выбрать точку на которую восстанавливать базу, то можно восстановить базу данных практически без потери данных.

В этой статье мы рассмотрим классический PiTR и еще два способа путешествовать во времени быстрее, и уменьшить количество операций, которые надо выполнять руками.

+14

mbrav May 14 2023 at 08:31

Поднимаем Kubernetes с нуля

Medium

10 min

69K

Kubernetes*DevOps*Network technologies*Configuring Linux*

Tutorial

From sandbox

Создание кластера Kubernetes может быть сложным процессом, который включает в себя множество опций, но сложные вещи могут стать более понятными, когда их разложить на части. В этой статье мы демистифицируем процесс создания кластера Kubernetes, понимая минимальный набор компонентов и настроек, необходимых для запуска узла Kubernetes внутри виртуальной машины.

+30

MaxRokatansky May 10 2023 at 15:17

Дисперсионный анализ (ANOVA)

Easy

10 min

79K

OTUS corporate blogPostgreSQL*Database Administration*

Review

Дисперсионный анализ (ANOVA) — это статистический метод, который используется для сравнения средних значений двух или более выборок. Он позволяет определить, различаются ли средние значения между группами, или же различия случайны. ANOVA используется в различных областях, включая науку, инженерию, медицину, социологию и многие другие, где необходимо доказать связь между переменными.

ANOVA является мощным инструментом, который может использоваться в статистическом анализе для оценки влияния исследуемого фактора на зависимую переменную. Это помогает установить, является ли фактор значимым, и позволяет идентифицировать взаимодействие между переменными. ANOVA также позволяет определить, насколько сильно различия между группами, что может быть полезно при выборе стратегий манипулирования факторами.

Правильное применение ANOVA может доставить большую пользу и сделать исследование намного более информативным.

+12

Mania_c Aug 2 2022 at 08:52

Паттерн Outbox: как не растерять сообщения в микросервисной архитектуре

8 min

118K

Lamoda Tech corporate blogProgramming*Development for e-commerce*Microservices*

Technotext 2022

Привет! Меня зовут Михаил Боровиков, я тимлид команды, которая отвечает за систему процессинга заказов Lamoda — Orders Management. Эта система, словно «сердце» Lamoda, через которое проходит самый важный для бизнеса шаг — оформление заказа.

Раньше система представляла из себя монолит. Теперь вместо него у нас много отдельных сервисов, которые общаются по сети. В рамках новой схемы взаимодействия сервисов между собой мы и столкнулись с проблемой потери данных в процессе создания заказа, чего допускать в важной для нас системе было категорически нельзя.

Для решения этой проблемы мы выбрали паттерн Outbox. И в этой статье я расскажу, что он из себя представляет, как мы его применили, почему пошли по пути at-least-once и не положились на работу одного брокера сообщений.

+27

maranqz May 11 2023 at 09:17

Создаём репозиторий в Go через менеджер транзакций

12 min

21K

AvitoTech corporate blogGo*

Всем привет, я Илья Сергунин, веб-разработчик из продуктовой команды Авито. Мы пишем на Go сервис для трейд-ин мобильных телефонов. На его примере покажу, как устроен наш менеджер транзакций.

1 2 ...

19 20

22 23 ...

43 44