Articles / Bookmarks / Profile of zartdinov / Habr

How to become an author

User

ProfileArticlesPostsNewsComments390

vadv Jul 6 2021 at 06:21

Почему PostgreSQL тормозит: индексы и корреляция данных

12 min

40K

Ozon Tech corporate blogPostgreSQL*

"Хочешь ускорить запросы, построй индекс" – классический первый шаг по увеличению производительности в PostgreSQL. Вот только на практике можно встретить ситуацию, когда индексы в PostgreSQL есть, но тормоза никуда не делись. Не все индексы являются эффективными. Одна из возможных причин тормозов индексов – это отсутствие корреляции данных. Давайте поговорим о пенальти на производительность, которое дает расположение данных: почему это происходит и как это можно предотвратить.

Ускорить свой PostgreSQL

+46

svistunov Feb 17 2023 at 16:52

Оптимизация доступа к элементам слайса в Go

Medium

4 min

7K

Abnormal programming*High performance*Go*

Привет Хабр!

В своей предыдущей статье про разбор кода победившего в VK Cup'22/23 я описывал как мне удалось ускорить копирование одной картинки в другую в 30 раз с помощью чёрной магии unsafe. Однако я не переставал задаваться вопросом, можно ли увеличить скорость еще больше. Я даже привлёк OpenAI в поисках решения, но он мне помог только с картинкой для обложки статьи. В итоге я нашел способ улучшить код еще в 2 раза. Чем и хочу поделиться.

Читать далее

+9

shsv382 Feb 17 2023 at 08:39

Структуры данных: связный список

Medium

4 min

39K

JavaScript*Algorithms*Programming*

Сегодня хочу просто и доходчиво рассказать про одну из базовых структур данных, которая может быть полезной при реализации алгоритмов различной сложности, в том числе при решении задачек на собеседованиях.

Связный список

+2

borisov_uv Feb 17 2023 at 05:28

Как мы используем модель Хаффа для открытия новых магазинов

9 min

11K

Magnit Tech corporate blogGeoinformation services*

Привет! На связи команда геоинформационных систем «Магнита». Мы начинаем серию очерков о модели прогнозирования продаж в новых магазинах. В первой статье расскажем про один из наиболее значимых признаков модели — балле Хаффа. Мы постараемся описать теоретическую сторону и покажем реальные примеры решения возникающих сложностей. Надеемся, эта статья предоставит ценные идеи и информацию для ваших задач, будь вы опытный специалист или новичок. Итак, приступим!

Читать далее

+18

qmzik Feb 16 2023 at 17:05

Что нового в Lighthouse 10

Easy

3 min

3.4K

FirefoxJavaScript*Google ChromeGoogle API*Accessibility*

Review

Translation

Lighthouse - это инструмент для аудита веб-сайтов, который помогает разработчикам с помощью возможностей и диагностики улучшить пользовательский опыт их сайтов.

Lighthouse 10 доступен в командной строке через npm и в Chrome Canary. В ближайшие недели он появится в стабильном Chrome в Chrome 112 и в PageSpeed Insights.

Читать далее

+1

igor_suhorukov Feb 16 2023 at 05:40

Как в Северной Америке с дорогами и плотностью застройки? Работаем с 100Гб OSM данных в PostgreSQL

Medium

16 min

3.5K

High performance*PostgreSQL*OpenStreetMap*Geoinformation services*

Сегодня открою вам Америку на основе данных OpenStreetMap в PostgreSQL15/PostGIS и моего проекта openstreetmap_h3. Запустим запрос и сравним время его выполнения на колоночном хранилище Citus в PostgreSQL и на стандартном в секционированной по H3 геоиндексу базе данных объемом 100GB.

Найдем top15 мест по застройке а Северной Америке и общую протяженность дорог, а также их тип и покрытие. Не буду перегружать публикацию логами программ, сфокусируемся на данных! Вы можете легко повторить все запросы самостоятельно на своем компьютере или ноутбуке.

Читать далее

+6

InlyIT Feb 15 2023 at 12:20

20 уроков, которые я вынес из 20 лет работы программистом

Easy

9 min

118K

InlyIT corporate blogStudying in IT

Translation

Вы приступаете к чтению статьи с высокой концентрацией советов. Учиться у предшественников – хороший способ добиться успеха, но здесь мы часто забываем о важной оговорке. Практически любой совет работает только в определенном контексте, но дается обычно без каких-либо указаний на него.

«Да просто повысьте цены!» — говорит компания, которая уже двадцать лет на рынке и первые годы продавала продукт за копейки, чтобы привлечь клиентов и прийти к успеху. «Нужно всё реализовать в микросервисах», — говорит компания, которая по-быстрому сколотила монолит, набрала несколько тысяч пользователей и метнулась к микросервисам, когда начались проблемы с масштабированием.

Без понимания контекста советы теряют смысл или, хуже того, приносят вред. Если бы люди из примеров выше последовали своим собственным советам в начале пути, то, вероятно, пожалели бы этом. Этой ловушки сложно избежать. Мы представляем собой кульминацию своего опыта, но при этом смотрим на него через призму настоящего.

Читать дальше →

+150

gatoazul Feb 14 2023 at 14:44

Как найти похожие картинки

Easy

9 min

5.9K

Search engines*Image processing*

Веб 2.0 — отличная штука. Сайты на самообслуживании. Пользователи наполняют их сами («постят контент», как сейчас выражаются). Сами напостили, сами посмеялись. А владелец сайта только платит за хостинг и стрижет купоны на рекламе. Удобно же.

Но жизнь наша так странно устроена, что плюсов без минусов не бывает, а нередко недостатки вообще являются продолжением достоинств. Есть проблемы и у самонаполняемых сайтов — баяны. В смысле, дубли.

Дубли многие посетители не любят, особенно старожилы, на зубок помнящие мемасики, появившиеся во времена превед‑медведа и олбанского йазыгга. Каждое их появление они встречают фырканьем и угрозами немедленно отписаться.

Что же делать? Конечно, призвать на помощью железную машину — пусть она сама ищет баяны.

Читать далее

+17

xxlagr Feb 9 2023 at 07:50

Делай нейминг как сеньор

13 min

124K

Dodo Engineering corporate blogProgramming*System Analysis and Design*Perfect code*Development Management*

✏️ Technotext 2023

Это объект Pizza, там хранится инфа о латте, а заказали его в Restaurant или в Pizzeria? Неудобно? Максимально. Мы читаем код существенно больше, чем пишем. И хочется сразу понимать, что происходит, не играя в квесты «что имел в виду автор», «да как это работает» и «я снова ничего не понял». Без навыка давать хороший нейминг невозможно писать качественный и поддерживаемый код. Про нейминг говорят заодно, в рамках архитектуры и общих инженерных практик. В статье поговорим про него отдельно.

Как получается, что код становится мало понятным даже для его авторов? Почему нейминг так важен? Как придумывать названия, не применяя целые теории нейминга? Как лёгким процессом организовать работу с неймингом в команде? На все эти вопросы мы ответим в статье.

Читать далее

+182

AlexKimen Feb 13 2023 at 04:15

Почему Chat GPT говорит по-русски с нейронным акцентом? Специфика токенизации кириллицы нейронной сетью от Open AI

Easy

4 min

37K

Artificial IntelligenceNatural Language Processing*

Review

Увидев очередную статью об утомившем всех Chat GPT от Open AI, рука невольно тянется в ~~пистолету~~ минусатору. Ну, в самом деле, сколько можно? Уже, кажется, все успели поиграть с чатом во всевозможных сценариях.

Однако один аспект, почему‑то, почти не затронут как на Хабре, так и в Рунете. Почему же все‑таки Chat GPT говорит по‑русски с весьма специфическим акцентом, который условно можно назвать «нейронным говорком»?

Чтобы понять суть вопроса, обратимся к теории. Чем занимается генеративная нейронная сеть такого типа?

Говоря просто и коротко она получает на вход набор токенов, пропускает их через некий «черный ящик» и выдает другой набор токенов. Вероятность выбора конкретного токена для ответа зависит от набора входящих токенов и конкретных настроек.

Но что же такое «токен»? Интересный факт заключается в том, что для английского языка токеном обычно выступают сочетания символов, зачастую совпадающие с короткими словами или часто встречающимися частями слов.

Возьмем, например, английскую панграмму:

“The quick brown fox jumps over the lazy dog”

Напомню, что панграмма — это предложение из минимального числа слов, содержащая в себе все буквы алфавита.

Официальный токенизатор Open AI.

Показывает, что в этом предложении всего 9 токенов, содержащих 43 символа.

Читать далее

+39

rastvl Feb 12 2023 at 19:58

Chrome Headless против cloudflare JS challenge

Medium

41 min

28K

JavaScript*Node.JS*Reverse engineering*

Автоматизация сбора информации с различных ресурсов - обычная задача для людей разных сфер деятельности. Жаль, что не всегда бывает достаточно сделать простой GET запрос и разобрать полученный html. Веб-сайты, с которых собираются данные, принимают защитные меры для предотвращения автоматизированных запросов. Одной из таких мер является использование cloudflare. Сегодня мы посмотрим, как cloudflare выявляет ботов через javascript и коснёмся темы деобфускации скриптов.

Читать далее

+82

freehabr Feb 11 2023 at 19:17

Не надо ждать когда bing запустит chatGPT — уже есть ИИ, который отвечает исходя из результатов поиска

Easy

1 min

7.6K

Search engines*Artificial Intelligence

Review

И кстати, он даже не требует регистрации.

Как можно заметить, сейчас системы а-ля chatGPT начали расти как грибы после дождя. И мне попался такой сайт как perplexity.ai

Этот сайт делает то, что bing только обещает - ищет в интернете за меня и дает ответы, исходя из найденных результатов. Причем для каждого предложения он дает ссылки на источники, откуда он брал информацию.

Сейчас, правда, он отвечает всего парой абзацев и показывает не более пяти источников. Но если он научится анализировать тысячи источников и давать подробное резюме, то он может стать очень удобным инструментом.

Читать далее

+8

brutto Feb 10 2023 at 12:42

Борьба за человекочитаемость кода: опыт Хабра

Easy

8 min

15K

Habr corporate blogProgramming*Perfect code*Designing and refactoring*

Opinion

Код Хабра день за днём впитывает в себя время, мысли и чаяния многих людей. Этому коду более 10 лет: он оброс множеством знаний, в том числе и тайных. Места c bus factor = 1 — не эка невидаль, а вполне конкретные люди с ответами на часто задаваемые вопросы.

Меня зовут Антон Каракулов, я тимлид команды бэкенд-разработки Хабра. Хабр стартовал в 2006 году, и за всё время здесь поработало, наверное, команд пять. Мне посчастливилось быть в двух из них, забегал в третью.

Эту статью я написал в рамках проекта Хабра «IT-гид», где разработчики рассказывают про свои направления. Постарался собрать в ней главные практические выводы и интересные грабли, которые нам попадались в процессе превращения старого хабракода в чистый, масштабируемый и понятный для всех — то есть человекочитаемый.

Все события утрированы, а совпадения — беспочвенны.

Читать далее

+77

makasin4ik Feb 7 2023 at 09:54

19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

Medium

5 min

14K

offlineCRM: Бесплатная CRM для самозанятых corporate blogWeb analytics*Internet marketing*E-commerce management*Content-marketing*

Case

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. По итогам прошедшего 2022 года поделюсь советами для тех, кто думает о подобном бизнесе. Бизнес очень интересный, но наполнен нюансами, которые и расскажу в статье.

Я ранее рассказывал про наш опыт развития бизнеса на парсинге сайтов в двух статьях (часть 1 и часть 2). Теперь хочу подвести итоги 2022 года и дать некоторые советы командам, которые хотят составить нам конкуренцию (не вижу, кстати, в этом ничего страшного, т. к. рынок довольно большой и скорее всего у вас будет свой путь, отличный от нашего). Никого, разумеется, не учу, пишу только наш опыт, с ним можно согласиться или нет — но у нас именно так… Всегда рад комментариям, которые заставляют задуматься и взглянуть на то, что делаем с другого ракурса.

Читать далее

+28

tolstenkoaa Feb 6 2023 at 07:23

Микроразметка сайта для Яндекс и Google с примерами

Easy

20 min

34K

Internet marketing*

Recovery Mode

Микроразметка сайта для поисковых систем Яндекс и Google в формате Schema.org, JSON-LD и Open Graph. Разметку старался делать без js, т.к. Яндекс ее не учитывает. Микроформат Schema.org подходит для Яндекс/Google. Преимущество данного метода - не нужно ждать бота, который придет, просканирует страницу с включенным js и поймет что там находится. Ускоряет обработку данных в микроданных.

Читать далее

+3

SbWereWolf Feb 3 2023 at 23:48

Импорт полной базы ФИАС за 9 часов, How To

12 min

8.8K

PHP*PostgreSQL*

Review

Recovery Mode

Год назад ФНС прекратила выкладывать базу ФИАС в формате DBF, теперь база доступна только в формате XML. Данные из DBF можно было вставлять в базу как есть, с XML так не получается, перед вставкой в базу, XML надо парсить, и это занимает время. Полная база ФИАС занимает 290 GB, парсинг такого объёма занимает значительное время.

Это время можно сократить, если парсинг распараллелить. Для этого надо разделить файлы на группы и каждую группу обрабатывать отдельно, но одновременно (процессоры давно многоядерные, надо не забывать этим пользоваться). Кроме того, конечно, надо использовать потоковый парсер, что бы не ждать полной загрузки файла в оперативную память.

Я разработал несколько скриптов для создания и импорта базы. Эта статья будет о том как с помощью этих скриптов развернуть базу ФИАС за 9 часов на 6-ти ядерном процессоре.

Читать далее

+3

Serganbus Feb 3 2023 at 06:24

Двухуровневый CI-процесс PHP-проекта

5 min

4.8K

Case

Непрерывная интеграция (CI, англ. Continuous Integration) — это практика разработки программного обеспечения, которая заключается в выполнении частых автоматизированных сборок проекта для скорейшего выявления и решения интеграционных проблем. Целей у непрерывной интеграции две:

Читать далее

+6

lashchenov_e Feb 2 2023 at 10:35

Как мы уместили распознавание 7 типов документов в одну модель, и что из этого вышло

13 min

7.1K

Сбер corporate blogImage processing*Artificial Intelligence

Привет, Хабр! Сегодня поговорим о документообороте и привлечении нейросетей к автоматизации этого процесса. HR-отдел Сбера ежемесячно обрабатывает тысячи кадровых документов. Так, например, помимо приёма на работу необходимо поддерживать данные всех сотрудников в актуальном состоянии. Такую возможность предоставляет собственная HR-платформа «Пульс».

Наши специалисты по искусственному интеллекту работают над автоматизацией процесса вноса кадровых документов в систему. При этом разработка моделей под каждый тип документов является финансово затратным процессом. Дело в том, что создание отдельного проекта состоит из нескольких ресурсоёмких этапов, включая разработку, тестирование, верификацию, деплой, мониторинг, поддержание кодовой базы. В этой статье я хочу рассказать, как мы пришли к созданию одной модели, которая распознаёт 7 типов документов:

Узнать больше о нейросетях

+10

SmartEngines Feb 2 2023 at 10:45

MIDV-2020: как мы создали крупнейший датасет документов, удостоверяющих личность

8 min

5.2K

Smart Engines corporate blogAlgorithms*Image processing*Machine learning*Artificial Intelligence

Retrospective

В этой статье мы хотим рассказать как мы создали крупнейший на данный момент набор искусственно созданных документов с большим разнообразием типов документов, их содержания и условий съемки. Каждый из документов имеет уникальные (хоть и выдуманные) значения текстовых полей, уникальную подпись и уникальные искусственно созданные лица.

Читать далее

+4

dimanosov007 Feb 1 2023 at 13:30

Обучите YOLOv8 на пользовательском наборе данных

10 min

65K

Data Engineering*Artificial IntelligenceMachine learning*Data Mining*Python*

Tutorial

Translation

Ultralytics недавно выпустила семейство моделей обнаружения объектов YOLOv8. Эти модели превосходят предыдущие версии моделей YOLO как по скорости, так и по точности в наборе данных COCO. Но как насчет производительности на пользовательских наборах данных? Чтобы ответить на этот вопрос, мы будем обучать модели YOLOv8 на пользовательском наборе данных. В частности, мы будем обучать его на крупномасштабном наборе данных для обнаружения выбоин.

Читать далее

+11

1 2 ...

19

20 21 ...