Комментарии / Профиль darthunix / Хабр

Денис Смирнов @darthunix

Разработчик

Массивно-параллельная база данных Greenplum — короткий ликбез

darthunix 30 янв 2020 в 06:07

А реализация S3-совместимого хранилища в облаке КРОК поддерживает S3 Select? И, если не секрет, какое вы используете решение для хранения в S3?

Официальная позиция Программных комитетов Highload++ и других IT-конференций на претензии к Игорю Сысоеву…

darthunix 14 дек 2019 в 10:31

Смирнов Денис Анатольевич, разработчик Arenadata

Мой первый опыт восстановления базы данных Postgres после сбоя (invalid page in block 4123007 of relatton base/16490)

darthunix 25 ноя 2019 в 04:44

Замечу, что всех описанных в статье страданий можно было избежать, просто посмотрев битую страницу через расширение pageinspect (https://www.postgresql.org/docs/current/pageinspect.html)

Кто убил джуниора?

darthunix 15 фев 2018 в 04:57

Я только что осознал, что кто-то получает за день мою месячную зарплату и пошёл пить водку, играть на балалайке и грустить с медведем.

Meltdown: влияет не только на производительность

darthunix 6 янв 2018 в 09:29

А что за режим EVA и как он защищает от Spectre?

Ищем имена с опечатками в PostgreSQL

darthunix 29 окт 2017 в 09:43

Посыпаю голову пеплом и признаю, что я не настоящий сварщик;)

Ищем имена с опечатками в PostgreSQL

darthunix 29 окт 2017 в 09:33

Там помимо фамилии есть имя и отчество. А в реальном продукте ещё и куча других параметров. Но если предложите методику испытаний для оценки качества поиска, я прогоню. И, кстати, буду благодарен за такой алгоритм.

Ищем имена с опечатками в PostgreSQL

darthunix 29 окт 2017 в 06:52

Рассматривался, пока не увидел алгоритм русского Метафона. Я его посмотрел и он показался мне вполне логичным в плане нивелирования ошибок, плюс его тестировали в бою. А транслитерация и последующая обработка фонетическими алгоритмами показалась мне чересчур сложной и потенциально дающей больше ошибок. Но я не тестировал.

Ищем имена с опечатками в PostgreSQL

darthunix 29 окт 2017 в 06:48

Чтобы просто разрезать на лексемы без модификаций — это более простой аналог регуляризация по пробелам. А russian может для ряда фамилий убрать окончания или увидеть в них стоп-слова

Ищем имена с опечатками в PostgreSQL

darthunix 29 окт 2017 в 05:44

Автор не потерял в качестве, информация из первых рук. Во всех выборках возвращалось менее 10 результатов при лимите в 10.
Кстати, то количество строк для разных выборок, которе вы написали, не имеет отношения к результатам. Это количество строчек в выводе плана explain (analyze, buffers) — можете сами посчитать))

Ищем имена с опечатками в PostgreSQL

darthunix 29 окт 2017 в 01:20

Отлично, время создания индекса уменьшилось на 40%, размер почти такой же (разница в 1 Мб — думаю, тут случайный фактор как расщеплялись странички при создании индекса), скорость поиска аналогичная.

Ищем имена с опечатками в PostgreSQL

darthunix 28 окт 2017 в 22:16

Я все прибываю в восхищении, какой вы себе ник урвали!

Ищем имена с опечатками в PostgreSQL

darthunix 28 окт 2017 в 22:12

Я вначале тоже думал транслитерировать имена в индекс и дальше использовать того же Дейча-Мокотоффа или двойной Метафон. Но нашёл на хабре ту забавную реализацию русского Метафона и был приятно удивлён ее селективностью. Так что дополнительный оверхед не городил. А вот у вас интересный опыт был, может расскажете в статье и с подробностями?)

Ищем имена с опечатками в PostgreSQL

darthunix 28 окт 2017 в 21:57

Я смотрел алгоритм Дейча-Мокотоффа, но нашёл его реализацию только для английского алфавита. У вас были иностранные имена в латинице? Или вы русские имена транслитерируете?

Ищем имена с опечатками в PostgreSQL

darthunix 28 окт 2017 в 21:52

Да, но в данном случае это было как из пушки по воробьям. Во-первых, лишняя сложность решения. Во-вторых, для транзакционных реализаций внешней индексации из PostgreSQL в ElasticSearch я нашёл только Zombodb. Но он умеет только pg 9.3,9.4,9.5 и es 1.7.1… остальные варианты сопряжения были сложнее и не оправданы на текущем объеме данных

Ищем имена с опечатками в PostgreSQL

darthunix 28 окт 2017 в 21:44

Согласен, качество выдачи надо было добавить. Но на всех запросах, кроме варианта с триграммы + полнотекстовый поиск по «смернов дин онатол» успешно находился «Смирнов Денис Анатольевич». В озвученном варианте (триграмм и полнотекст) по лексеме «дин» нашлась «дина», но не «денис». Во всех остальных случая селективность просто потрясающая и вызывает желание перекреститься)

Ищем имена с опечатками в PostgreSQL

darthunix 28 окт 2017 в 21:38

Это действительно упрощенная модель в статье. В реальности есть и дата рождения, и енп, снилс, паспорта, документы. Есть история изменений и архивный поиск по девичьей фамилии. Это я не тащил в статью, чтобы не загромождать запросы — история была именно про опечатки

Курс молодого бойца PostgreSQL

darthunix 24 окт 2017 в 12:33

А вот за абзац про экранирование строки через $$ вам от меня благодарность! Я писал функции и не понимал, что просто описываю тело функции в виде обычного текстового поля в ddl команде create function .... as $$ ... $$. По факту я могу смело писать

do language plpgsql 'begin select 1; end';

вместо идущего в примерах

do language plpgsql $$begin select 1; end$$;

ведь это одно и то же.

Вышел PostgreSQL 10

darthunix 8 окт 2017 в 04:33

Кстати, PostgresPro вроде имеет свой сертифицированный форк. А расскажите про Линтер, что за зверь такой? А то в интернетах про него внятных технических подробностей не нашёл при поверхностном поиске. И раз вы сказали, что сильная сторона pg — это mvcc, то что тогда у Линтера? Блокировщик?

Вышел PostgreSQL 10

darthunix 8 окт 2017 в 01:41

Ну понятно, что нормального мультимастера пока нет и раньше 12-13 версии pg его ждать глупо. По поводу костыльной реализации мультимастера на базе логической репликации здесь и сейчас… можете попробовать на двух серверах создать родительскую таблицу с двумя партициями. Ключом партицирования будет id сервера. На первом сервере при вставке в родительскую таблицу данные попадут в первую партицию, на втором сервере — во вторую. Первая партиция на втором сервере будет подписана на первую партицию на первом сервере. Вторая партиция на первом сервере будет подписана на вторую на втором. По факту такая конструкция может пережить сплит брейн за счёт того, что данные вносятся на каждом сервере в свою партицию и уникальность им обеспечит id сервера (поэтому конфликтов не возникает). Ну и делать такие вещи есть смысл не через нативное партицирование десятки, а через pathman. Но это так, теория, подобные костыли я не проверял.

3 4