MrTheFirst Mar 21 at 08:27

Тест для «сеньора»: в каком типе данных хранить номер паспорта?

Medium

6 min

29K

Database Administration * Designing and refactoring * IT careerPerfect code * SQL *

Opinion

+98

237

Comments 237

Pavel7 Mar 21 at 08:38

Паспорт серии 0306 и паспорт серии 306 – это юридически разные документы.

Разве количество цифр в серии не всегда равно 4? Потому что я не очень понимаю, какая проблема в том, чтобы хранить 0306 как 306, если серия 306 невозможна. Никто не мешает отображать 306 как 0306, при этом.

fire64 Mar 21 at 08:48

Тоже не понимаю.

Если у нас реальная длина фиксированная, то пусть даже будет 0001 мы то все равно понимаем, что если длина числа равна 1, то нужно добавить лидирующие нули.

Akina Mar 21 at 09:46

Всё так, можно и проверить, и добавить. Но в процессе работы с данными вы получаете дополнительный оверхед - нужно преобразовать в строку, проверить длину, при необходимости добавить ведущий ноль... Что самое забавное - вы будете делать это каждый раз, когда оно понадобится. Я не верю, что кому-то в голову придёт вычитать один раз и закэшить в памяти, чтобы потом всё время использовать это один раз полученное нормализованное значение.

А со строковым типом данных этого оверхеда нет.

Yankee2d Mar 21 at 13:11

Спорно, потому что вам нужно очищать тоггда данные от пробелов и спецсимволов. И также везде при вводе.

Далее, в большинстве систем, особенно в банковских, паспорт может быть иностранным.

Если вы говорите про семантику, то у паспорта НОМЕР, а не символьный или числовой идентификатор.

Номер это numeric. То, что в отображении используется форма с заполнением нулями слева не играет роли. Это отображение. Иногда это передача во внешние системы.

Не только лишь семантика рулит выбором, а вся совокупность сценариев использования. К примеру, телефонный номер это число, но есть код страны, а коды страны пересекаются. Есть +37, есть +373. Для логинов проще хранить единый номер. Но отобразить в форме код и номер ты не сможешь, выбрать по странам не сможешь.

Нормальный сеньор на ваш вопрос бы задал другой «а что за система и что вы собираетесь делать с этими номерами? Какие ограничения? Это только российские паспорта?»

Сеньор решает задачу системы, а не задачу хранения отдельно. В постгресе есть вычислимые на лету поля. Если номера паспортов и серий в числовом виде не пересекаются и в будущем не предполагается вводить иностранные паспорта и население рф не собирается выпрыгивать за диапазон в ближайшие сто лет, тогда, например, числовой тип на весь номер и две вычислимые колонки серии и номера с lpad абсолютно не являются криминалом.

Akina Mar 21 at 13:38

Спорно, потому что вам нужно очищать тогда данные от пробелов и спецсимволов. И также везде при вводе.

Ну да... а при вводе в числовой тип всё это чистить не надо, да?

Если вы говорите про семантику, то у паспорта НОМЕР, а не символьный или числовой идентификатор.

У паспорта - идентификатор. Но какой-то товарищ назвал его "номер". И началося...

Так что дело да, в терминологии. В слове, применённом там, где его значение лишь частично соответствует смыслу. И бездумном ориентировании на слово, а не на суть.

Если номера паспортов и серий в числовом виде не пересекаются и в будущем не предполагается вводить иностранные паспорта ...

Ага... ещё добавьте "мамой клянусь".

Гарантии есть? нет. И сеньор ОБЯЗАН это и учесть, и предусмотреть.

WhoIsJohnGolt Mar 22 at 06:32

Далее, в большинстве систем, особенно в банковских, паспорт может быть иностранным.

Именно. Вы можете гарантировать, что в этих случаях серия и/или "номер" не будут содержать буквы?

И "номером" это называется не везде. Чаще - именно "ID"

Yankee2d Mar 22 at 20:51

Только логика в вашей статье совершенно от другого.

На вопрос «в каком виде хранить номер паспорта» ответ не text, а встречный вопрос «какие ограничения, требования, сценарии использования, регуляторка». Номер паспорта является персданными и должен шифроваться.

Ваш ответ, данный в статье, не ответ сеньора.

Shrizt Mar 25 at 07:33

Хаха, скажи это номеру советского паспорта, или свидетельства о рождении :)

GerrAlt Mar 21 at 17:47

нужно преобразовать в строку, проверить длину

а проверка "< 1000" для серии чем-то вас обидела? или "< 1000000000" для серии и номера сразу?

для ситуаций значений строго фиксированной длины рассуждения выглядят как бла-бла-бла, с одной стороны рассказ про 146 миллионов (и это надо еще помножить на несколько паспортов на каждого), а с другой экономия в несколько байт на строку - копейки

MikhailB7 Mar 21 at 21:05

А со строковым типом данных этого оверхеда нет.

Весьма спорное утверждение.

Вы уверовали в то, что номер паспорта-это идентификатор. И забыли ответить на свои же вопросы.

Какова семантика этих данных? (Что они означают?)
Какие операции над ними будут производиться?

Серия паспорта-это весьма информативная составляющая. Первые 2 цифры-это код ОКАТО региона, где паспорт выдан. Вторые-год выпуска бланка. А вот номер паспорта-это как раз уникальный идентификатор.

Исходя из ответа на первый вопрос, я легко могу представить систему, в которой необходимо найти паспорта в определённом регионе, выданные в промежутке между скажем 2009 и 2010 годами.

И в этом случае числовой формат хранения даст более быстрый поиск.

Другое дело, что такого рода системы встречаются реже, чем те, где номер паспорта-просто идентификатор. Но вы же не конкретизировали, какие именно функции предоставляет система, а просто безапелляционно утверждаете, что мы имеем дело с обычным идентификатором.

Wesha Mar 21 at 22:12

я легко могу представить систему, в которой необходимо найти паспорта в определённом регионе, выданные в промежутке между скажем 2009 и 2010 годами.

..а потом окажется, что в некотором регионе у них остались невыданные бланки паспортов с прошлого года, и они решили «а чего добру пропадать» и выдали их не в том году.

«Всё не так плохо, как вам кажется. Всё гораздо, ГОРАЗДО хуже!» ©

MikhailB7 Mar 22 at 05:10

Более того-так происходит почти всегда. Это нормально, когда прошлогодние бланки выдают в следующем году.

Но замените слово "выданные" на "напечатанные" и вот уже запрос имеет практический смысл.

По хорошему идентификатор не должен содержать смысловую нагрузку. А номер паспорта её содержит. А раз так, то можно и задачи на эту нагрузку придумать.

MikhailB7 Mar 22 at 07:57

Всех желающих хранить номер серию и номер паспорта одной строкой не думая, как вы их будете использовать, предлагаю найти алгоритм поиска в такой строке паспортов, напечатанных в определённые, задаваемые пользователем, годы. Ну и естественно подумать над вопросом, а нет-ли в таком алгоритме оверхеда при работе со строками.

Wesha Mar 22 at 15:05

Все, кто предлагает НЕ хранить номер серию и номер паспорта одной строкой, не думают, что они будут со всем этим барахлом делать, когда бешеный принтер решит в очередной раз изменить формат.

MikhailB7 Mar 22 at 16:53

Просто иногда люди, предлагающие не хранить одной строкой, сначала выясняют все обстоятельства работы системы, взвешивают за и против, а затем уже предлагают. А не просто предлагают сферического коня в вакууме.

С чего вы решили, что в системе номер паспорта будет служить именно идентификатором человека, а не источником данных по отпечатанным бланкам, например?

Wesha Mar 23 at 14:56

А люди, предлагающие хранить одной строкой, в курсе, что бюрократы завтра какую-то новую схему номеров изобретут, и все эти бескрайние поля пойдут в пеший тур с эротическим уклоном.

axel_pervoliajnen Mar 24 at 10:22

Re Просто иногда люди,

Михаил вы много думаете о людях. Не надо.

Re номер паспорта будет служить именно идентификатором человека, а не источником данных ...

Сложная мысль :)

MikhailB7 Mar 24 at 12:13

Вы серьёзно? Я вообще не о людях думаю, а о назначении системы. Представьте, что бывают системы, которые эти самые паспорта печатают. И там тоже есть номер паспорта. Но к человеку он вообще никак не привязан (поскольку бланк только печатается, даже не напечатан еще). И идентификатор там не номер паспорта, а внутренний Id (поскольку завтра на этой линии вообще не паспорта печатать будут). А ещё есть разные отдельные системы bi, в которых большой начальника хочет данные о напечатанных паспортах проанализировать (сколько чего в каких регионах напечатано было). И вот например для bi могут быть вопросы как хранить(но тоже не обязательно).

Мысль сложная. :) Но с опытом привыкаешь выяснять подробности.

Ну и если почитаете мой первый пост, то там только заметки по скорости обработки стоки и цифры были, а не по хранению.

axel_pervoliajnen Mar 24 at 15:22

Re идентификатор там не номер паспорта, а внутренний Id (поскольку завтра на этой линии вообще ...

Тайнопись. Это наверное секретная инфа - никто об этом не знает ну кроме слитых баз знаете где.

Re заметки по скорости обработки стоки и цифры.

Не нашел эту заметку. Но знаю что скорость одинаковая.

Re отдельные системы bi, в которых большой начальника хочет

Госуслуги и сниплет который выдает данные в правильном XML видимо формате. Но это если bi и начальник Большой

MikhailB7 Mar 24 at 16:05

Тайнопись

Тут помочь ничем не могу. Грамоте не обучаю.

Госуслуги и сниплет который выдает данные в правильном XML видимо формате

Так в госуслугах и нет необходимости составные части паспортных данных анализировать.

Не нашел эту заметку. Но знаю что скорость одинаковая

https://habr.com/ru/articles/1012950/comments/#comment_29702624

Ну если вы знаете, что скорость одинаковая, при поиске паспортов, напечатанных в заданных пользователем регионах и за определённые года, для хранения единой строкой и для хранения в отдельных полях регион, год, номер, то тогда попрошу предъявить алгоритм поиска.

Но это если bi и начальник Большой

Да нет, просто системы разные бывают. Но у вас паспорт-всегда идентификатор именно человека, даже когда он только в печать пошёл.

Pshir Mar 26 at 06:24

del

gingerfoxie Apr 2 at 12:10

Серия не соответствует году на самом деле 🙂 но это так, для информации

MikhailB7 Apr 2 at 14:35

Всегда думал, что вторые две цифры-это год печати бланка. Других никогда не видел. Но возможно вы и правы. Спорить не буду.

Моя мысль была в том, что прежде чем использовать даже стандартные паттерны хранения стоит выяснять подробности использования данных.

askv Apr 3 at 10:28

Это год печати, но по факту когда массово выдавали паспорта в конце 90х и начале 2000х, то залезали в будущие годы. А когда стало хватать номеров, может и в будущий год бланки переносили, не уничтожать же их. Так что это год выдачи, но правило не строгое.

gingerfoxie Apr 4 at 16:12

Да, спасибо! Всё именно так) Примерно год выдачи, но для поиска/фильтра использовать не стоит

LexiusGaiden Mar 22 at 21:47

А потом выяснится, что при поиске сделать +1 все равно меньше нагрузка, чем искать по всему полю идентификаторов. Тем более код региона то точно не меняется

rombell Apr 6 at 18:40

и тут внезапно Крым и ЛДНР, куда свозили бланки со всей страны

shurutov Mar 22 at 04:39

Первые 2 цифры-это код ОКАТО региона, где паспорт выдан. Вторые-год выпуска бланка.

Таки опять идентификатор. Формат которого вполне себе может быть изменён.

MikhailB7 Mar 22 at 05:19

Формат ОКАТО -это 8-11 цифр. Согласен, что теоретически он может быть изменён. Но сравнивать-то придётся 2 цифры с 8ю. И как следствие придётся хранить сокращённый вариант.

Ещё раз-если идентификатор составной и несёт смысловую нагрузку, то всегда можно придумать задачи по этим смысловым полям.

Я ответил на ваш вопрос: какова семантика данных. А вот какие операции над ними будут проводиться-надо разбирать по конкретной системе и требованиям к ней.

Вы же продолжаете жить в парадигме, что "это просто идентификатор" Ничего кроме поиска по нему целиком не предполагая.

shurutov Mar 22 at 08:18

Вы же продолжаете жить в парадигме, что "это просто идентификатор" Ничего кроме поиска по нему целиком не предполагая.

Совершенно верно. Ибо здоровая паранойя - это профдеформация. Когда в сущность закладывается дополнительная информация, это, по моему совсем не скромному мнению, категорически неправильно. И использовать подобную информацию - совсем не стоит. Потому что вероятность пересмотра правил формирования весьма далека от нулевой.
И, кстати, именно в российском паспорте есть ещё целых два поля, которые более точно укажут, где и кем выдавался паспорт:

собственно, поле так и называет - "Паспорт выдан";
и ещё одно - "Код подразделения".

PS. Чем отличается проектировщик с опытом от начинающего, стартовый вопрос о типе хранения серии и номера паспорта, показывает вполне себе наглядно. Потому что, опытный проектировщик сразу вспомнит про паспорта иных государств, например.
Ну а чтобы жизнь мёдом не казалась, да и в порядке ненаучно-фантастического бреда, поднакину-ка я мал-мала на вентилятор. Как вам ситуация, когда наши безмерно уважаемые и горячо любимые законотворцы родят указивку о том, чтобы использовать 16-ричную систему счисления для серии и номера паспорта?
PSS. Глупость человеческая, в отличие от Вселенной, границ не имеет. :(
PSSS. Я подхожу к проектированию, следуя правилу: Проектируй систему из условия, что её будет эксплуатировать (пользоваться ей) достаточно квалифицированный моральный урод, который будет стремиться её (систему) сломать, а потом отыграться на проектировщике, до которого сможет добраться.

MikhailB7 Mar 22 at 08:28

Так вопрос-то изначально не про дополнительные поля паспорта. С чего вы решили, что ваша система будет их содержать? Или что она будет с загран паспортами вообще работать? Возможно ваша система-это учёт бланков на госзнаке, где паспорт-вообще один из многих документов.

Я говорю о том, что проектировать хранение данных без учёта их применения вообще не правильно. И да, глупость границ не имеет. В том числе и при проектировании. И да, при проектировании надо всегда закладывать возможность изменения/расширения функциональности.

Мой изначальный пост был о том, что хранение номера паспорта в числовых полях не всегда даст оверхед по сравнению с хранением в строке.

Akina Mar 22 at 08:10

И в этом случае числовой формат хранения даст более быстрый поиск.

С точки зрения SQL это тупое WHERE column BETWEEN. И я лично не верю в это ваше "более быстрый поиск". При наличии подходящего индекса скорость поиска должна быть достаточно близкой..

Серия паспорта-это весьма информативная составляющая. Первые 2 цифры-это код ОКАТО региона, где паспорт выдан. Вторые-год выпуска бланка.

А с этим утверждением возможны два варианта.

Первый - вы ГАРАНТИРУЕТЕ, что если при вводе мы разделим значение серии на два числовых поля, сохраним в БД только код ОКАТО и год выпуска, но не введённую серию, и в дальнейшем при запросе будем реконструировать значение серии, то у нас НИКОГДА не возникнет проблем - парсинга/преобразования, несоответствия введённого реконструированному и т.п.

Готовы гарантировать, что так и будет - сейчас, завтра, через десять лет? По-серьёзному, без всяких "ну а чё мне будет?". Если нет, то имеем второй вариант - нулевую ценность и практическую неприменимость сделанного утверждения.

MikhailB7 Mar 22 at 08:41

А вы готовы гарантировать, что ваш where between обеспечит сопоставимую скорость по сравнению с поиском по числам при вводе пользователем 5-8 значений года для поиска? Нигде не напрягает, что мы там подстроки выделять будем?

Ещё раз, в статье правильно сказал автор, что надо думать не только о семантике, но и о возможных условиях использования. Естественно при проектировании надо закладывать возможные сценарии изменения функций.

Мой изначальный пост был про то, что использование использование числовых полей не всегда даёт оверхед при работе. Всё зависит от функций системы, которые вы старательно выводите из обсуждения, заменяя на наиболее частые варианты использования.

rombell Apr 6 at 18:42

А вы готовы гарантировать, что ваш where between обеспечит сопоставимую скорость по сравнению с поиском по числам при вводе пользователем 5-8 значений года для поиска?

Как часто нужен такой поиск? Какова будет задержка ответа? И каковы потери в случае перепроектирования системы при изменении формата серии, например? Появлении 101го региона, скажем.

MikhailB7 Apr 6 at 19:54

Как и писал раньше, разговор про хранение без дополнительных описаний функций системы не совсем корректен. А потому задаю их сам:

BI система на госзнаке. Анализируем статистику напечатанных паспортов по разным регионам год к году. ИСПДн не является. Идентификатором человека номер паспорта не служит.

Теперь к вопросам:

Как часто нужен такой поиск?

Ежедневно по запросу. Отчёты никто не отменял.

Какова будет задержка ответа?

Думаю, что в случае с подготовленными и разложенными по годам и регионам данными работать будет точно быстрее, чем с одной строкой.

Каковы потери при пере проектировании в случае появления 101 региона?

Скорее всего небольшие. Ведь при хранении в такой системе данных одной строкой описанный выше отчёт всё-равно менять придется. А для того, чтобы правильно разложить данные есть etl, который вытащит данные из системы печати и разложит их для анализа. И изменить его совсем не сложно.

Понимаю, что случай вырожденный и придуманный на коленке. О чем тоже писал выше.

Ещё раз, я не сказал, что так хранить правильно или не правильно. Я топлю только за то, что стоит выяснять, что за систему проектируешь, а не полагаться слепо, что паспорт-всегда идентификатор человека.

rombell Apr 7 at 06:06

Ежедневно по запросу. Отчёты никто не отменял.

Даже 10 раз в день - это смешная нагрузка

Думаю, что в случае с подготовленными и разложенными по годам и регионам данными работать будет точно быстрее, чем с одной строкой.

Быстрее. Но зачем? Экономия 0.1с за сутки - пренебрежима

BI система на госзнаке. Анализируем статистику напечатанных паспортов по разным регионам год к году.

Гознак не печатает паспорта. Гознак печатает бланки паспортов. Это - другая сущность, для неё может быть другой учёт. Тем не менее, по идее, нужна система, где будут сводиться бланки (то есть когда и что напечатано) и сами паспорта (то есть кому, где и когда выданы). Разумно иметь ключи в этих системах в одном формате. Впрочем, во всей этой системе не очень с разумностью, судя по дубликатам.

Ведь при хранении в такой системе данных одной строкой описанный выше отчёт всё-равно менять придется.

Менять отчёт, и менять структуру в БД - кардинально разные затраты. Одно дело - увеличить размер колонки на 1, и совсем другое - накатить изменения кода отчётов.

MikhailB7 Mar 22 at 09:08

Ну и я не гарантирую, а говорю, что разделение серии на ОКАТО и год выпуска при вводе и хранении-это один из возможных вариантов использования. И в этом случае есть смысл думать о числовых полях. Разделять или нет-зависит от функций конкретной системы. Если у вас серия и номер паспорта-это просто идентификатор, то нафиг вам числовые поля не сдались. А вот если вы хотите на их основе какой-то анализ строить (без доп полей), то как хранить-зависит от того, что вы анализировать будете.

aleksandy Mar 22 at 10:22

Первые 2 цифры-это код ОКАТО региона, где паспорт выдан.

Два моих и один паспорт супруги прямо таки всухую опровергают этот тезис: ни разу код региона выдачи не совпал с первыми двумя цифрами серии.

MikhailB7 Mar 22 at 10:26

Точно ОКАТО смотрели? Это не тоже самое, что код региона на номерах машин. Всё паспорта, что я видел строго совпадают.

45 - Москва

40- СПБ

AlexGorky Mar 21 at 15:44

А вы не сталкивались с изменениями законодательства?
Завтра разрешат паспорта с 5 знаками и как вы поймёте, 1 - это 0001 или 00001?

zamboga Mar 21 at 18:32

Самое шикарное объяснение, почему нельзя хранить число и только на фронте рисовать ведущие нули.

Benchstyle Mar 21 at 21:55

Всегда интересно почему фронт должен что-то дорисовывать. В идеале он просто отрисовывает

Kenya-West Mar 22 at 16:14

"Ну закостыль мне это по-бырому, потом нормально на бэке сделаем, ну позязя, ты ж мой любимый сеньор манки патчер..." ©

GerrAlt Mar 21 at 21:59

честно говоря я его не понял, почему вы думаете что при этом изменении паспорт 0001 и 00001 это будут разные паспорта?

в системах с фиксированным числом разрядов при увеличении числа разрядов всегда делается пересчет - т.е. тот что был 0001 теперь 00001, у вас же система от добавления разряда не становится имеющей различное число знаков

qwe101 Mar 22 at 05:23

В уважаемой фирме изменили заводские номера. Прибавили впереди два 0. Знаков стало больше, никто старые номера изменять не предлагал. 0012345678 и 12345678 - разные номера. В жизни так.

GerrAlt Mar 22 at 09:18

Возможно в уважаемых фирмах так можно (мне всеже сомнительно, т.к. судя по явно проставляемым ведущим нулям формат предполагает фиксированное число знаков, а эти номера фигурируют как минимум в учетных документах, и при таком подходе все документы содержащие 12345678 после изменения числа знаков оказались неверно заполненными), но как минимум с основным документом удоставеряющим личность это не так - формат его номера закреплен законом также как и, например, данные присутствующие на первой странице. Новый формат номера возможен для нового документа - например "паспорт гражданина РФ 2.0", но если появляется именно новый документ кажется что хранить его номер вместе с номерами другого документа идея сомнительная.

ssj100 Mar 22 at 05:53

А если вставят буквы а не цифры

GerrAlt Mar 23 at 14:33

Тут кажется все достаточно прозрачно - новый формат номера это новый документ, и работать с ним надо как с другим документом, вы же не будете в одно поле писать и номер паспорта, и, например, номер охотничего билета?

geher Mar 23 at 18:31

Паспорт1, паспорт2...

qwe101 Mar 21 at 19:49

У моего знакомого была банковская карта. Пин - 5 цифр. На заправке автомат получает 4 цифры и бежит проверять. Не подходит. Несколько раз. Результат - блокировка карты. За границей, без денег...

aleksandy Mar 22 at 10:30

В Китае ситуация обратная: пин должен быть не менее 5 символов, и соотечественники, не зная данной особенности и имея 4-х значный пин, блокировали себе карты, т.к. банкоматы тупо считают невалидным пин с количеством знаков менее 5.

А вот для правильного ввода 0 нужно вводить последним, а не первым символом.

rombell Apr 6 at 18:45

то есть наши 4 цифры ПИНа +0 в конце?

March228 Mar 22 at 16:39

Это излишне

MrTheFirst Mar 21 at 09:47

Вы предлагаете классический антипаттерн – размазать ответственность за целостность данных тонким слоем по фронтенду или бизнес-логике. База данных должна хранить сам факт (идентификатор), а не математическую абстракцию, которую нужно каждый раз "собирать" костылями.

Представьте: завтра к этой базе подключается новый микросервис, BI-система для аналитики или понадобится сырая выгрузка в CSV. Каждому новому клиенту придется заново писать этот костыль с подстановкой нулей. А если кто-то забудет это сделать? Данные разъедутся. База должна гарантировать консистентность: положили строку – достали строку.

Pavel7 Mar 21 at 10:32

Представьте: завтра к этой базе подключается новый микросервис, BI-система для аналитики или понадобится сырая выгрузка в CSV. Каждому новому клиенту придется заново писать этот костыль с подстановкой нулей.

Нет, не придётся, в базах существуют представления.

Но, вообще говоря, мой комментарий был про то, что такой механизм хранения никак не ломает идентификацию человека.

Да и следуя вашей же аргументации, я могу вам сказать - представьте, что завтра в вашей базе начинают хранить не только российские, но и паспорта других стран. Или представьте, что завтра в вашей базе начинают хранить не только внутренние, но и загранпаспорта. Ваша предлагаемая схема готова к этому?

MrTheFirst Mar 21 at 11:40

Представления отличный инструмент. Но зачем изначально создавать себе проблему на уровне хранения (терять данные), чтобы потом героически её решать через View? База должна хранить консистентные факты.

Что касается изменения форматов в будущем: если МВД добавит пятую цифру, букву или дефис, тип CHAR или VARCHAR мигрировать/расширить гораздо проще. А вот если вы заложились на INTEGER, то при появлении букв ваша схема просто ляжет с ошибкой типизации.

GerrAlt Mar 21 at 22:34

а вы считаете что эти теоретические новые номера корректно хранить вместе со старыми? законом закреплён формат документа, если вводится новый формат - это будет новый закон и новый документ

вы же, наверное, не будете в колонку "номер паспорта гражданина РФ" писать, например, номер удостоверения моряка (хотя это тоже документ удостоверяющий личность)?

seryoga77 Mar 22 at 09:46

Даже если добавят пятую цифру, то скорее всего старые серии будут продолжать действовать. Скорее всего будут одновременно действовать 4 и 5-значные серии. Представляю какой взрыв мозга и толстый слой костылей ожидает тех, у кого числовой тип хранения)

Pavel7 Mar 23 at 08:08

Но зачем изначально создавать себе проблему на уровне хранения (терять данные)

В хранении bigint-ом нет никакой потери данных. Нет коллизий, из хранимого значения однозначно восстанавливается отображаемое значение и обратно. Так можно вообще заявить, что хранение дат timestamp-ом - это потеря данных.

чтобы потом героически её решать через View?

Хранение bigint-ом не требует никакого ощутимого оверхеда в части разработки и развития. Ну и суть подобного решения очевидна - это повышение производительности. Меня изначально смутило заявление, что по производительности индексов bigint и char(10) " разница практически нулевая ". Мой опыт, да и просто банальная логика говорит об обратном. Загрузить два значения в два регистра и сделать cmp гораздо быстрее, чем побайтово грузить строки и cmp их.

Меня это заинтересовало и я набросал простейший тест - инсёртим N номеров, ребилдим индекс, проверяем M номеров (90% существующих, 10% несуществующих). У меня получилось, что CHAR(10) минимум в полтора раза медленнее BIGINT и чем больше N, тем больше разница, конечно же.

TYPE        ROWS         SEARCHED     AVG_MS (10 tries)
----------- ------------ ------------ ----------------------
BIGINT      500000       100000       825.813
CHAR(10)    500000       100000       1257.351

BIGINT      2000000      100000       1018.259
CHAR(10)    2000000      100000       1559.763

BIGINT      10000000     200000       2146.738
CHAR(10)    10000000     200000       3605.246

Естественно, далеко не всегда нужно гнаться за этой производительностью, но с учётом того, что это практически ничего не стоит в части оверхеда, то BIGINT вполне себе жизнеспособный вариант, наряду с CHAR(10). А CHAR(10), например, будет быстрее в извлечении кусков серии, чем BIGINT.

если МВД добавит пятую цифру, букву или дефис, тип CHAR или VARCHAR мигрировать/расширить гораздо проще

То ваша схема просто ляжет с ошибкой транкейта и потребуется доработка физического хранилища.

А вот если вы заложились на INTEGER, то при появлении букв ваша схема просто ляжет с ошибкой типизации.

То есть потребуется доработка физического хранилища.

А вот если МВД добавит пятую цифру в серию (что гораздо вероятнее, чем букву), то в случае BIGINT потребуется только доработка представления, а в случае CHAR(10) - хранилища.

randomsimplenumber Mar 23 at 08:38

хранение дат timestamp-ом - это потеря данных.

С какого года начинается Unix time, с 1970? В астрономии или истории могут случиться и другие диапазоны дат.

GerrAlt Mar 21 at 17:52

я правильно понимаю что "костылем" в данном случае вы называете, например, SQL-функцию LPAD ?

Warperus Mar 21 at 18:49

Которую придётся ляпать во всех поисковых запросах? Да, костыль, причём неудобный.

GerrAlt Mar 21 at 21:44

а зачем ее добавлять в поисковых запросах?

ITANIMVLLI Mar 26 at 07:08

Это база. Но причем тут сеньор? Достаточно иметь обычный, бытовой здравый смысл.

megabozzx Mar 21 at 09:47

Если завтра поменяют формат в новых выдаваемых паспортах, например добавят ещё одну цифру спереди серии, то хранение данных с таким подходом очень сильно сядет в лужу.

Pavel7 Mar 21 at 10:33

Если завтра поменяют формат в новых выдаваемых паспортах

То и вариант схемы, предложенный автором, перестанет удовлеторять требованиям.

alex_tulski Mar 21 at 19:41

Ну там к варчару надо будет один символ добавить, не проблема, а вот отличить серию 0384 от 00384 в виде инта не получится.

GerrAlt Mar 21 at 22:02

так и не придется - серия имеет фиксированное число знаков, если теперь это 5 знаков - ок, значит 0384 теперь 00384

от того что к фиксированной длине добавили разряд формат не стал предполагать вариативность в длине

fshp Mar 23 at 13:56

А в выданных паспортах нолик дорисуется сам или нужно будет в ФМС записываться?

GerrAlt Mar 23 at 14:16

если конкретно про паспорта то ни то ни другое - другой формат номера это другой документ

для ситуаций инвентарных номеров и т.п. при смене формата пишут что-то вроде "при указании номера меньшей длины считать номер дополненным нулями слева до <число> знаков"

fshp Mar 23 at 14:19

Вы сами себе противоречите. Если другой формат это другой документ, то серия 0384 в базе не должна превратиться в 00384, т.к. это разные документы.

GerrAlt Mar 23 at 14:27

Если мы обсуждаем конкретно паспорта то да, новый формат номера это новый документ, и с моей точки зрения хранить его номер там же где хранятся номера "старых" документов неверно.

Вариант для менее бюрократизированных случае я привел как пример, как в некоторых случаях могут работать с номерами, для основного документа удостоверяющего личность это неприминимо.

SmmmaG Mar 24 at 04:22

1с детектед

alex_tulski Mar 23 at 18:39

А в выданных паспортах количество символов останется тем же до замены документа. 0384 и 00384 это две разные серии

fshp Mar 23 at 21:25

Именно поэтому их нельзя считать одинаковыми.

ssj100 Mar 22 at 05:56

А если букву?

h4r7w3l1 Mar 22 at 16:37

Паспортные данные (серия, номер, дата выдачи, орган выдачи) должны храниться точно в том формате, в котором они представлены в документе, без потери ведущих нулей или других преобразований. Регулируется ст.5 фз-152, в случая аудита ПДн обрезания не лучший вариант

Вопрос больше в цели, если производительность критична и эффективность хранения, можно и в int на самом деле хранить, в тотже ch это будет эффективней, но с практичной точки зрения такой формат для расположения "рядом", т.е. фактически помимо pass_serial char(4), pass_number char(6) можно и в passport_data int(11)

з.ы. по сабжу автору статьи, не знаю причем тут тест на синьора, будучи еще зеленым мидлои при первой практике с номерами телефонов мне стало очевидно что это совсем не про тип номерной в строчный. скорее тут тест больше на теоретиков и тех кто ручками пощупал что это такое

Arlekcangp Mar 23 at 21:12

А однако как то никто не заметил, как "сеньор" стало ассоциироваться с тестами по теории, алгоритмам, графам и т п, в то время как раньше именно опыт определял. (Вероятно, потому что стало модно приписывать себе опыта в резюме...) А графы и алгоритмы - это просто образование. Да, сеньору нужно знать, но не на зубок, а уже на интуитивном уровне. Проще говоря какую книгу открывать, когда оно нужно будет (спойлер: очень редко 😁)

У меня лично первый ассоциативный ответ на вопрос из заголовка был именно строка. И уже потом я стал искать подвох, подумал что речь об ООП, DDD и value object пойдёт, и надо бы ответить, что номер паспорта я буду хранить в объекте класса "номер паспорта", но открыл, и оказалось что тут банальные поля в БД 😁 Я к тому, что даже в мыслях не было делать его числом. Это какая то странная логика у тех кто вообще без опыта или им мозги " оптимизацией " перекрутили и они пихают её везде где надо и не надо.

botyaslonim Mar 24 at 14:12

Вы только что сократили raw-данные в надежде на то, что "серия 306 невозможна". А что если станет возможна, что будете делать с человеком со старым паспортом?

Зачем изощряться и стрелять себе в ногу, если можно не стрелять? Где выигрыш от всех этих преобразований?

Pavel7 Mar 24 at 14:25

Вы только что сократили raw-данные в надежде на то, что "серия 306 невозможна". А что если станет возможна, что будете делать с человеком со старым паспортом?

Вероятность того, что серия 306 станет возможной и будет отличаться от серии 0306 гораздо ниже вероятности того, что, например, серия станет пятизначной с добавлением числового суффикса из-за превышения количества выдаваемых паспортов в промежуток времени в московском регионе. Это очевидно просто из сути разрядов серии (код окато + код бланка). При этом, решение автора ломается на 5 значности, а bigint нет.

Зачем изощряться и стрелять себе в ногу, если можно не стрелять?

Потому что тут нет никакого выстрела в ногу, это вполне приемлемое решение.

Где выигрыш от всех этих преобразований?

Уже давно ответил

ib13 Mar 28 at 05:36

Не всегда 4, есть иностранные паспорта, есть паспорта дружественных государств где вообще буквы. Поэтому стринг.

А.с. из опыта работы с перс данными при создании ГИС/мис

gingerfoxie Apr 2 at 12:08

Я сразу подумала про varchar, но не столько из-за лидирующих нулей, сколько из-за вопросов масштабирования. Вот завта у вас появится какой-нибудь гражданин другой страны. Будете создавать новые колонки / таблицы? А серия и номер документа, как правило, есть у любого документа, удостоверяющего личность. Для того, чтобы не было бардака, надо просто проверки по регуляркам прикрутить и красота😌

tenzink Mar 21 at 08:49

А я после прочтения заголовка предвкушал жесть, как с адресами. Какие-нибудь легаси форматы, поддержка международных форматов, а что если добавятся буквы, не обязательно латиницей, нормализация и всё в таком роде

askv Mar 21 at 08:52

как с адресами

или временем...

Dhwtj Mar 21 at 09:49

Или net.IP в Go
Или парсинг телефонных номеров (вообще жуть)

K0styan Mar 21 at 08:58

Адреса - это вообще прекрасная тема. Я раньше занимался OCR визиток, составлял в т.ч. сводки характерных особенностей (жаль, заметки не сохранил, можно было бы статью хорошую сделать).

Там мало того, что форматы разные, есть целые сущности специфические. Например, где-то принято указывать название комплекса или кластера, где офис располагается. У нас тоже часто пишут "Сколково", скажем, но там это настолько системно, что нужно отдельное поле, выделяемое по ключевому слову.

Kenya-West Mar 22 at 16:22

В Таиланде, кстати, так и принято, что надёжнее дать название здания. Ведь адрес либо дублируется по 5-10 раз в пределах города, либо указывает на что-то другое, либо вообще не выдаёт результатов - причём один и тот же адрес может демонстрировать любое поведение от приложения к приложению. Поэтому уникальное название здания надёжнее.

vis_inet Mar 24 at 10:42

Там каждое здание имеет название???

Kenya-West Mar 24 at 10:44

Совершенно нет, но в сколь-нибудь значимой точке интереса уникальное название гарантированно будет.

askv Mar 24 at 11:21

Был в Будве, там тоже в основном по названиям зданий ориентируются а не по привычному нам улица-номер дома.

Wesha Mar 21 at 22:19

А я после прочтения заголовка предвкушал жесть, как с адресами.

С адресами — х... х... словом, с адресами вовсе не хорошо.

K0styan Mar 21 at 08:49

Я думал, подвох в том, что серию правильно дробить на два блока по два символа, чтобы регион выдачи было проще вытягивать (и, например, делать внутреннюю верификацию с выдавшим подразделением))

Efrem3112 Mar 21 at 09:26

Определять регион выдачи по серии - плохая затея.

izuck3n Mar 21 at 09:40

Емнип регион в серии это скорее регион печати бланка, бланки могут перевозить между регионами по разным причинам и выдать в другом.

Metotron0 Mar 23 at 05:10

От места выдачи моего паспорта до региона из первых двух цифр его серии больше полутора тысяч километров.

Могут ли выдать паспорт в посольстве в другой стране?

askv Mar 21 at 08:51

если длина фиксирована, что здесь как раз так

Когда имеешь дело с МВД РФ, это далеко не так. Посмотрите хотя бы на автомобильные номера.

Чиновники и депутаты вообще часто не умеют в IT. Поэтому придумывают неуникальные ИНН и т.п. баги, которые потом долго и нудно исправляют (если вообще исправляют).

Akina Mar 21 at 09:50

Это вообще один из недостатков статьи.

Номера не просто имеют какой-то фиксированный формат, они его имеют НА ТЕКУЩИЙ МОМЕНТ ВРЕМЕНИ. То есть если заложиться на некий формат, то в произвольный момент в будущем приложение имеет все основания превратиться в тыкву. Упомянутые вами номера АМТ - это как раз наглядная демонстрация такого факапа, который уже имел место быть. Но только умные учатся на чужих ошибках.

И эта опасность в принципе не то что не рассматривается, но даже и не озвучивается.

vis_inet Mar 21 at 15:53

А чем отличаются номера АМТ ?

Akina Mar 21 at 17:42

А тем, что их формат как раз в один прекрасный момент взял, да и изменился. Что примечательно - вот совершенно без каких-либо вменяемых причин.

vis_inet Mar 21 at 17:54

Это я понял.

А как именно было и стало?

Akina Mar 22 at 08:15

Для гражданских номеров:

Было - 4 цифры, затем 3 буквы.

Стало (нынешний формат) - 1 буква, 3 цифры, 2 буквы, 2-3 цифры.

Кроме того, существуют всякие служебные, экстренные, военные и прочие спец-номера, со своими шаблонами.

Metotron0 Mar 23 at 05:12

А у кого-то, небось, с советских времён номер стоит. И паспорт тоже с тех времён. Ну, был человек в коме 30 лет. Или пропадал без вести.

askv Mar 23 at 06:00

Долгое время паспорта СССР были законным удостоверением личности. Их отменили в 2023 году только.

Warperus Mar 21 at 18:58

В прошлом тоже не всё гладко, мой старый паспорт имел серию типа XXII-НА, такое в цифры не запихнёшь, как ни крути.

В реальном проекте для одного из мобильных операторов использовалось хранение паспортов в специально заточенной для того системе, с валидацией, вычисткой, блэкджеком и далее по тексту.

ssj100 Mar 22 at 06:03

Иностранец такой "Buna ziua", нужно позвонить

konst90 Mar 21 at 18:06

У автомобильных номеров есть ещё одна подстава: они могут совпадать.

То есть в России могут существовать наборы одинаковых (по символам) номеров, но при этом один номер висит на тракторе (тип 3), второй на мотоцикле (тип 4), а третий на военной машине (тип 5). Поэтому разная длина - это меньшая из проблем.

Wesha Mar 21 at 22:34

Тут у нас целая ~~книжка~~ статья была (кстати, что-то у её автора ник Ваш как-то подозрительно напоминает),

с картинками

askv Mar 23 at 06:01

Так было же уже, кто-то взял себе номер NO NUMBER и словил все штрафы в тех случаях, когда система не смогла распознать номер.

positroid Mar 21 at 08:52

Не тот ли это случай, когда собеседующий ждёт единственно верный ответ, который придумал сам?

olivera507224 Mar 21 at 10:04

Именно он. Судя по статье (не знаю как в реальности), задающий вопрос ожидает два исхода - либо правильный, либо неправильный. И даже не думает о том, что решение задачи сильно зависит от контекста и каждое решение имеет как определённые недостатки, так и свои преимущества. Вместо того чтобы разобраться в том, как оппонент думает и строит гипотезы, вопрошающий просто ожидает одного из двух ответов.

MrTheFirst Mar 21 at 10:23

Единственный "исход", который я ожидаю – что разработчик умеет думать о природе данных.

Расскажите, в каком таком контексте потеря данных (ведущего нуля) – это не баг, а допустимый недостаток, у которого есть свои "преимущества"? Экономия 2 байт на жестком диске в обмен на невалидные паспорта пользователей? Отличный трейд-офф, заверните два.

positroid Mar 21 at 17:27

До тех пор пока ведущий ноль не является значимым - тип данных для хранения никакой роли не играет. Ни varchar ни number не порождают баг сами по себе.

Если ваша команда забыла про обработку ведущих нулей в number - никто не мешает забыть ей про обработку пробелов в varchar, породив ровно такой же баг.

Можно придумывать какие угодно оправдания, смыслы и семантику - выбранный вами ответ не станет от этого единственно верным.

randomsimplenumber Mar 22 at 06:56

Разница в том что пробелы не нужно специально восстанавливать.

positroid Mar 22 at 07:05

Зато у вас серия "0306" и "306" - это разные идентификаторы и бд с уникальным индексом их пропустит легко. С number такой фокус не прокатит

randomsimplenumber Mar 23 at 07:48

Ну так они действительно разные. 3 символа и 4 символа. Printable.

fire64 Mar 21 at 18:34

Да почему вот прямо невалидные? Это вопрос представления, а не валидации!

0001 и 1 это эквивалентные данные, при условии, что число состоит всегда из 4 знаков!

Если мы исходим из того, что количество цифр в серии может быть не 4 значным, а иным, то да, соглашусь.

Но не стоит забывать про фильтр данных на входе, что значения всех символов во входящих данных должны быть от 0 до 9

dimaaannn Mar 22 at 07:16

На самом деле отчасти вам отчасти правильно сказали.

Вы совсем позабыли сказать, а как этот номер паспорта дальше будет использоваться.

Может быть мне вообще будет лучше его хэшировать, чтобы не хранить "персональные данные".

А если это софт для паспортного стола - то разбить номер на сегменты для поиска. Или вообще свой тип данных создать.

hardegor Mar 21 at 08:52

А есть ещё советские паспорта, там всё немного по-другому)

K0styan Mar 21 at 08:59

Действующих уже нету, так что если система оперирует не архивными данными, а текущими - в целом, можно не заморачиваться.

Но так-то строка и там вполне сгодится, только верификация чуть сложнее будет.

hardegor Mar 21 at 09:09

Проблема в том, что советские паспорта всё еще действующие, их никто не отменял)

myswordishatred Mar 21 at 09:23

А есть ещё и иностранные! Наверняка там и буквы попадаются, и дефисы, и вообще всё, что в голову придёт.

anwender95 Apr 7 at 05:41

И потом ублюдки из мейлу сру(у них же сейчас РФ Алиэкспресс) и озона не принимают иностранные паспорта.

MrTheFirst Mar 21 at 10:26

Отличное дополнение про иностранные и советские паспорта (возьму на вооружение в качестве дополнения, вопрос все же про паспорта РФ).

Это как раз тот самый «контрольный выстрел» в архитектуру, построенную на INTEGER.

geher Mar 21 at 11:16

Есть еще нюанс.

Никто и ни в какой стране не может предсказать какую-нибудь реформу, при которой в номере или серии паспорта неожиданно появятся буквы, изменится количество цифр, или еще что-то подобное не случится (например, решат, что номер паспорта для чего-то должен быть уникальным вне зависимости от серии, или серию вообще отменят, ибо лишняя сущность). При этом всегда будет переходный период, когда одновременно будут действительны документы и старого, и нового вида.

Потому я бы всегда для любых номеров документов в базу закладывал строковый тип без ограничений. А ограничения для предотвращения ошибок должен реализовывать интерфейс ввода данных (тем более, что его все равно надо реализовывать). Хотя я не специалист по базам данных, и может есть какие нюансы, требующие иного.

И кстати, кто знает, зачем в некоторых документах вообще серия? Какой сакральный смысл она несет? Традиция?

hardegor Mar 21 at 11:31

Потому что букв больше и их проще запоминать в комбинации с цифрами, я например свой советский паспорт всё ещё помню, хотя больше 20 лет уже прошло)

geher Mar 21 at 11:55

В современном российском паспорте, однако, серия цифрами.

Iwanowsky Mar 21 at 13:31

Я тоже до сих пор помню номера советского паспорта, военного билета и комсомольского билета (конечно же, и данные российского паспорта тоже знаю).

GerrAlt Mar 21 at 22:12

видимо на ваших собеседованиях размеры типов данных не спрашивают

всё-таки "целочисленный тип" некорректно подменять на integer, в него кажется ни в каком варианте исполнения все возможные 10-значные числа не влезут

minamoto Mar 25 at 11:49

Упомяну ещё одну вещь.

Не знаю, какую именно базу данных вы подразумеваете, но в SQL Server, например, CHAR - это non-Unicode поле, а Unicode поле - NCHAR.

И в этом случае вас могут ждать другие сюрпризы (взял для примера номер советского паспорта и первую попавшуюся кодировку):

declare @passport_full CHAR(10)
set @passport_full = ‘IVЯЛ636805’ collate Arabic_CI_AS
select @passport_full
И получаем вот такой вот "отличный" результат:

IV??636805

Поэтому для SQL Server, особенно если делается поддержка разных языков, нужно использовать другой тип данных:
declare @passport_full NCHAR(10)
set @passport_full = N’IVЯЛ636805’ collate Arabic_CI_AS
select @passport_full

Ryav Mar 21 at 09:01

Я почему-то ожидал подвох в том, что паспорта нельзя хранить в открытом виде (хз на самом деле, есть ли какие регуляции на этот счёт)

Impulse127 Mar 21 at 10:09

Мой ответ varchar, потому что я бы хранил персональные данные не в открытом виде в бд, а в зашифрованном. А там как правило строка или байты

olivera507224 Mar 21 at 10:09

База – SQL.

Что, простите?

vvzvlad Mar 22 at 01:20

Ну есть NoSQL еще.

hydroargerum Mar 21 at 10:10

Если это какая-то локальная БД, то наверняка лучше char(n), но если это большая БД, то при сравнении и поиске из большого массива карточек найти совпадающие числа быстрее, чем строки. А это скорость обработки.. причём кратно быстрее

belch84 Mar 21 at 21:58

А если паспорт поврежден/сожжен, от него остался только номер, а первая цифра залита чернилами/кровью/краской?

hydroargerum Mar 22 at 06:28

Если первая цифра утрачена в номере, то сравниваем с массивом из 10 значений. И собственно это в сравнении с обычным поиском это несколько более иной специализированный поиск. Для возникновения такой ситуации, нужно, чтобы от документа остался только клочок одного листа.
При выборе способа хранения данных нужно исходить из того, что мы с ними делаем и что возможно в будущем будем делать. Это и будет определять формат хранения информации, который можно и нужно оптимизировать под наши задачи. Конкретно для криминалистики лучше, наверное, дублировать БД в ином формате. И то если нужно очень часто выполнять такие действия, а в случае если эти случаи редки, то проще не усложнять и для разовых задач сделать костыли

krote Mar 21 at 10:13

Если коротко - не оптимизируйте там где это не просят, и не будете иметь головной боли. Извечная проблема новичков, которые изучили структуры/типы данных и не хотят "ударить в грязь лицом", боясь что их сочтут некомпетентными из-за слишком простого решения.

Хороший совет из всей статьи - не следует воспринимать идентификаторы как числа. Если вам не нужно выполнять математические действия - забудьте о числовых типах.

Format-X22 Mar 21 at 19:05

Это хорошо до тех пор пока числа не станут большими и их вдруг не станет миллиарды, и вдруг не потребуется их искать. И окажется что продакшн база разрослась и расходы на сервера стали веселыми.

Вообще это удивительно как половина комментаторов и автор статьи игнорируют объемы. Может для паспортов оверхед и будет всего (всего!) в два раза, но если мы начинаем хранить ещё всякие ИНН, телефоны, какие-нибудь внутренние идентификаторы и прочее - разница начинает наростать. Хранить гигабайт или сто гигабайт, чего бы выбрать… хмм…

А про возможные буквы - такое бывает, но обычно это что-то типа обозначения региона владельца. Оно, к слову, в енумы числовые тоже прекрасно пакуется.

Kenit Mar 24 at 08:07

Что не противоречит изначальному тезису

Если коротко - не оптимизируйте там где это не просят

krote Mar 25 at 08:48

меня в свое время бомбануло от идентификаторов типа GUID в 1С, тогда как я привык для мини справочников делать 2 байта, а 4 байта для всего остального (INTEGER) хватало вообще с большим запасом на все. Помню как с сомнением смотрел на BIGINT - 8 байт, ну а потом увидел 16 байтовые в 1С... мало того что их хранить, так по ним еще и джойнить таблицы приходится... но, авторы принесли производительность в угоду универсальности, а клиент купит дороже сервер если ему надо.

Windsor Mar 25 at 21:42

Зато нет боли с уникальностью )

denismartyanov Mar 26 at 14:29

4 байта для всего остального (INTEGER) хватало вообще с большим запасом на все

Тут может быть проблема когда инты ВНЕЗАПНО закончатся в какой-нибудь таблице, и расширение типа id принесёт много боли (особенно если даунтайм долгий нельзя).

Однажды напоровшись, теперь для любых таблиц, где есть хоть какая-то вероятность что записей будет много (не справочников), делаю тип id BIGINT.

krote Mar 27 at 01:04

Абстрактно рассуждая да. А реально разработчик прекрасно знает те немногие таблицы у себя в приложении, которые рискуют вылезть за INT.

ValentinAndreev Mar 21 at 10:28

Честно скажу, про ведущий 0 не подумал, но что хранить как строку сразу, обоснование - идентификатор, "а вдруг завтра буквы добавят или еще что".

whoisking Mar 21 at 10:32

Паспорт – это идентификатор. Это метка, уникально указывающая на документ.

Это в теории. Уникально оно только в рамках первичной базы МВД (надеюсь). А вот за её пределами - нет. Внезапно, может прийти юзер, который будет заявлять, что на самом деле это он владелец номера, с которым кто-то зарегался в вашей системе пару месяцев назад.

K0styan Mar 21 at 17:25

Ну это в любом случае не на уровне БД надо разруливать

skovoroad Mar 21 at 11:20

У чисел в паспорте есть семантика, и вы вполне можете её использовать. Сортировать по региону, по году выпуска, к примеру.

Правильный ответ: зависит от целей и способа использования этих данных, в задаче это не описано.

Статья глупая.

cartonworld Mar 21 at 11:36

Примеры теоретические, практически они бесполезны

Код региона в серии - это там где напечатан бланк паспорта. Я прописан в области, код по серии - Москва

Паспорт получен в 2024, но год выпуска бланка в серии - 23, т.к. бланки были напечатаны с запасом, и не все использованы в 23-м

Есть серии, которые вне правил, типа паспортов выданных в Крыму или в консульствах за пределами РФ

skovoroad Mar 21 at 15:06

И что? Вы сами подтверждаете, что у частей номера есть семантическое значение. Допустим, меня интересует обработка "регионов, в которых напечатан паспорт", что дальше? Хранить их в переводе на немецкий? В римских цифрах?

Таким образом, способ хранения опять зависит от решаемых задач. Если честно, это настолько очевидное утверждение, что я не понимаю, о чем тут можно спорить,если не задаться целью спорить.

Претензии же к "теоретичности" в контексте собеседования (а статья про собеседование) вообще вызывают недоумение. Разумеется, это теоретический пример, а что же это ещё можно обсуждать на собеседовании, продуктовое решение?

cartonworld Mar 21 at 15:25

Допустим, меня интересует обработка "регионов, в которых напечатан паспорт", что дальше?

Хранить регион, в котором напечатан паспорт

Я не спорю

reinmaan Mar 21 at 12:46

Минутка повышения самомнения) сразу ответил строка. Sql не знаю от слова совсем, зато много работаю в связке qwery pivot excel. И опыт не определить тип данных а потом матерится от не правильного поведения учит - число только для того что будешь умножать

Wesha Mar 21 at 14:59

Открыл коробочку и добавил в неё Вашу статью

«Всё не так плохо, как вам кажется. Всё гораздо, ГОРАЗДО хуже!» ©

konst90 Mar 21 at 18:08

http://krylov.livejournal.com/3450110.html

Вот вам ещё в коробочку

AxelLx Mar 21 at 18:40

В ту же коробочку: документом, удостоверяющим личность может быть не только паспорт гражданина РФ.

outlingo Mar 21 at 15:19

Как бывший владелец паспорта СССР ржал в голос услышвв про number в любой его реинкарнации. XVI ИВ и 6 цифр,

vis_inet Mar 21 at 15:56

У меня было 8-КН и 6 цифр.

askv Mar 21 at 17:31

У меня было четыре восьмёрки в конце номера...

serafims Mar 21 at 18:25

А ещё есть прикол со свидетельством о рождении: "серия свидетельства о рождении вводится в формате: римская цифра (латинскими буквами I, V, X), дефис (или без него) и две буквы кириллицы (например, II-АВ или IIАВ), далее — 6 цифр номера. Римские цифры (I, V, X) вводятся в английской раскладке, а буквенная часть — в русской. ".

serafims Mar 21 at 18:26

То есть IV-ак и IV-ak это разные документы, написал строчными для наглядности.

konst90 Mar 22 at 05:49

IV-ak

Такого свидетельства о рождении (в настоящее время) не может существовать.

randomsimplenumber Mar 22 at 07:02

С чего вдруг? Не выдавать да, а уже выпущенные существуют.

konst90 Mar 22 at 07:04

Точно существуют? Насколько я знаю, свидетельства о рождении всегда выдавались в таком формате, и латиницы там никогда не было.

qwe101 Mar 22 at 14:21

У меня на латинице. СССР. При получении паспорта - повертели бумагу в руках, отложили, говорит - диктуй.

Wesha Mar 21 at 22:45

"серия свидетельства о рождении вводится в формате: римская цифра (латинскими буквами I, V, X), дефис (или без него) и две буквы кириллицы (например, II-АВ или IIАВ), далее — 6 цифр номера.

А у меня у паспорта (советского) номер по такой же схеме был. Кстати, римская цифра может состоять из четырёх символов (VIII — это цифра 8)!

konst90 Mar 22 at 05:52

VIII — это цифра 8

Это число 8, записанное несколькими цифрами. И, наоборот, цифра X означает число 10 (в десятичной системе счисления).

Wesha Mar 22 at 15:09

Это число 8, записанное несколькими цифрами.

Римское — число, а арабская — цифра.

konst90 Mar 22 at 17:47

С чего бы?

Цифры (в русском языке) - это знаки, которыми записываются числа. Вот, например, определение из математического словаря:

vybo Mar 29 at 09:23

Любой представитель числовой оси — число независимо от того как его записывать, а использоваться для записи чисел в той или иной системе могут свои отдельные знаки — цифры, так же как "я", "ты", "и", "или", "к", "от" — это всё слова независимо от того, сколько букв в котором из них использовано сейчас и не захотим ли мы записать "я" латинским транслитом как "ya". Тут, конечно, как и в любом ирловом легаси нюансов куча, например определение цифры все же требует существования выражаемого ей одной числа (поэтому-де минус и точка не есть цифры) и можно спросить а чем тогда не цифра знак π (учитывая что он еще и входит в состав всяких -π и 2π, которые без этого знака однозначно тоже не переписать), буквы же вправе по отдельности не представлять осмысленных слов и определяются вроде как влиянием на произношение, но опять же чем разделительный твердый знак в этом смысле лучше разделительного дефиса в пол-Европы или камер-юнкер, но все же в общих чертах принцип такой как я описал в начале

apevzner Mar 21 at 19:12

Ответ навскидку: строка

Ответ подумавши. Никто не сказал, что номер паспорта всегда будет выглядеть, как "NN NN NNNNNN". Количество знаков в каждом "поле" может измениться. Количество полей может измениться. Допустимый алфавит может измениться (сейчас он состоит только из цифр, но никто не обещал, что это навсегда).

Будет нехорошо, если гос-во изменит формат номеров паспортов, и паспорта старого типа будет невозможно хранить в базе вместе с новыми.

И как выше уже отметили, бывают паспорта, выданные другими государствами, и там могут быть свои особенности.

Поэтому, наверное, всё же строка, но в URI-образном формате: "scheme:identifier". Для каждой схемы - свой порядок преобразования символов из бумажного документа в символы в базе. Например, можно договориться, что современные российские паспорта хранятся в виде "NNNN NNNNNN", без пробела между половинками серии и с одним пробелом между серией и номером.

Заодно схема образует namespace, и мы не сравним случайно номер армянского паспорта с номером паспорта из Мозамбика - кто знает заранее, вдруг у них одинаковый формат и номера могут совпасть?

Ну и эта. Есть смысл посмотреть, нет ли на эту тему международных стандартов каких. А то вдруг мы еще чего не учли...

ImagineTables Mar 21 at 20:27

Прежде чем читать дальше – ответьте себе честно. Прямо сейчас. Какой тип?

i64.

Номер моего паспорта выглядит как xx xx xxxxxx. Надо полагать, если разделили номер на серию из двух частей и номер без серии, тут, возможно, есть какая-то семантика, так что будем хранить по отдельности:

• Байт под первый xx
• Байт под второй xx
• (log(2, 1e6) ≈ 24) / 8 = 3 байта под xxxxxx

Итого пять байт. К ним нужен хедер. Первый байт пусть будет номером версии номера паспорта, а ещё два (для круглости) — размер в байтах (пусть будет остальной части, а не всего — я всегда делаю остальной части, чтобы не терять впустую несколько байт — мелочь, а приятно). Итого 8 байт, которые не надо специально выравнивать в памяти.

Когда в будущем в номере паспортов появятся посконно-домотканные Ё, Ъ и Ж (вариант для хипстеров-оптимистов: ❤️, 😎 и 🐈), софт переписывать не придётся, поскольку хедер это всё поддерживает. Он вообще поддерживает 256 ревизий паспортной системы и номера паспортов размером до 64 килобайт.

Для начала в SQL DB можно хранить их 64-разрядным числом, а по мере необходимости перейти на BLOB'ы.

Проблема первая: ведущий ноль
Паспорт серии 0306 и паспорт серии 306 – это юридически разные документы

Структура намекает нам, что серии 306 не существует. Мы же ничего не зная гадаем по имеющимся данным, не так ли? Чтобы показать свои способности? Может, я и не прав насчёт серии 306, но тогда давайте спецификацию номера паспорта, и запишем её в Джиру, чтоб потом не говорили, что плохой разработчик всего не предусмотрел. Если выяснить спецификацию номера это самостоятельная задача — нет проблем, но сначала напишем в Джиру задачу найти спецификацию номера. Как показывает практика, сегодня тебе говорят: поддержи хоть как-нибудь вот этот симпатичный девайс, а через полгода, когда вылезает какой-нибудь баг с протоколом обмена, очень удивляются, когда ты показываешь тикет, resolved as: «Мне пришлось взломать Пентагон, чтобы найти вот этот кусок PDF'ки на китайском — другой документации я не нашёл, ведь вы же зажали 10$ за подписку на техподдержку производителя».

Паспорт – это идентификатор. Это метка, уникально указывающая на документ. Над идентификаторами не производят математических операций. Их сравнивают на равенство, ищут по ним, передают – и всё.

Да ну? А зачем тогда ввели эту самую серию? Я мало что знаю о номерах, но живя тут всю жизнь, сильно подозреваю, что граждане бывают первого сорта, второго сорта, третьего сорта и такие как я. И куски серии (или всю серию) почти наверняка надо сравнивать с началом и концом диапазонов в судебном делопроизводстве, при выписывании штрафов с камер и т.д.

Так что, &, >> и >, <, == ждут ребят ))

sshmakov Mar 21 at 20:37

Как много слов из-за такого пустяка. Ну не знает кандидат особенностей домена, ну узнает за пару дней. В конце концов вся идея сводится к фразе "идентификаторы храним только в строках", которую надо один раз сказать на онбординге, и человек будет знать и применять. А не сразу навешивать ярлыки "инженер"/"не инженер ".

У меня вот был противоположный кейс - идентификатор в некой системе является целым числом из 19 цифр. Именно числом, не строкой. Хорошо, что хоть всегда положительным. Система внешняя, заставить её перевести id в строку невозможно. И все бы хорошо, если бы не представление чисел в JavaScript - оно туда не лезет. Точнее, лезет, но округляется, т.к. под целые числа в JS отведено всего 53 двоичных разряда, а для хранения этого идентификатора нужны все 63. А округленный идентификатор - это идентификатор совсем другого объекта.

pashagoroshko Mar 21 at 21:58

Вы правильно подметили, это проблема особенностей доменной области. Возможно имеет смысл сразу делать ремарку, что может начинаться с нуля, может кандидат никогда не видел номера паспортов.

vvzvlad Mar 22 at 01:30

У меня вот был противоположный кейс - идентификатор в некой системе является целым числом из 19 цифр.

Какой же это противоположный? Тот же самый. Сделали бы этот идинтификатор строкой, не было бы проблемы.

belch84 Mar 21 at 22:02

Иногда приходится выполнять поиск по неполным данным (например, доступна лишь часть номера паспорта). Поиск по вхождению в числовых данных - это ужос

Wesha Mar 21 at 22:40

Паспорт – это идентификатор. Это метка, уникально указывающая на документ.

Спасибо, поржал.

«Двойные паспорта» оказались на руках у десятков тысяч жителей Башкирии. Путаница возникла несколько лет назад, тогда случайно напечатали две партии документов с одинаковыми номерами. Но о проблеме многие владельцы недействительных документов узнают только сейчас. Например, когда нужно срочно снять деньги в банке или купить билет.

— Эти номера значатся сразу на двух людях!

То, что с его паспортом что‑то не так, Анатолий Кривобоков понял, когда ему отказались выдать в отделении банка его же деньги со сберегательного счета. Более того, заявили, что в базе он числится умершим. Пенсионеру посоветовали обратиться за разъяснениями в миграционную службу. Оказалось, что документ с точно таким же серийным номером по ошибке выдали и еще одному человеку.

«С моим номером человек умер. Я говорю: он умер, а я‑то живой. Но, когда решился я заменить свой паспорт, несмотря на все эти расходы, оказалось, что и бабуля моя похоронена заочно. Значит, уже надо два паспорта менять. И полторы тысячи платить! А паспорта — нормальные, на руках», — разводит руки Анатолий Кривобоков.

В итоге в миграционной службе собственную ошибку исправили. Паспорт менять не стали, а уже окончательно закрепили его номер за одним единственным Анатолием Кривобоковым. Выяснилось, что путаница началась в 2003 году, когда в республике выдавали паспорта со вкладышами на башкирском языке. И «Гознак» по оплошности отпечатал две партии документов с одинаковыми номерами — с вкладышем и без.

(Источник)

LinkToOS Mar 21 at 23:14

Пользовательские типы данных все еще нельзя создавать в SQL? Совсем язык не развивается.

shurutov Mar 22 at 04:51

Не знаю, как другие SQL, но мы, слоно... эээ... погонщики слонов могём в свои типы: https://postgrespro.ru/docs/postgresql/11/sql-createtype :)

DenisTrunin Mar 22 at 01:30

мы храним в NVarChar(20) полет нормальный. Довольно странно конечно что есть люди которые предлагают число, этож номер документа, он не может быть числом.

Правильным ответом на этот вопрос кстати может быть - а фиг его знает, спрошу чатжпт (он тоже говорит строку использовать)

egusev Mar 22 at 02:35

Еще надо не забывать что номер паспорта это PII и по-хорошему в открытом виду в базе его хранить нельзя. И тут сразу уходят вопросы про тип данных

UFO landed and left these words here

MrTheFirst Mar 22 at 06:52

Немного выше @Wesha открыл хорошую коробочку, рекомендую посмотреть.

А если коротко от себя:

Санировать ввод - прекрасная мысль. А вот захардкодить в схему БД ограничение «только Россия и только 10 цифр» – это классический legacy-капкан.

Ваше решение намертво привязывает бизнес к одной стране. Что произойдет, когда к вам придет клиент из Беларуси (+375) или Узбекистана (+998)? База с ограничением в 10 символов просто не даст ему зарегистрироваться.

Да и любой адекватный SMS-шлюз работает по международному стандарту E.164 (до 15 цифр, начиная с +). Если вы отрезали код страны, вам придется хардкодить +7 обратно при каждом обращении к API провайдера.

UFO landed and left these words here

PsihXMak Mar 22 at 08:31

На моей практике, это НИКОГДА случается постоянно. Завтра бизнес изменит решение и перенастроится на клиентов из других стран. Или решат продать решение в другую страну. И вам придётся лезть в базу, перенастраивать типы и проверять, что вся цепочка обработок отрабатывает корректно.

Зачем, если можно всё продумать заранее?

Wesha Mar 22 at 15:12

На моей практике, это НИКОГДА случается постоянно.

Если у коллеги это случалось НИКОГДА, то он просто коллега ещё юн и неопытен. Эх, если б вы знали, сколько НИКОГДОВ случилось в моей жизни... (горько плачет, бьётся головой об стену, уходит в запой.)

UFO landed and left these words here

Wesha Mar 22 at 21:59

43 года как юн. Давай ты не будешь тут про неопытность говорить?

Давайте Вы не будете незнакомым людям тыкать? Я всё равно старше.

i_dubov Mar 22 at 03:41

Все верно. Надо отметить что подобные ошибки допускают вендоры. Инверсия переводила счета с цифр на строки.

То же справедливо в отношении PAN и CVV.

Varchar предпочтительнее char, могут быть ошибки в связи с лишними пробелами.

Cdr80 Mar 22 at 05:24

Условие задачи неполное.

Получив "правильный" ответ, поймёте только то, что человек думет также, как и Вы или нет. Но правильный ответ с данным условием любой.

А чтобы только тип char был единственным верным, нужно дополнить условие задачи. Указать,что-то типа: минимизировать вероятность багов, упростить изменения данных в будущем.

constcut Mar 22 at 06:19

Здравствуйте! Спасибо за статью, было любопытно подумать. Хочу узнать что вы думаете о моем решении:

Первое что я подумал "Утечки персональных данных грозят большими штрафами" :) Потому я сразу размышлял что хранить в чистом виде номер будет ошибкой. Однако нужно давать возможность поиска, и сделать что-то в духе гомоморфных операций.

И тогда я решил, что нужно хранить данные в измененном виде. В качестве самой простой модификации добавиь repunit - число из единиц. Потому я выбрал целочисленный тип

Т.е. например серия 1234 номер 123456 превратились бы в 2345 23456. При этом зная алгоритм скрытия номера, можно было бы использовать repunit как модифицирующий ключ, для поиска в базе данных

Я не знал, что могут быть отедельно паспорта 0306 и 306, в целом никогда не видел в жизни номер начинающийся с 0, потому об этом не подумал. Но в моем решении это решается просто длиной repuinit, она должна быть тождественна длине серии+номеру. Т.е. для 306 и 0306 должно быть разное число единиц. Да возможно костыль, но если 0306 и 306 не возможны одновременно, даже он не требуется

MrTheFirst Mar 22 at 06:42

Здравствуйте! Отличный рефлекс – думать о защите ПДн. Но остаются проблемы:

При утечке БД такой алгоритм разгадают за 5 минут, и от штрафов регуляторов (например, по 152-ФЗ) это самописное решение не спасет. Нужна реальная криптография, а там в любом случае необходимо хранить строку (могу ошибаться, в криптографии не силен).
Ваш кейс идеально подтверждает статью: вы выбрали INT именно ради математики, и это сразу всё сломало. 0306 + 1111 = 1417, а 306 + 111 = 417. Без отдельного хранения длины ключа вы не сможете расшифровать данные обратно. И тут начинается усложнение.
Что делать при переполнении разрядов с серией 0999? 999 + 1111 = 2110.

vybo Mar 22 at 09:20

0-9 -> 1-10

00-99 -> 11-110

000-999 -> 111-1110

0000-9999 -> 1111-11110

Вполне однозначно отображает последовательности произвольной длины в числа, хотя конечно никакой криптографией тут и не пахнет

constcut Mar 22 at 16:22

Ключ должен храниться не в базе, да он предполагается хотя бы в кэше, или в худшем случае хардкод в вашем сервисе, вплоть до персонального, с ним вычисляется сдвиг, преобразуясь в другое число в сервисе, и все ФИО тоже должны быть закодированны/зашифрованны. Поиск идет уже зашифрованым номером, со скоростью целочисленного сравнения, вместо построчного. При частом использовании должно быть быстрее, чем такая же операция посимвольно.. Таким образом сопоставить с данными людей не получится, хотябы, не зная полностью алгоритма и цифрового ключа. А так да, это не прям идеальное решение, но если скорость поиска и невозможность восстановления/сопоставления данных без знания 2х ключей в полной форме - невозможна. Есть интересные методы шифрования, которые маскируют энтропию информации в максимальную, с выравниванием по верхней границе можно, но на коротких данных, они менее заметный эффект оказывают, можно это делать по символу, или вычислять результат любой функцией, которая имеет обратную. Те репюнит был простейшим вариантом ключа, для понимания самой идеи хранить уже защищенное значение, это может быть просто какая то хэш функция малого размера, в обобщенном смысле, т.е. делать вычисление над номером, над фио, и при хранении и при поиске, при это целочисленная операция будетдешевле чем над строкой. Думаю на каком то масштабе запросов в секунды к БД мы сможем увидеть разницу. Интересно проверить, просто чтобы понимать есть ли ценность у такой идеи. Может разницы в скорости не будет, тогда конечно, можно строку как угодно шифровать. Я попробую попозже сделать эксперименты с заполнением базы и скорости поиска по мере ее наполненности, напишу сюда в коммент. Мне показалось это может быть удобной идеей и шифровать данные быстро и искать, потому я выбрал решение как выше масштабируемое. Я проверю, но напишу как время будет. Завтра понедельник, нужно поработать :) Я попробую сразу пару вариантов: хардкодный ключ в коде, персональный ключ в key-value кэше, и наполнять бд вплоть до всех возможных номеров пасспортов + разные функции, простое смещение, хэш функция, и другие симмитричные типо xor. Мне самому интересно и нужно, но для других значений, вроде дат рождений.

constcut Mar 24 at 12:47

Я к сожалению заболел, потому полная выкладка задерживается, но основные выводы такие:

1. Зашифровать bigint и расшифровать намного быстрее, чем строчку. Если хранить данные защищенными сразу, bigint выигрывает

2. Искать по bigint в равных условиях всегда быстрее

3. Если применять индексы, скорость поиска возрастает, НО за счет замедления вставки и обновления

4. Большинство эффектов возникают на размерах таблиц выше 10 в 6+ степени

Я постараюсь сделать потом небольшую статью (если цифры будут интересными), для того чтобы провести замеры и провести анализ. Если цифры буду посредственные - отпишусь тут

Но из того что я вижу, bigint при условии хранения в защищенном или хэшированном значении будет быстрее:

1. Сама операция шифрования значения (перед поиском, вставкой, изменением)

2. Поиск в базе данных по bigint будет быстрее

3. Сама вставка будет быстрее (особенно за счет индексов для посимвольных данных)

Итого если акцент на зашифрованности и скорости - такой вариант во всех смыслах лучше.

Самый главный вопрос - сколько записей должно храниться в БД.
А так я почитал, серии из 3х чисел не бывает, потому все в порядке с изначальной логикой, костыли не нужны. Я постараюсь все довести до какой-то интересной формы сравнения. Где можно будет сравнить быстродеятельность и защищенность решения.

Мой акцент такой: я считаю что мое решение будет более быстрое, даже если сравнивать с незащищенным решением по символам, при этом в качестве бонуса - защищенность.

А теперь самое важное - такую базу данных придется по хорошему сегментировать, если предполагать что мы хотим хранить все возможные номера паспортов, и тут тоже нужно рассмотреть стратегии сегментирования. Т.к. если мы например строим сервис, который обрабатывает очень много данных, и содержит записи о всех существующих паспортах, нам может оказаться крайне невыгодно использовать другие типы данных.

PsihXMak Mar 22 at 08:26

Сами данные в базах шифровать нет смысла. Это замедляет доступ и не несёт практической пользы.

Обычно шифруется вся база целиком, либо жесткий диск. Либо, можно замок повесить на серверную.

constcut Mar 22 at 16:31

Я просто разрабатываю систему анализа речи и ряда сопутствующих функционалов, и у меня ни в брокере сообщений, ни в базе данных, ничего не хранится не зашифрованным :) Я никого не заставляю так делать, но себе просто позволить не могу иначе🥲Разве что есть детерменированные алгоритмы шифрования, где мне нужен поиск, и не детерменированные, где нужна выше защищенность корпоративных данных. Я зделаю замеры и отпишусь! Завтра нужно поработать, потом я сделаю замеры, у меня просто есть убежденность что моя модель будет быстрей и более масштабируемой при росте записей в бд. Определить значения я не могу но пока уверен, что будет быстрее, не смотря на шифрование, тк рассчет до запроса к бд и очень дешевый. Но может бд как то оптимизирует хэши, и быстрей не будет, я проверю чтобы знать, отпишусь.

PsihXMak Mar 22 at 16:49

Я просто не понимаю, зачем это нужно, если ни у кого кроме вас не будет доступа к базе.
Можно же сразу ограничить доступ ко всему. Зачем костыль с шифрованием данных?

А ещё индексы не будут работать.

constcut Mar 24 at 12:38

Я считаю, что абсолютно защищенных программ не бывает, и полностью быть уверенным что однажды доступ к БД не будет получень злоумышленником, тяжело.

Сказывается что я храню буквально самые ценные коммерческие данные, раскрытие которых ставит под угрозу коммерческую тайну фирм. Причем бывают разные случаи, вроде старых бэкапов БД о которых забыли и они остались где-то в незащищенном виде. По поводу индексации - в предложенном мной варианте она должна удачно работать.

Я к сожалению заболел, и по вечерам быстро не напишу набор сравнений, но пока что схожу выглядит что мой вариант самый выгодный если есть цель 1. Обеспечить максимальную скорость поиска и вставки (индекс на символы ускорит поиск, замедлив вставку, на скольких миллионах записей это станет заметным) 2. Хранить данные зашифрованными так, чтобы их можно было сравнивать без расшифровки. Я постараюсь потом провести замеры. Если ничего интересного не будет - отпишусь просто тут, если будет интересно - выложу как статью

AngryEvilCookie Mar 22 at 06:49

Прежде чем читать дальше – ответьте себе честно. Прямо сейчас. Какой тип?

Никакой. Недостаточно информации для определения типа. Требования сначала описать надо. Не вижу их. Зачем вы меня спрашиваете об этом? Ходят тут всякие от работы отвлекают. Идите с аналитиком разбирайтесь, потом приходите с юз кейсами, ограничениямии, ф требованиями, неф требованиями и т.д. Ессно не на словах, у нас все по ieee.

Поэтому, исходя из вашего вопроса хранить можно как угодно, потому что никаких требований не представлено и любой вариант будет корректным.

Поправочка, минимальные требования все же есть это российский паспорт. Варчар точно подходит на вскидку, для оптимизации хранения сначала нужно изучать как он формируется источником. Но как и сказал ранее, т.к мы не знаем зачем нам эти номера и серии, хранить можно варчаром. Есть же стандартные вопросы: кто, зачем, почему, как долго, как часто, ну вы поняли.

Предварительная оптимизация это зло. Не делайте так. Заказчику может абсолютно плевать что поиск будет три часа, а то устроили тут индексы с блекджеком и предикты будущего.

LinkToOS Mar 22 at 08:45

Поддерживаю. Настоящий сеньор должен сразу потребовать ТЗ. Жестко и бескомпромиссно.

werevolff Mar 22 at 06:57

Вопрос можно усложнить. Например, известно, что население России составляет от 138,8 до 145,5 млн человек. Ежегодно в России рождается около 1,2 млн детей. При этом, за 10 последних лет, от 5 до 6 млн иностранцев получили российское гражданство (включая присоединённые территории)

Вопрос: какой риск того, что 10 символов паспорта (серия + номер) не хватит для того, чтобы обеспечить каждого гражданина РФ в ближайшие 10 лет?

Разумеется, вопрос с несколькими подвохами.

konst90 Mar 22 at 07:19

В серии паспорта два знака региона, два знака года, при этом ни то, ни другое не обязано фактически соответствовать региону и году выдачи. У меня например паспорт серии 6310, но выдан он в 2011 году. Соответственно у нас каждый год миллион номеров на регион, или 100 миллионов на всю страну. Здесь стоит напомнить, что номер паспорта - это номер бланка, при замене по возрасту или утере используется новый номер, а старый выходит из обращения. Гражданину, если он доживает до 45 лет, нужно три номера, плюс запас на утери и смену ФИО (обычно при бракосочетании), итого ну в среднем раз в десять лет. В год нам нужно порядка 15 миллионов новых номеров (плюс иностранцы новые территории, ещё пара миллионов) при ёмкости года в 100 миллионов. То есть, даже если половина страны разом потеряет паспорта и захочет их поменять - в рамках года номеров хватит.

Вопрос: какой риск

Ставлю на крайне низкий, потому что запас примерно пятикратный, плюс всегда можно залезть в серии следующих годов - их там на 65 лет вперед припасено. Единственная возможность нехватки - каждый гражданин будет по несколько раз в год менять паспорт по утере или смене ФИО.

werevolff Mar 22 at 14:09

Ну вот вы все (или почти все) подвохи обнаружили. Например:
1. Смертность. Старый номер паспорта можно высвободить
2. Серия паспорта. Первые две цифры означают регион, вторая пара - год, когда напечатали бланк. И вот тут возникают перекосы. Например, в Москве будет больше людей, получающих паспорт чем, например, на Сахалине.
3. На сегодняшний день, включая присоединённые территории, в России 89 регионов. Из 100 возможных комбинаций, включая 00. Итого, 100 млн на всю страну в год (если учесть, что перекосы по населению регионов могут решать предоставлением других кодов регионам с высокой плотностью населения. 1 млн - это число возможных комбинаций номера (считая шесть нулей - блатной номерок).
4. Учитывая, что серия паспорта отражает год печати бланка, возникает вопрос: а можно ли переиспользовать старые серию и номер? При утрате паспорта, однозначно, нельзя. Иначе, злоумышленники могут воспользоваться чужим документом. Но, если, например, прошло пять или десять лет с момента замены документа, это теоретически возможно, поскольку паспорт будет выдан на другое имя и с другой датой.

Вот, наверное, только последнее рассуждение вы не до конца раскрыли. А так, первичный анализ верный. И, что интересно, этот ход рассуждения очень важен для разработчика. Ведь, выбирая тип данных в хранилище, мы предполагаем и масштабирование. Например, если у нас будет не паспорт, а другой цифровой идентификатор с длиной 6 символов (только цифры), но мы планируем через год получить 1,5 миллиона новых пользователей, то следует задуматься над тем, хватит ли нам этой длины?

Wesha Mar 22 at 15:17

1. Смертность. Старый номер паспорта можно высвободить

А потом приходишь такой в банк — а тебе и говорят: «Вас нет, Вы умерли».

konst90 Mar 22 at 17:52

Старый номер паспорта можно высвободить

За повторное использование уникальных идентификаторов следует бить лопатой, я считаю. У нас 10 миллиардов на 150-миллинную страну, хватит на ближайшие лет двести.

Первые две цифры означают регион, вторая пара - год, когда напечатали бланк.

Вообще да, но пока мы не закладываем (а насколько я знаю, оно не заложено) требование о том, что регион и год должны совпадать с регионом и годом выдачи - нам на это плевать, можем перекашивать как хотим.

Wesha Mar 22 at 22:02

За повторное использование уникальных идентификаторов следует бить лопатой, я считаю.

За использование последовательных идентификаторов (...54612356, 54612357, 54612358...) надо той же лопатой закапывать, ящетаю.

uconus Mar 24 at 04:22

Вообще да, но пока мы не закладываем (а насколько я знаю, оно не заложено) требование о том, что регион и год должны совпадать с регионом и годом выдачи - нам на это плевать, можем перекашивать как хотим.

В скоринговых системах есть такая проверка

konst90 Mar 24 at 05:51

То есть если мне не повезло с бланком, то кредит мне не одобрят? Или что?

uconus Mar 24 at 06:37

Как скоринговую систему настроят - так и будет. Обычно если серия паспорта не соответствует региону - признак подделки. Если не попадает под исключения - то и спрашивать ничего не будут - откажут. Если год отличается на 1 единицу - допустим запросят дополниительный документ.

vybo Mar 23 at 16:44

Мелкое уточнение, комбинаций 88, т. к. у Байконура свой номер (судя по алфавиту задумывавшийся как "остальное", хотя последовательность там в целом запутанная и явно помнящая о многих слоях легаси), у Сириуса тоже (часть Сочи, выделена из Краснодарского края в отдельную федеральную территорию), а три "матрешечных" автономных округа идут по материнским областям https://руни.рф/Коды_субъектов_Российской_Федерации https://classinform.ru/okato/kod.html

AlenesJr Mar 22 at 07:58

Хороший вопрос и хороший ответ - позволяет отделить выпендрежных кодеров от инженеров, которые в первую очередь думают про бизнес проблему.

Не надо ничего придумывать. Надо делать максимально просто и прозрачно. Сегодня номер паспорта только с цифрами, завтра надо будет хранить букву номера, послезавтра суверенный ИТ ГОСТ заставит хранить в паспорте какой-нибудь буквенный префикс, послезавтра это все будет не надо. Поэтому, надо делать просто

PsihXMak Mar 22 at 08:19

Ого, а я и не знал, что кому то приходит в голову запихивать чувствительные данные в int. Просто боюсь представить, что за ад потом начинается с экспортами, импортами и различными синхронизациями.

SpeleoAstronom Mar 22 at 09:04

Строка. Я не то что не сеньор, вообще ни разу программистом себя не считаю, пишу для себя, в основном обработка данных по работе. Но на эти грабли наступать приходилось, так что всё, что не число - то не число. На всякий случай.

Вопрос со звездочкой - в каком виде хранить дату? А в проекте "ленты времени" для школьников (которая и про динозавров тоже)?

PsihXMak Mar 22 at 09:46

в каком виде хранить дату? А в проекте "ленты времени"

Я бы для неточных дат использовал две колонки int с datestart и dateend с количеством лет и отдельно колонку признак до н.э. Таким образом, было бы проще проверять, входит ли конкретная дата в диапазон, просто взяв из даты год и сравнив.

vybo Mar 29 at 11:19

Тогда и отдельный признак не то чтоб нужен, отрицательные числа же никуда не деваются, в зависимости от целей использования можно представить n-й год до нашей эры либо как 1-n (тогда сохраняется строгий порядок год за годом, можно без прописывания нюансов про несуществующий год 0 получать длительность/середину отрезка и т. п.) либо как -n (в пользу человекочитаемости, удобного ввода/вывода и т. п., проверка на вхождение будет работать так же, если некорректный 0 в нее не подавать)

PsihXMak Mar 31 at 15:26

Можно и это первое, что приходит в голову. Но я так не делаю банально потом, что это усложняет спецификацию. Возможно, на миллионе записей это даст нам ускорение при выборке. Но если это проект для детей на пару десятков записей, лучше делать как можно проще.

Dok_DD Mar 22 at 13:36

Если такие простые и очевидные вопросы вызывают м-м-м... затруднения у будущих "девелОперов", то у меня плохие новости

March228 Mar 22 at 16:40

Не понимаю откуда берутся эти сеньоры. Если правильное проектирование базы это залог успеха в будущем.

andreishe Mar 22 at 17:39

Числа-не числа, операции арифметические… все проще: система нумерации паспортов это внешняя по отношению к вам система, причем настолько внешняя, что люди «разрабатывающие» ее о вашем существовании и не знают. Соответственно, они могут в любой момент могут сделать с ней что угодно. И ваш софт от этого не должен сломаться. Тут как бы и вариантов кроме строк особо нет. Добавят завтра буквы в номер паспорта, что вы делать будете с числами в базе?..

nronnie Mar 22 at 19:13

Тест для «сеньора»: в каком типе данных хранить номер паспорта?

Если у вас это "тест для синьора", то затрудняюсь даже представить, какой у вас "тест для джуна". Что он на собеседовании хотя бы не мычит, не ссытся под себя и не пускает слюну изо рта?

Wesha Mar 22 at 22:04

какой у вас "тест для джуна". Что он на собеседовании хотя бы не мычит, не ссытся под себя и не пускает слюну изо рта?

Что он простейший код способен написать без помощи жыпыты?

nronnie Mar 24 at 22:21

На сеньора-помидора я бы например спросил чем 3НФ отличается от НФБК..

randomsimplenumber Mar 25 at 05:46

Студент- троечник должен ответить правильно. Он учил, и успешно сдал.

nronnie yesterday at 07:47

Я давно уже не студент-тоечник (который, в своё время, ни разу летнюю сессию раньше осени не закрывал :))) Но, курс “Теория реляционных БД” у меня был году так в 2002, и я сейчас не смогу дать точное определение НФБК в терминах ФЗ, но на пальцах, наверное, смог бы. Вопрос был бы скорее чтобы понять - есть у человека хоть какое-то образование в данной области (БД) или это “настоящий программист”, “от сохи”, освоивший всё это “в процессе работы”, как сейчас положено - ведь настоящие программисты осваивают всё в процессе работы над продакшеном, без учебников, без книг, без документации - именно такие нам нужны.

Pusk1 Mar 22 at 20:46

Тема почти раскрыта и как вопрос на собеседовании для сеньора пункт отличный.

Для хранения в БД однозначно строка. И лучше переменной длины, а то всякое случается. Можно придумывать, что лилирующий 0 можно вставить на лету из целого, но простой аргумент, что у всех строка не просто так и врят ли все они глупее тебя уже достаточен. Показывает и насмотренность и адекватность.

Дальше возможны варианты. Например, варианты как сжать ИНН, если с памятью совсем туго и сколько ты на этом реально сэкономишь на заданных объёмах.

Wesha Mar 22 at 22:09

И лучше переменной длины, а то всякое случается.

(Печально:) Всякое случается...

kvruser Mar 23 at 05:10

"Вы проектируете базу данных. В ней нужно хранить серию и номер российского паспорта. Какой тип данных выберете? База – SQL. "
это вопрос из разряда
"Вы проектируете файловое хранилище. Как будете писать?"
руками.
Если вы вознамерились продемонстрировать глубокие познания, лучше начать с хорошей постановки задачи, в противном случае это уже негативно характеризует вас, как руководителя или ведущего специалиста.

Vali76 Mar 23 at 05:11

Хммм... статья натолкнулся на множество размышлений:

Кто такой джун, мидл и сеньор давайте попробуем поразмыслить в рамках рассуждения автора.

Джун работает в рамках технического задания на разработку и он не может мыслить шире ТЗ.

Мидл же может мыслить шире он начинает пытаться охватывать проект.

Сеньор как правило мыслить глобально - межпроектные размышления.

Что это даёт джун - изучает тз и кодит строго по нему.

Мидл изучает тз и документы по проекту, Сеньор еще изучает предметной область, он пытается понять межпроектные пересечения внутри компании и пытается их учесть при кодинге...

Что дает предметной область - нормативные документы допустим ГОСТ, стандарты, ФЗ и пр. бумага - то что ранее серия и номер паспорта содержали буквы, а сейчас цифры, также что такое паспорт - документ удостоверяющий личность, а какие документы удостоверяющий личность еще в ходу?, а какие плановые изменения нормативки, наша ИС будет ли иметь интеграцию с внешними системами, а та какие требования и т.д. и т.п.

Автор не поднял эти вопросы, что наталкивает на мысль, что он в лучшем случаи младший мидл... к этому наталкивает упоминание о примере с его паспортом - "попробовал" - Сеньор не пробует, он руководствуются в первую очередь нормативкой...К сожалению скорее всего компания в которой он собеседовал сеньоров потенциально потеряла квалифицированных кадров из-за виртуального потолка начального мидла... к сожалению такое сплошь и рядом...

з.ы.

Я не отношусь себя к Сеньору в указанной автором области т.к. давно не кодю)))

Автор, без обид! )

final_fantasy_forever Mar 23 at 05:13

Хранить номер паспорта вообще не нужно. Может хэш от него хранить. Сейчас с этими персональными данными сплошной геморрой

geher Mar 23 at 18:39

Если стоит задача хранить номер паспорта, значит, его таки нужно хранить для чего-то (и некоторым оно реально нужно). Да, это ПД. И если их можно не хранить, то ну их нафиг. Но случаи бывают разные.

Antoshink Mar 23 at 07:53

Ура я сеньер. Кажется это задача не для сеньора. Серия это не число, это идентификатор, который содержит числа. Очевидно, что это строка.

danfed533 Mar 24 at 05:42

Не знаю насчет сеньоров с опытом разработки, но ваш этот тест на сеньора самая тупая ИИшка (даже не топовая) за секунду проходит.

jobgemws Mar 24 at 11:53

Вот так просто и развернуто объяснили, спс.

Выбирая типы, не задумывался почему всегда для паспорта, номера тел и т д выбираю именно строковые типы данных.

Ну т е задумывался конечно, но вот так развернуто почему не ответил бы.

GeorgeTudosi Mar 24 at 15:35

Почему для телефона 20? А точно хватит?

Majeretft Mar 24 at 17:02

Выглядит так, что в данной статье поднимается вопрос о логике мышления в большей степени, чем о сохранении данных документов в БД. Получается, что для разных систем может быть различная постановка задачи, поэтому единственно верный вариант ответа без контекста бизнес-требований просто нет возможности выбрать. В общем случае так и есть - всегда существуют альтернативные пути решения.

HiMilman Mar 25 at 11:13

Хорошая статья. Тезис правильный, пример из жизни убедительный, таблица в конце полезная.

Единственное, что немного раздражает — назидательный тон. «Проверьте свою текущую схему БД. Прямо сегодня» — это уже ближе к мотивационному посту, чем к техническому тексту. Мысль и без этого стоит на ногах.

vadamlyuk Mar 27 at 11:45

Вообще-то правильный ответ: Вам, скорее всего, не нужно хранить паспортные данные в базе данных

Любой другой ответ - NO HIRE

Не благодарите

vsting Mar 28 at 16:18

Какой вообще смысл пытаться экономить превращая, это в Целое а потом обратно? Вы больше будете тратить на этих преобразованиях рискуя словить баг даже если вам кажется, что вы все кейсы предусмотрели.