tFirma Dec 4 2008 at 16:24

Причины и следствия

3 min

1.2K

Delirium coding

+17

Comments 95

p00h Dec 4 2008 at 16:56

Первый пример просто убил. Сразу видно: автор долго сидел над оптимизацией

tFirma Dec 4 2008 at 17:02

А мне, представьте, пришлось менять разбросанные от 1 до 10 000 000 айдишки на упорядоченные в основной и связанных таблицах (благо, структура ДБ не блистает оригинальностью).

p00h Dec 4 2008 at 17:05

Я, конечно, представлял, что новички могут ошибаться… Но чтобы рабочий проект, да так…
Однако неплохая база, в которой 10 000 000 записей, значит и проект не просто хомяк :)
Уверен, тяжело вам пришлось!

tFirma Dec 4 2008 at 17:08

Записей в основной таблице около 80 тыс., до 10 млн. были разбросаны их айдишки (благодаря рандому). Проект — далеко не хомяк. =)

p00h Dec 4 2008 at 17:12

Я все еще офигеваю: это ж догадаться еще надо таким образом генерировать! А если бы числа псевдослучайные генерировались? )))

Sannis Dec 4 2008 at 18:46

А они имхо такие и есть :)

vittore Dec 5 2008 at 07:30

а гуиды в mssql видели?))

BaBL Dec 4 2008 at 22:22

тут недавно про BITRIX проходил пост…

Temp1ar Dec 4 2008 at 21:58

Нет, а теперь мы представим, что произошла одна из ошибок базы данных и кроется while(...mysql_error()) медным тазиком, пока база не очнется или лимит времени выполнения не иссякнет :/

pxx Dec 5 2008 at 09:31

И не дай боже foreign keys (me вздрагивает)

FilimoniC Dec 4 2008 at 18:10

Вполне себе адекватный код. Возможно, поолезно, когда злоумышленник можетчто-то сделать при добавлении в базу, зная id который получится. Или, например, чтобы максимальный id реально не соответствовал количству чего-то(например, вы не хотите показывать количество сообщений на форуме, однако, запостив одно сообщение, злоумышленник сможет приблизительно узнать их количество)

FilimoniC Dec 4 2008 at 18:16

Тем боле, из кода не ясно, что id это message_real_id а не message_fake_id, например.

tFirma Dec 4 2008 at 18:17

Опасный тип этот злоумышленник — знает количество сообщений на форуме! =)
(кстати, на вышеупомянутом сайте было написано сколько элементов в этой таблице).

Если кто-то может что-то нехорошее сделать зная id, то нужно удалить весь код и писать заново.

FilimoniC Dec 4 2008 at 18:23

Я имел ввиду что он сможет сделать что-то нехорошее не с сайтом.

tFirma Dec 4 2008 at 18:26

И я об этом: если кто-то может испортить ваш сайт (DDoS не в счет), то нужно избавиться или от злоумышленника, или от сайта! =)

sel Dec 4 2008 at 20:24

Это адекватный код? Генерировать десяток, а то и сотню ошибок базы на ровном месте… это как-то очень неадекватно. А в тех случаях, когда не нужно, чтобы пользователи знали количество, делается просто дополнительный столбец id, выборка по которому идет на сайте. К PK это иметь отношение не должно. Такое бывает, например, с количеством интернет-заказов в магазине.

GrustniyKot Dec 4 2008 at 21:20

кто мешает сделать нормальный id по auto_increment и второе поле с id или словами или даже с хэшами, которые будут видеть пользователи?

UFO landed and left these words here

EdWing Dec 4 2008 at 20:01

мне это показалось банальной диверсией

GMM Dec 4 2008 at 21:58

Интересно еще, что в случае достаточно старой версии PHP (до 4.2.0) и забытого srand() в первом примере каждый раз одна и та же цепочка «случайных» чисел будет генерироваться.

Sannis Dec 4 2008 at 22:24

А в новом думаете не будет? mt_rand должен дать немного больше чисел в последовательности, но в любом случае БД может хранить больше :)

Sannis Dec 4 2008 at 22:25

Пожалуй смешнее всего будет, если это запустят под Windows, где очень маленькая длинна последовательности.

galaxy Dec 4 2008 at 23:29

Не будет. srand() и mt_srand() делаются автоматически с 4.2.0.
mt_rand в состоянии давать равномерно распределенные псевдо-случайные числа от 1 до 2³¹ — 1, период у нее вообще огромен, короче, для целей генерации уникального INT id более чем подходит.

Sannis Dec 5 2008 at 00:13

Да, я как раз прочитал про это. Но говорил я о другом, в исходном коде упоминается именно rand(), у которого диапазон меньше.

GMM Dec 4 2008 at 23:51

Тут дело не в качестве псевдослучайной последовательности. Просто если цепочка будет повторятся каждый раз, то этот кусок кода будет проверять сначала все числа, которые уже содержаться в БД, и только после этого находить псевдослучайное число, отсутствующие в БД. Соответственно если мы добавим 100000-ную запись в БД, то и цикл поиска свободного id тоже прокрутиться 100000 раз, и столько же будет попыток INSERT'а.

Sannis Dec 5 2008 at 00:14

Согласен. Не знал про это различие с автоматическим вызовом в «старом»/«новом» PHP.

foff4ik Dec 4 2008 at 17:19

ну я буквально вчера вычислял число по модулю воттак: y=x*((x>0)-0,5)*2 эта привычка(логику в вычисления писать) еще со времен спектрума меня по сей день преследует.

Иногда такие размашистые формулы получались :)

tFirma Dec 4 2008 at 17:32

Вам сам Бог велел на Брейнфаке писать! =)

KirillGolub Dec 4 2008 at 19:14

Изящно :)

adaptun Dec 4 2008 at 17:49

>С математической точки зрения, условие «sqrt(x) = x/sqrt(x)» выполняется всегда,

adaptun Dec 4 2008 at 17:51

Ой, случайно отправил.
>С математической точки зрения, условие «sqrt(x) = x/sqrt(x)» выполняется всегда.
Я зануда — при x=0 не выполняется.

tFirma Dec 4 2008 at 17:54

Да ну?!

adaptun Dec 4 2008 at 18:06

ну да

tFirma Dec 4 2008 at 18:13

А, вы про пределы? Бррр… Не напоминайте! =)

maxshopen Dec 4 2008 at 18:14

он по моему про деление на ноль :)

adaptun Dec 4 2008 at 18:18

про него, ага

tFirma Dec 4 2008 at 18:19

На ноль только на компутере делить нельзя. =)

maxshopen Dec 4 2008 at 18:26

в математике тоже нельзя (не путать с бесконечно малыми функциями)

tFirma Dec 4 2008 at 18:31

Ладно, вы победили, сейчас исправлю. =)

mawrodaki Dec 5 2008 at 03:56

А как же корень из -1?

adaptun Dec 5 2008 at 07:18

sqrt(-1) = i
i= -1/i
Это если с математической точки зрения.
На компе такое, если это не специальный пакет, скорее всего не выполнится.

romad Dec 4 2008 at 17:50

В копилку:
if 1 == 2: # блин, этот участок кода никогда не выполняется :(
Причина: 1 не равен 2-м
Совет: используйте «if 1 == 1: ...»

tFirma Dec 4 2008 at 17:58

Ник nomad был уже занят, ога?

romad Dec 4 2008 at 18:02

образование ника здесь немного по другому принципу шло

tFirma Dec 4 2008 at 19:24

Вот вы тут шутки шутите, а люди не то что мои примеры оправдывают, но и ваш вариант нормальным кодом называют…

Goodkat Dec 4 2008 at 18:44

Да это просто такой способ закомментировать кусок кода. Не знаю, почему его используют, но я частенько встречал такое.
Могу предположить, что там изначально стояло другое, осмысленное условие, но в процессе отладки оно многократно менялось, и/или автор не захотел вымарывать большой кусок кода полностью, а закомментировать было лень, и/или в этом блоке используется альтернативный вариант алгоритма или неиспользуемая на данный момент недописанная функциональность и автор хотел сохранить его на будущее (а если закомментируешь, то другой программист или даже сам можешь случайно стереть закомментированный код, как ненужный), вот и оставил такое.
После рефакторинга, скорее всего, этот кусок был бы удалён, но когда проект уже работает, может быть не до рефакторинга — работает, значнит ничего не трогай :)

Сам я часто использовал такой кусок:
a = 1
if a == 2 call somefunction
и т.д.
чтобы иметь возможность в режиме отладки вызвать какую-нибудь функцию, которая в нормальном режиме работы программы не нужна.например, просмотреть статус какого-нибудь объекта, записать что-нибудь в лог и т.п.
потому что изменить значение переменной «а» в отладчике легко, а вот вызвать какую-нибудь произвольную функцию скорей всего невозможно (в firebug возможно всё, потому я больше не пользуюсь таким приёмом :)

noise Dec 4 2008 at 19:40

меня спасает добавочная "|| 0" ;-)

pennanth Dec 5 2008 at 04:18

Хм, а мне приходится писать "&& 0". В всех языках, которые мне известны (видимо, их не слишком много), x || 0 == x.

mordet Dec 4 2008 at 19:47

Ну, в Си очень удачно можно пользоваться макросами для получения «кроссплатформенного» кода.

#ifdef SOME_FLAG
…
#else
…
#endif

mordet Dec 4 2008 at 19:48

Случайно отправил предыдущий пост, прошу прощения за некорректность. Для кросса, скорее, нужно следующее:

#ifdef SOME_FLAG
…
#else
…
#endif

mordet Dec 4 2008 at 19:49

да ёлки! =))

tFirma Dec 4 2008 at 19:51

Мне уже интересно! =)

Cancel Dec 4 2008 at 20:46

Такое комментирование встречается (правда, в форме #if 0) в случае, когда внутри фрагмента уже есть нормальные языковые комментарии и обернуть их стандартно уже нельзя.

Некоторые редакторы, кстати, помечают блок между #if 0 и #endif как комментарий.

maxshopen Dec 4 2008 at 17:58

В существование первого примера просто не верится. Это уже не кодобред, а КодоПЦ какой то… что ж у него там будет когда 10 млн достаточно плотно наполнятся, ужос…

tFirma Dec 4 2008 at 17:59

Чесное слово, так и было! Я бы сам не поверил, наверное.

galaxy Dec 4 2008 at 18:31

Как уже писали выше, сам подход вставления рандомного id может быть оправдан (у самого возникала иногда потребность).
Код же как он написан, является бомбой замедленного действия, как потому, что будет прогрессирующий апокалипсис при количестве записей, приближающемся к 10 млн, так и потому, что забивается на то, почему собственно был mysql_error() — может база отключилась.

tFirma Dec 4 2008 at 19:27

Из любопытности, в каком случае случайный идентификатор может быть оправдан?

galaxy Dec 4 2008 at 20:07

Ну, например, чтобы скрыть (или сделать менее предсказуемыми) связи в системе.
У Дурова id в контакте 1, сразу интересно, у кого 2, 3 и т.д., т.е. можно делать какие-то выводы о том, как стартовал проект, о личных связях г-на Дурова, например.
В конце концов, это доп. звено в цепи security through obscurity: если злоумышленник не может предсказать идентификаторы внутри вашей системы, ломать ему будет сложней.

MaEcTPo Dec 4 2008 at 20:43

Мне кажется для таких целей проще сделать еще одно поле в таблице, куда писать уникальную строку (UNIQUE).
Использование же праймари ключ таким образом…

Я наверное сегодня ночью не усну, после увиденого кода…

galaxy Dec 4 2008 at 23:17

Непонятно, почему проще. Ваша строка просто будет вторым праймари ключом, который точно так же надо будет заполнять уникальными значениями.

MaEcTPo Dec 5 2008 at 08:01

Проще в том плане, что в этой строке вы сможете использовать не только цифры, но и буквы, и к примеру работать уже с 16-тиричными числами (правда что-то я не припомню генератора случайных HEX чисел), а это означает, что сгенерировать такое же число которое есть становится в разы тяжелей. Это только одна из причин.

galaxy Dec 5 2008 at 17:00

Неубедительно. Вам мало INT — возьмите BIGINT и приведите пример сколько-нибудь распространенных реальных задач, где его ну никак не хватит.
По поводу разов — небо упадет на землю, если будет у вас вероятность коллизии 10^-5, а не 10^-20?

dema Dec 5 2008 at 04:01

Как вариант — табличка сообщений в базе для JMS. сообщений может вставляться в табличку сотни в секунду, но время жизни у них короткое.

ForestLabs Dec 4 2008 at 18:02

Ох… Даже продолжать не хочется. Тема древна, как Мир. Программирования, понятно. Где-то слышал — программирование, как культура.
Что же делать — давайте двигаться к этой культуре.
Кстати, по первой незадаче — можно же max(id)+1. Если в транзакции.

tFirma Dec 4 2008 at 18:08

Ну транзакции-то они вроде не существуют в MySQL?

maxshopen Dec 4 2008 at 18:11

Почему? InnoDB пока никто не отменял…

tFirma Dec 4 2008 at 18:23

Упс, тогда прошу прощения.
Но я очень сомневаюсь, что человек не знающий про auto_increment, знает о существовании InnoDB и уж тем более транзакций.

Regis Dec 4 2008 at 18:19

Да существуют они там давно. Вот только вложенных транзакций вроде еще нет. Далековато в этом смысле еще до Оракла.

roller Dec 4 2008 at 22:22

… несмотря на то что InnoDB это как раз оракловый движок в девичестве

maxshopen Dec 4 2008 at 18:10

По первой задаче лучше все-таки чтобы поле id было auto_increment и тогда так:

INSERT INTO `table` SET login='my_login' AND ...

→

SELECT LAST_INSERT_ID()

maxshopen Dec 4 2008 at 20:39

Ну очень интересно от кого и за что минус :)

roller Dec 4 2008 at 22:24

ну вы приходите на форум филологов и начните там рассказыва про словарь Даля…

dema Dec 5 2008 at 04:03

max(id)+1 — это лишний поиск в индексе…

sda Dec 4 2008 at 18:12

Исправьте операцию присваивания на сравнение, во втором примере:

if sqrt(x) = x/sqrt(x)

tFirma Dec 4 2008 at 18:24

Паскаль, друг мой, паскаль! =)

sda Dec 4 2008 at 19:03

Упс, по-диагонали прочитал как псевдо-код… Сорри :)

YasonBy Dec 4 2008 at 18:17

Паскаль не позволил бы вам ~~выстрелить себе в ногу~~ перенести сегмент стека :)

Хочется верить, что на ассемблере пишут только профессионалы. Страшно представить, что бы творилось, будь он проще для освоения/популярнее.

tFirma Dec 4 2008 at 18:30

Ассемблер позволяет — сам пробовал =)

Nakilon Dec 4 2008 at 20:05

хорошенькая книжечка таится под перечеркиванием ,.)

Popik Dec 4 2008 at 18:33

Видимо при написании ассемблерного кода человек не знал, что ss это не регистр общего назначения, и дергать его без особой надобности не стоит.

tFirma Dec 4 2008 at 18:37

«Код никогда и никем не был написан».
Идею мне подсказал коллега (сами потом долго смеялись), а «код» написал я, специально для статьи.

mgyk Dec 4 2008 at 20:10

Насчет первого примера я сам видел кусок типа crc32(microtime()) и обрезанием -. Очень замечательный код, который на 100000 запросах уже давал 5% повторных ид.

RomanL Dec 4 2008 at 20:34

Зеленый еще программист был! Опытный бы сделал md5 и напихал бы в параметры всякого мусора кроме microtime() :)

olekhy Dec 4 2008 at 21:18

Во всех случаях заказчики просили скрыть или заменить id,
вопервых потому что слишком маленький или по другой причине.
Нельзя брать кусок кода и сразу делать выводы.
К моменту разработки такое решение могло оказаться максимально приемлемым!
А тут пытаются…
Корме того есть понятие application lifetime по истечении которого надо делать
refactoring.
Что Вы судя по всему успешно и сделали.

sattu Dec 4 2008 at 21:23

Ну а как же классика?
Проверка на true:

bool value;
…
if (value.ToString().Length == 4)
{
…
}

shuvalov Dec 4 2008 at 22:10

да, машинная точность это тема. Попробуйте например в питоне вот это:

0.3==1-0.7

Mr_Floppy Dec 5 2008 at 02:29

Что вы хотели, 0.29999999999999999 != 0.30000000000000004

ItGold Dec 4 2008 at 22:23

> Совет. Понять свой код. Убедиться в том, что в программе протекают задуманные процессы.
Совет. Чтобы понять свой код нужно написать тест к этому коду.

UFO landed and left these words here

Sim Dec 5 2008 at 07:09

Есть у меня один приятель. Писал он логгер для одной большой системы, который скидывал различные записи в файл.
так вот алгоритм открытия файла у него выглядел следующим образом:

// Псевдокод:

while(!file.Open())
{
// Подождем еще немножко
thread.Sleep(1000);
}

P.S. Комментарий в коде выглядел именно так, как привел его я :)

Mr_Floppy Dec 5 2008 at 12:14

Потом число можно заменить на 500 и заявить о двукратном увеличении скорости.

markshevchenko Dec 5 2008 at 13:06

> upd: Ввиду появления большого количества защитников «случайных» идентификаторов в таблицах БД,
> отвечу всем сразу: если необходимо скрыть реальные ID, нужно использовать mod_rewrite, а не коверкать БД.

В данном случае можно задействовать линейное преобразование:

externalID = ((internalID + Q1) * Q2) mod Q3

Q2 и Q3 должны быть взаимно простыми, тогда соответствие гарантированно будет однозначным. Максимальное количество пользователей будет равно Q3 (internalID от 0 до Q3-1).

internalID может быть auto_increment, а externalID вычислимым полем (вроде, поддерживаются они в MySQL?)

Ну а в MS SQL можно использовать uniqueidentifier (GUID).

galaxy Dec 5 2008 at 16:52

Ввиду появления большого количества защитников «случайных» идентификаторов в таблицах БД, отвечу всем сразу: если необходимо скрыть реальные ID, нужно использовать mod_rewrite, а не коверкать БД.

А тормоза учитывали? — тут вам не простой регэксп написать. А если не апач и вообще не веб?
Я и сам могу выдумать много способов, как скрыть реальные ID, и мне даже больше о душе «не коверкать БД», но дело-то не в этом. Дело в том, что «защитники», в частности, я, утверждают, что такой подход имеет смысл и право на существование, вы же упорно списываете его в кодобред.

Karbas Dec 5 2008 at 20:55

К слову о #define true false

karbas@arc|~$ python --version
Python 2.5.1
karbas@arc|~$ python -c 'print 1==1
True = False
print True'
True
False

rimmer333 Dec 14 2009 at 10:34

еще о #define true false — в Javascript волшебные последствия может иметь строчка наподобие
undefined = true;.
Нет гарантий, что некий не слишком эрудированный кодер не выберет для своей переменной такое говорящее имя, а последовать могут всякие странности типа обращений к несуществующим полям и объектам там, где всё, казалось бы, проверяется, в чужих, сторонних, «взрослых» библиотеках. Кстати, и защита от этой пакости тоже есть: если ваша библиотека изолирована в функцию (так обычно делают всякие «приватные» поля и методы, см. классиков), можно объявить в ней var undefined; и жить спокойно.