shapeshifter0829 апр 2012 в 20:31

Фильтрация и проверка данных PHP. Частые ошибки

6 мин

189K

PHP * Информационная безопасность *

Из песочницы

-14

Комментарии 80

ualinker 29 апр 2012 в 20:40

У меня всего два совета к начинающим программистам, которые решат эту и многие другие проблемы:
1) Используйте фреймворки
2) Не изобретайте велосипеды

dasm32 29 апр 2012 в 20:48

В данном случае это лишило бы вас ценных знаний и опыта.
А т.к. программист начинающий — скорее всего он лишь учится и тренируется, не пишет «боевых» решений, вы же с самого начала желаете лишить его фантазии, опыта и весьма полезных знаний.

dasm32 29 апр 2012 в 20:52

Хотя конечно когда

Часто ко мне обращаются клиенты, у которых установлены самописные CMS или модули, написанные начинающими веб-программистами, которые не понимают, что нужно для защиты данных и зачастую копируют функции фильтрации, не задумываясь о том как они работают и что именно нужно с ними делать.

это печально.

shapeshifter08 29 апр 2012 в 20:55

Фреймовики имеет смысл использовать, когда уже есть опыт программирования.

JiLiZART 30 апр 2012 в 11:48

Читать код этих фреймворков хотя бы, чтобы не было подобного рода статей.

skey 2 мая 2012 в 05:34

я бы сказал, когда сам сможешь написать тоже самое, что и во фреймворке, но зачем тратить время и наступать на многие грабли.

НЛО прилетело и опубликовало эту надпись здесь

WebSpider 29 апр 2012 в 21:05

Это не всегда верно. Иногда данных так много (пример — количество комментариев на Хабре к какой-нибудь популярной статье), что каждый раз производить такие манипуляции просто невыгодно. Как вы думаете — комментарии на Хабре хранятся в исходном виде и парсятся каждый раз при выводе?

НЛО прилетело и опубликовало эту надпись здесь

TheHorse 29 апр 2012 в 23:07

В изначальном виде хранятся однозначно.

Почему это?

zerkms 29 апр 2012 в 23:52

Потому что потом парсер может измениться и хорошо было бы все комменты через него заново прогнать

TheHorse 29 апр 2012 в 23:55

Ну я бы не трогал прошлые комменты, если парсер обновляю. Ведь тогда комменты вида «парсер лох» — станут неактуальными.

zerkms 29 апр 2012 в 23:59

Всё зависит от задачи.

Я просто предложил вариант, когда хранение исходных комментариев as-is было бы удобным

ps: в подавляющем большинстве комменты вида «парсер лох» возникают по причине невнимательности пользователей (неверно написали разметку или ещё что), а не плохого парсера.

ps: да и лично в подавляющем большинстве случаев предпочитаю хранить пользовательские данные в том виде, в котором они пришли, форматируя при выводе

TheHorse 30 апр 2012 в 00:24

С точки зрения производительности, лучше форматировать на входе, и дублировать оригинал (если нужно).

С точки хрения архитектуры, всё очень спорно)

zerkms 30 апр 2012 в 01:25

Производительность — кеширование, неважно где. Это не обсуждается даже.

С точки зрения приложения: разные клиенты требуют разной обработки. Завтра вы захотите издавать хабрахабр в ПДФ, для него форматирование комментариев может быть другим.

TheHorse 30 апр 2012 в 02:14

Жаль что у нас контекст — php, иначе обсудили бы производительность).

Отдельная прослойка отображения — само собой, тут я с вами вынужден согласиться.

TheHorse 30 апр 2012 в 10:54

Если что, я имел в виду, что кеширование — является основой оптимизации только для php. Для языков вида C, C++, Delphi; C#, Java — это не так.

Парадигмы этих языков отличны от php тем, что контекст исполнения разных запросов (если уж о вебе говорить) — единый, что «принуждает» по умолчанию всё оставлять в ОП, что в контексте php — является кешированием.

VolCh 30 апр 2012 в 16:34

Лучше хранить оригинал в БД, а, если нужно, форматировать в кеш или при записи, или при первом запросе. Кеш может быть и в БД, в той же таблице, что оригинал, например, comment.body и comment.body_safe_html.

В данном случае практической разницы вроде никакой по сравнению с «форматировать на входе, и дублировать оригинал» — те же два столбца, но идеологически или, если угодно, архитектурно, очень отличается — храним оригинал в raw и дублируем его с целью повышения производительности заранее форматированным и/или санированным для какого-то конкретного формата вывода. Просто надо понимать, что comment.body — это собственно данные, а comment.body_safe_html — это кеш конкретного их представления.

resurection 29 апр 2012 в 23:49

> Это не всегда верно.
Как вы определяете границу когда верно, а когда нет? Ну скажем, если на сайте появляется по 2000 комментов в год, то какой вариант выбрать? А если 100 000 в год?

А если на сайте есть «топики» и «комменты», при этом, топиков пишется по 100 в год, а комментариев 99999999 — вы будете использовать разные алгоритмы?

WebSpider 29 апр 2012 в 21:03

Используйте функцию mysql_escape_string Ответ неверный. правильный ответ — Используйте функцию mysql_real_escape_string.

if (count($checkbox)) // Проверяем, является ли переменная массивом

Так логичнее, не?

if (is_array($checkbox)) // Проверяем, является ли переменная массивом

shapeshifter08 29 апр 2012 в 21:08

mysql_real_escape_string не всегда подходит.

Функция идентична mysql_real_escape_string(), исключая то, что mysql_real_escape_string() принимает параметром ещё и указатель на соединение и экранирует в зависимости от кодировки. mysql_escape_string() не делает этого и результат работы не зависит от кодировки, в который вы работаете с БД.

stifff 29 апр 2012 в 21:11

php.net/manual/ru/function.mysql-escape-string.php
«С версии PHP 5.3.0 эта функция считается УСТАРЕВШЕЙ. Крайне не рекомендуется полагаться на эту возможность»

shapeshifter08 29 апр 2012 в 21:13

Тем не менее не все хостеры бегут и обновляют версии ПО, до сих пор есть функции, которые ещё год или более были признаны как устаревшими и их ещё используют довольно успешно.

stifff 29 апр 2012 в 21:19

А что будет когда хостер внезапно обновит версию ПО?
Мне кажется не очень надежным пользоваться возможностями, которые могут исчезнуть в любой момент.

shapeshifter08 29 апр 2012 в 21:22

Вопрос риторический.

resurection 30 апр 2012 в 00:01

Дело не в том, что вы сидите на хрупкой ветке, способной обломится в любой момент. Нет!

Дело в том, что умные дядьки проанализировали ситуацию, помозговали и поняли, что функция mysql_escape_string не безопасна и рекомендовали её не использовать. Если бы не обратная совместимость, то они выпилили бы её сразу. Однако пока решили ограничится только пометкой «Depricated» и записью в мануале.

Причём тут динозавро-хостеры? Благодаря им вы можете ещё пару лет не переписывать свои старые наработки. Но зачем её использовать в новых библиотеках? И тем более, зачем она в статье на хабре, которую будут копипастить новички?

WebSpider 29 апр 2012 в 21:30

mysql_real_escape_string не всегда подходит

Почему?

shapeshifter08 29 апр 2012 в 21:38

Я ниже цитату из php.su дал.

WebSpider 29 апр 2012 в 21:43

Я не увидел там ответа на свой вопрос

fenrirgray 29 апр 2012 в 21:36

ждем mysql_real_real_escape_string в php 5.5/

0mm 29 апр 2012 в 21:47

if (count($checkbox)) // Проверяем, является ли переменная массивом

Это вообще жесть, а не проверка. count() возвращает 1 почти для любых значений, в том числе для false и пустых строк. 0 будет возвращен только для пустого массива и null значения.

Stdit 29 апр 2012 в 21:10

Зачем использовать голый mysql? Зачем хранить инклуд-php-файлы в докруте и тем более разрешать к ним http доступ? Почему секретку хранить надо в аргументах, а не в куке (как яндекс.бар сливал такие урлы, помните?) Почему надо выводить ошибки в браузер, когда для этого есть error_log, set_error_handler и tail -f? Пережитки шард-хостингов без доступа к логам? Это скорее частный случай, требующий особого подхода.

shapeshifter08 29 апр 2012 в 21:16

Поэтому пост и называется "… Частые ошибки". В идеале, конечно, лучше пользоваться фреймовиками (хотя мне проще самому написать скрипт), где уже всё готово и проверенно временем.

Stdit 29 апр 2012 в 21:22

Да, я этих ошибок и сам насмотрелся. Ваша статья подойдёт для программистов (новичков) которым на плечи упал чей-то проект написанный вот в таком вот стиле. Но здесь ошибочен сам подход. Главное, чтобы никто из начинающих бойцов не воспринял этот материал как руководство к действию при старте.

shapeshifter08 29 апр 2012 в 21:23

Конечно это не мануал «как нужно делать». Это скорее советы начинающим.

ualinker 29 апр 2012 в 22:07

я подумал что в первый раз вы ошидлись, но, видимо, это у вас ходовой термин.
Symfony, Code Igniter, Kohana — это framework, a не frameovik.

Rive 30 апр 2012 в 03:49

>Почему надо выводить ошибки в браузер, когда для этого есть error_log, set_error_handler и tail -f?

Помимо отладки (которую действительно можно улучшить так), нужно же как-то объяснить нестандартную ситуацию пользователю. Сказать, что тут нет контента, или сослаться на внутреннюю ошибку сервера (не вскрывая ошибки), или ещё что-нибудь. Лог-файлами тут не обойтись, увы.

Stdit 30 апр 2012 в 12:31

Разве не для этого предназначены статусы http (403, 404, 500, 503, и т.д.)?

DmitryKoterov 29 апр 2012 в 21:19

У автора явно весьма мало опыта в веб-программировании. Во-первых, путаница с понятиями «фильтрация» и «экранирование». Во-вторых, множество антисоветов (почти в каждом пункте, на самом деле).

Мой совет в вопросе безопасности — один: если вы хотите в явном виде написать в коде бизнес-логики вызов функции экранирования/фильтрации, вы уже дорускаете серьезнейшую архитектурную ошибку. Поэтому перепишите код так, чтобы экранирование в явном виде вообще нигде применять не нужно было бы (кроме сАмого низкоуровневого, самого последнего, библиотечного слоя, который очень мал и пишется 1 раз, и в котором злосчастная функция экранирования упоминается всего незколько раз, независимо от размера проекта). Только так можно защититься от инъекций (это касается, кстати, и xss тоже).

Иными словами, число вызовов функций фильтрации/экранирования должно быть константным и не зависеть от размера проекта (если вдруг имеет место пропорциональность или другая зависимость — это плохо).

DmitryKoterov 29 апр 2012 в 21:20

*неСколько

sindrom 30 апр 2012 в 08:53

Т.е. используйте фреймворки, где все это уже сделано :)

2fast4rabbit 29 апр 2012 в 21:49

filter_var
ua.php.net/manual/en/book.filter.php

zim32 29 апр 2012 в 21:51

Вообще конечно писать свои фильтрации и валидаторы стоит только ради того, чтобы потом использовать готовые уже решения и библиотеки и радоваться что за вас уже все продумали. Поэтому мой совет: НЕ ИСПОЛЬЗУЙТЕ НА ПРОДАКШЕНЕ СВОИ БИБЛИОТЕКИ

Gron 29 апр 2012 в 22:10

Прочитал все ошибки…

А не проще было написать:
1. Юзайте PDO
2. Юзайте filter_var / filter_input / etc.
3. Не изобретайте велосипеды

DeusModus 29 апр 2012 в 23:28

1. Юзайте PDO

PDO никак не человека, писавшего

$q = 'SELECT * FROM table where id='.$_GET['id'];

Так что совет — используйте подготовленные выражения. А еще лучше популярные абстракции над уровнем даннных — это позволит избежать возможных проблем при миграции, а также снимет часть типовых задач.

filter_var

О встроенный валидатор email в php я уже однажды обжегся. После этого везде использую валидатор yii(выдранный или вместе с фреймворком — в завсимости от ситуации).

Автору поста.

В файле index.php (или в любом другом главном файле) напишите такую строчку перед подключением других php файлов

Это действительно совет? Если да, то поясните при каком подходе к разработке приложения проблемы с инклудами нужно решать именно таким образом, пожалуйста.

unity_ultra_hardcore 29 апр 2012 в 23:47

Божечки, когда же люди перестанут пренебрегать новыми и правильными средствами языка, отмазываясь тем, что «хостеры не хотят обновлять версию PHP!»? Господа, 2012 год на дворе и можно купить VPS за 200-300 рублей, это если для себя. А если клиент такой прижимистый и для него есть разница между 150р в месяц и 200 — бегите от него!

VolCh 30 апр 2012 в 01:05

Админить VPS кто будет? Клиент?

unity_ultra_hardcore 30 апр 2012 в 01:11

Ну, например, Clodo или сраный FirstVDS даёт ISPManager. То ли бесплатно, то ли за какие-то копейки. Есть куча всяких панелек, которые не хуже хостерских.

VolCh 30 апр 2012 в 16:39

Вариант, конечно, но какой-то неполноценный, по-моему. Ставить LAMP через консоль или панельку разницы особо не вижу, и там, и там конфиги дефолтные будут. А на хостингах — хочется надеяться, — тюнят их, причём не «настроили и забыли», а анализируя текущуюобстановку.

unity_ultra_hardcore 30 апр 2012 в 16:42

Человеку, которому хватает шаред-хостинга по барабану на конфиги, не?

VolCh 30 апр 2012 в 17:27

Ну, он рассчитывает, что они нормально настроены, особенно лимиты мускула по памяти и прочие буфера. Чтоб и память без дела не стояла и в своп не уходила (если он есть).

azizoid 30 апр 2012 в 00:11

WTF! я даже комментировать подробно не буду!

faiwer 30 апр 2012 в 04:01

Зачем при подключении файла из $_GET[...] делать switch? o_O. Почему бы не воспользоваться:

if( in_array( $_GET[...], array( 'some', 'other' ), true ) )
{
    include ...;
}

мне кажется тут:

if (!$_POST['secret_key'] OR $_POST['secret_key'] != $secret_key)

Необходимо проверять строго $_POST['secret_key'] !== $secret_key.

Далее, ваша статья рассчитана на новичков, но тем не менее вы используете в качестве ключей такие слова как chislo. Возможно, новичкам _такое_ будет понятнее, но не стоит подавать им столь дурной пример.

По поводу «define ( 'READFILE', true );». Вчера начал изучать Kohana, и там используется такой же подход. С тех пор у меня в голове вертится 1 вопрос — не проще настроить .htaccess?

werdender 30 апр 2012 в 06:56

.htaccess, наверное, даже проще, но появляется гипотетическая вероятность его, например, потерять при переезде, или хостер может внезапно его зачем-то переписать — сталкивался с таким на шаред. А тут, вроде как, на уровне приложения контекст вызова проверяется.
В IDE шаблоны прописываются, поэтому меня лично вообще не напрягает.

mrxak 30 апр 2012 в 10:10

А в Kohana и используется .htaccess. Вот прямо выдержка из рекомендуемого:
RewriteRule ^(?:application|modules|system)\b.* index.php/$0 [L]

faiwer 30 апр 2012 в 10:12

Угу, я видел default.htaccess. Получается, все эти проверки просто на всякий случай, вроде внезапного переезда на неадекватных хостинг, установки nginx без настройки конфига и пр.?

mrxak 30 апр 2012 в 17:56

Ещё чтобы инклуда не было от «левых» приложений.

imater 30 апр 2012 в 05:02

Как всегда, в комментариях больше информации, чем в самой статье.

werdender 30 апр 2012 в 05:51

Тут уже на многое указали, но я все же добавлю.

Получается мы создаем запись в базе, которая совершенно бесполезна нам.

Это называется «не обеспечена целостность данных». Используйте ограничения на уровне скуля, гуглить «innodb foreign».

Куки лучше подписывать соленым хешем, при их отправке браузеру. Т.е. если нужно записать в куки значение

Cookie::getinstance()->set('key', 'value');

то в методе set к value, через разделитель, конкатенировать хеш этого значения, например md5('value'.md5(Cookie::$salt));, а сразу при обработке запроса проверять валидна ли подпись куки, и если нет — тереть такую куку, тогда для всего остального приложения ее просто не будет существовать.

coh 30 апр 2012 в 06:29

Получился какой-то сборник bad practice. Не нужно вводить в заблуждение новичков (аргументации уже более чем достаточно в комментариях к топику выше).

eliya 30 апр 2012 в 07:04

foreach ($checkbox as $value)
{
	$value = intval($value);
	if ($value) $new_arr[] = $value;
}

В данном случае 0 пофильтруется, хотя является нормальным числовым значением.

$slovo = strip_tags($_GET['slovo']);
$slovo = htmlspecailchars($slovo);
$slovo = mysql_escape_string($slovo);

Зачем здесь strip_tags? htmlspecailchars достаточен, а strip_tags, к примеру, вырежет имейл из такой безвредной строки:
«Vasya Pupkin» <vasya@pupkin.ru>
К тому же заменять спецсимволы на сущности лучше на выводе, а не при записи.

shapeshifter08 30 апр 2012 в 07:15

В данном случае 0 пофильтруется, хотя является нормальным числовым значением.

Это лишь один из возможных вариантов проверки.
Ничего не мешает убрать её и поставить свою (на количество значений в массиве, на допустимость тех или иных значений).

Зачем здесь strip_tags?

Иногда мне не нужны html теги в переменной и лучше их сразу удалить, чем обходиться одним htmlspecailchars.

shapeshifter08 30 апр 2012 в 07:13

Кое-что поменял в посте, что всех не много раздражало (я про is_array).
В остальном, я не вижу ошибок в посте, только советы как тем или иным программерам удобнее/привычнее составлять условия.

Но пока я не увидел главного — что данный пост не помогает защитить свой скрипт от взлома.

nixmale 30 апр 2012 в 08:50

Думаю сначала вам самому нужно разобраться в этой теме получше, а потом советовать что-то другим, особенно новичкам.

shapeshifter08 30 апр 2012 в 09:46

И в чём же мне нужно разобраться?) Хотите сказать, что этот пост никому не поможет?
Вопросы риторические, понятно, что смысл вашего поста был просто что-то написать, а не дать дельный совет.

sck_v 30 апр 2012 в 10:19

> И в чём же мне нужно разобраться?) Хотите сказать, что этот пост никому не поможет?

Использование deprecated функций, дурной тон именования переменных… Продолжить? :)

shapeshifter08 30 апр 2012 в 10:36

Ответ на данный вопрос был где-то выше. Читайте внимательнее )

nixmale 30 апр 2012 в 14:13

Вот это:
>$slovo = strip_data($_GET['slovo']);
>$slovo = htmlspecialchars($slovo);
>$slovo = mysql_escape_string($slovo);
Отровенный пи*дец.

Во первых это мнимая безопасность, так как данные нужно обрабатывать от XSS перед выводом, а не перед вставкой.
Во вторых вы тупо портите исходные данные.

И дело даже не в именовании переменных, называйте их как хотите.

shapeshifter08 30 апр 2012 в 14:23

Во первых это мнимая безопасность, так как данные нужно обрабатывать от XSS перед выводом, а не перед вставкой.

О каком выводе, о какой вставке говорите?
Я показал пример фильтрации данных перед SQL запросом, нигде не написано, что это какой-то вывод.

Во вторых вы тупо портите исходные данные.

Я показал кусок из своего скрипта, где мне нужно было получить определенные данные, а не 1 в 1 как было передано через ПОСТ или ГЕТ…

И дело даже не в именовании переменных, называйте их как хотите.

Это ещё тут причём? Или надо было назвать «kojsub_get» ?)

faiwer 30 апр 2012 в 18:20

По вашему названия переменных chislo и slovo нормальная практика? Т.е. вы считаете что за такое не надо бить руками и ногами? o_O. Или таки, не всё так плохо, и я просто не правильно вас понял?

shapeshifter08 30 апр 2012 в 18:31

Названия переменных я написал для примера, к чему эти придирки?)

faiwer 30 апр 2012 в 18:53

Названия переменных я написал для примера, к чему эти придирки?)

Очень дурной пример. Очень.

TedMosby 30 апр 2012 в 10:13

if (intval($chislo))

Ну вы, ребята, даете… :)

sectus 30 апр 2012 в 10:53

И как бы в продолжение:

стринг-переменных

CSharpRU 30 апр 2012 в 11:30

PDO избавляет от тупых SQL-инъекций в 100% случаев.

beat 30 апр 2012 в 13:33

по-моему у Вас еще маловато опыта что бы давать совета другим

Morfi 30 апр 2012 в 18:48

$checkbox = $_POST['checkbox'];
$new_arr = array(); // Массив для сохранения отфильтрованных значений
if (is_array($checkbox)) // Проверяем, является ли переменная массивом
{
foreach ($checkbox as $value)
{
$value = intval($value);
if ($value) $new_arr[] = $value; // не допускаем нули
}
}

Можно заменить на

$new_arr = array_filter(array_map('intval', $_POST['checkbox']));

Twost 30 апр 2012 в 20:48

ТС, есть такая фраза, которая мне понравилась: «Прежде, чем что-либо писать — попробуйте сначала прочесть что-либо».
А Вам нужно читать, читать, и еще раз читать.
Пока что очень слабое понимание принципов эксплуатирования уязвимостей и очень низкое знание синтаксиса php. Получились антисоветы по большей части.
Отложите эту статью и вернитесь к ней через год-два. А за это время подтяните знания, и по истечению этого срока Вы сами будете смеяться над этим «произведением».

s1im 2 мая 2012 в 04:25

Дочитал до первого примера:

$number = intval($_GET['input_number']);
if ($number)
{
... выполняем SQL запрос ...
}

Понял, что раз автор не считает 0 годным числом, то дальше читать смысла нет. А также, тут не учтено, что GET-переменная input_number может быть не установлена.

shapeshifter08 2 мая 2012 в 08:05

Это лишь пример.
Во многих моих скриптах отсутствует 0, а точнее обозначает ошибку.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий