Akela_wolf 14 мар 2013 в 06:07

Использование XSLT для предотвращения XSS путем фильтрации пользовательского контента

9 мин

7.4K

Recovery Mode

Формулировка проблемы

Думаю никому из веб-разработчиков не нужно объяснять что такое XSS и чем он опасен. Но в то же время, многие сайты, такие как форумы, блоги, социальные сети и т.п., стремятся предоставить пользователю возможность вставлять на страницу свой контент. Для удобства неискушенных пользователей изобретаются WYSIWYG-редакторы, делающие процесс добавления красивого комментария легким и приятным. Но за всем этим фасадом скрывается угроза безопасности. Фактически любой WYSIWYG-редактор отправляет на сервер не просто текст комментария, он отправляет HTML-код. И даже если сам редактор не предусматривает использования опасных HTML-тегов (например <iframe>), то злоумышленника это не остановит — он может послать на сервер произвольный HTML-текст, который может представлять опастность для других посетителей сайта. Я думаю мало кому понравится получить в свой браузер что-то наподобие:

<script type="text/javascript">window.location="http://hardcoresex.com/";</script>

Таким образом, возникает проблема: полученный от пользователя HTML-код необходимо фильтровать. Но что значить «фильтровать»? Каким должен быть алгоритм фильтрации, чтобы не создавать необоснованных ограничений легальным пользователям, но в то же время сделать невозможной XSS-атаку со стороны злоумышленника? Увы, но HTML достаточно сложен, написать хороший парсер достаточно непросто, а любая ошибка в нем может привести к тому, что у злоумышленника появится лазейка через которую он сможет нанести удар.

Постановка задачи

Для начала я предлагаю сформулировать задачу формально. Итак, что должен сделать фильтр:

Разобрать полученный HTML
Применить к нему правила фильтрации, удалить или преобразовать небезопасные элементы
Вернуть получившийся безопасный HTML для дальнейшей обработки

Для того чтобы разобрать HTML можно воспользоваться существующими библиотеками, например в PHP это можно сделать почти элементарно:

function htmlToDOM($html) {
  $doc=new DOMDocument();
  $doc->loadHTML($html);
  return $doc;
}

Но что делать с полученным DOM дальше? Как сформулировать какие правила нужно к нему применять? Мне хотелось получить такое решение, которое будет:

Надежным. Под надежностью я понимаю прежде всего низкую вероятность ошибки в коде, которая может привести к пропуску опасных тегов, атрибутов или значений атрибутов.
Универсальным. Под универсальностью я понимаю способность фильтровать HTML с произвольной степенью детальности: от «никаких тегов, только текст» до "<iframe> с атрибутом src, содержащим адрес youtube можно, остальные — нельзя" или «у тегов <p> атрибут style использовать можно, но из его значений убрать все что относится к свойствам кроме color и background-color»
Легко конфигурируемым. Должна быть возможность описать эти правила понятным образом, причем простые правила должны описываться просто, без необходимости листать пять экранов галочек и выпадающих списков чтобы просто запретить все теги.

Поиск решения

Я возвращался к этой задаче время от времени, но удовлетворяющего меня решения не находил. Получалось либо очень сложно (как в настройке, так и в реализации), либо достаточно ограниченно. Решение возникло внезапно. Я обдумывал перспективы использования XSL-шаблонов для форматирования XML-контента, как меня осенило: ведь XSLT используется для трансформации документа, а значит может быть использован и для фильтрации нежелательных элементов тоже!

Решение действительно удовлетворяет сформулированным выше требованиям:

Надежность. Всю работу выполняет XSLT-процессор, вероятность ошибки в котором достаточно низка, намного ниже чем в самописном решении
Универсальность. С помощью XSLT можно сформулировать правила фильтрации с любой степенью детальности.
Легкость конфигурации. Простое конфигурирование сводится к добавлению элементов в «белый» или «черный» список по имеющемуся шаблону. Сложные случаи, конечно, потребуют дополнительных описаний, но эта сложность возникает только если есть необходимость в тонкой настройке фильтрации. Еще одним преимуществом использования XSLT является то, что эта конфигурация может быть прочитана, понята и изменена любым разбирающимся в XSLT специалистом.

Создание фильтра с помощью XSLT

Реализация черного списка

Чтобы выяснить способна ли вообще эта идея функционировать я решил создать XSL-файл, описывающий простое копирование исходного документа в результирующий.

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
    <xsl:output method="xml" encoding="utf-8"/>
    
    <xsl:template match="@*|*">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()" />
        </xsl:copy>
    </xsl:template>
</xsl:stylesheet>

Как можно видеть, вся суть заключается в

    <xsl:template match="@*|*">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()" />
        </xsl:copy>
    </xsl:template>

Этот фрагмент отвечает за обработку всех элементов документа: тегов и их атрибутов. Текстовые элементы обрабатываются правилом по-умолчанию, которое просто копирует их в результирующий документ. Этим шаблоном обрабатываемый элемент также копируется в результирующий документ, а к его дочерним элементам и атрибутам рекурсивно применяются шаблоны (на самом деле все этот же универсальный шаблон). Таким образом, чтобы отфильтровать некоторые элементы нужно добавить шаблоны для них. Вот так, например, можно отфильтровать теги <script> вместе с их содержимым:

    <xsl:template match="script" />

Одна строчка! Если фильтровать содержимое не нужно, то можно использовать другой вариант, например после добавления следующего фрагмента все ссылки перестанут быть таковыми:

    <xsl:template match="a">
        <xsl:apply-templates />
    </xsl:template>

Этот фрагмент уберет теги <a>, но оставит их содержимое (которое, конечно, тоже будет повергнуто фильтрации). А вот так можно побороться с нежелательными атрибутами, например убрать у всех элементов атрибут style:

    <xsl:template match="@style" />

Как видите правила просты для написания и требуют минимальных комментариев даже для незнакомого с этой системой человека. Но запихивать все что нельзя в черный список неудобно. Черный список это скорее дополнительная возможность, но ни в коем случае не защита, так как появляются новые теги, новые атрибуты и необновленные вовремя правила фильтрации могут создать угрозу сайту. Поэтому для защиты от XSS я считаю более правильным применять «белый список» (запрещено все что явно не разрешено)

Реализация белого списка

Для реализации белого списка универсальное правило нужно переписать следующим образом:

    <xsl:template match="*">
        <xsl:apply-templates />
    </xsl:template>

    <xsl:template match="@*" />

Без дополнительных разрешающих правил оно оставит от HTML-кода только текстовые элементы, удалив все теги и их атрибуты (если не описать атрибуты отдельно — их зачения будут скопированы как текст). Чтобы разрешить, например, ссылки и картинки нужно добавить:

    <xsl:template match="a|img">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()" />
        </xsl:copy>
    </xsl:template>

Это правило разрешит сами теги, но не их атрибуты — они будут удалены, что сделает теги бесполезными. Это легко исправить:

    <xsl:template match="a/@href|img/@src">
        <xsl:copy />
    </xsl:template>

Это правило разрешает атрибут href у тега <a> и src у тега <img>. Поскольку у атрибутов дочерних элементов не бывает, то они просто копируются в результирующий документ. В этом правиле можно реализовать дополнительную проверку, например что ссылка ведет на объект по протоколу http:// или https:// (и таким образом избавиться от небезопасных протоколов, таких как data://):

    <xsl:template match="a[@href]">
        <xsl:variable name="target" select="@href" />
        <xsl:choose>
            <xsl:when test="starts-with($target, 'http://')">
                <xsl:copy>
                    <xsl:apply-templates select="@*|node()" />
                </xsl:copy>                
            </xsl:when>
            <xsl:otherwise>
                <xsl:apply-templates />
            </xsl:otherwise>
        </xsl:choose>
    </xsl:template>
    
    <xsl:template match="a/@href">
        <xsl:copy/>
    </xsl:template>

В этом правиле проверяется цель ссылки и в зависимости от этого принимается решение — копировать тег или нет. Теги <a> без атрибута href попадут под правило по-умолчанию и будут удалены. Аналогично можно сделать и с изображениями. Альтернативное решение — проверять значение атрибута в шаблоне атрибута, но это означает разнесение логики в два места:

    <xsl:template match="a[@href]">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()" />
        </xsl:copy>                
    </xsl:template>
    
    <xsl:template match="a/@href">
        <xsl:variable name="target" select="." />
        <xsl:if test="starts-with($target, 'http://')">
            <xsl:copy/>
        </xsl:if>
    </xsl:template>

Еще одна типичная задача — добавление ссылкам атрибута rel=«nofollow»:

    <xsl:template match="a[@href]">
        <xsl:copy>
            <xsl:attribute name="rel">nofollow</xsl:attribute>
            <xsl:apply-templates select="@*|node()" />
        </xsl:copy>                
    </xsl:template>

Ну и наконец, самый сложный случай: манипуляция значением атрибута. Продемонстрирую решение задачи, сформулированной в требованиях — разрешить атрибут style, убрать из его значения все кроме свойств color и background-color. Сначала создадим шаблон, который анализирует значение единичного свойства и либо разрешает его использовать, либо нет:

    <xsl:template name="filter-style-value">
        <xsl:param name="value" />
        <xsl:variable name="key" select="substring-before($value, ':')" />
        <xsl:if test="($key = 'color') or ($key = 'background-color')">
            <xsl:value-of select="$value" />
        </xsl:if>
    </xsl:template>

Теперь второй шаг: перебор всех свойств в значении и проверка каждого на допустимость:

    <xsl:template name="filter-style">
        <xsl:param name="value" />
        <xsl:param name="filtered" select="''" />
        
        <xsl:choose>
            <!-- Проверяем содержит ли строка точку с запятой -->
            <xsl:when test="contains($value, ';')">
                <!-- Разбиваем на первый элемент и все остальное -->
                <xsl:variable name="head" select="substring-before($value, ';')" />
                <xsl:variable name="tail" select="substring-after($value, ';')" />
                <!-- фильтруем первый элемент -->
                <xsl:variable name="fltr">
                    <xsl:call-template name="filter-style-value">
                        <xsl:with-param name="value" select="$head" />
                    </xsl:call-template>
                </xsl:variable>
                <!-- Делаем рекурсивный вызов -->   
                <xsl:call-template name="filter-style">
                    <xsl:with-param name="value" select="$tail" />
                    <xsl:with-param name="filtered">
                        <!-- Тут приходится решить нужно ли добавлять отфильтрованный элемент (и точку с запятой или нет) -->
                        <xsl:choose>
                            <xsl:when test="string-length($fltr) > 0">
                                <xsl:value-of select="concat($filtered, $fltr, ';')"/>
                            </xsl:when>
                            <xsl:otherwise>
                                <xsl:value-of select="$filtered" />                    
                            </xsl:otherwise>
                        </xsl:choose>                        
                    </xsl:with-param> 
                </xsl:call-template>
            </xsl:when>
            <!-- Не содержит точку с запятой -->
            <xsl:otherwise>
                <!-- Фильтруем -->
                <xsl:variable name="fltr">
                    <xsl:call-template name="filter-style-value">
                        <xsl:with-param name="value" select="$value" />
                    </xsl:call-template>
                </xsl:variable>
                <!-- Аналогично фрагменту выше -->
                <xsl:choose>
                    <xsl:when test="string-length($fltr) > 0">
                        <xsl:value-of select="concat($filtered, $fltr, ';')"/>
                    </xsl:when>
                    <xsl:otherwise>
                        <xsl:value-of select="$filtered" />                    
                    </xsl:otherwise>
                </xsl:choose>
            </xsl:otherwise>
        </xsl:choose>
    </xsl:template>

Это самый большой и сложный шаблон, но и задача нетривиальная. Его можно несколько упростить выделив повторяющийся код в еще один вспомогательный шаблон, но я не стал этого делать. Он прокомментирован, так что я думаю подробное описание его работы не требуется. Ну и последний шаблон, собственно отвечает за фильтрацию тегов:

    <xsl:template match="p[@style]">
        <xsl:variable name="style" select="@style" />
        <xsl:copy>
            <xsl:attribute name="style">
                <xsl:call-template name="filter-style">
                    <xsl:with-param name="value" select="@style"/>
                </xsl:call-template>
            </xsl:attribute>
            <xsl:apply-templates />
        </xsl:copy>
    </xsl:template>

Заключение

Таким образом, я считаю что максимально близко подошел к заявленной цели — созданию надежного и гибкого фильтра для вводимого пользователем контента. Сразу хочу оговориться — приведенный XSL содержит неточности, он предназначен исключительно для демонстрации концепции, это не тот код, который можно применять в продакшене. Я также еще не проектировал систему в целом, но очевидно что она будет сохранять результат фильтрации, таким образом преобразование будет выполняться один раз — при добавлении контента. Выводится на страницу будет уже безопасная версия.

Спасибо что дочитали до конца. Надеюсь сообщество найдет эту статью полезной.

Теги:

Хабы:

XSLT