Сравнение свободных программ учета трафика SQUID

Недавно в нашей компании возникла необходимость перевести прокси-сервера с MS ISA Server на свободное ПО. Прокси-сервер долго выбирать не пришлось (squid). Воспользовавшись несколькими практическими рекомендациями, настроил прокси под наши нужды. Некоторые затруднения возникли при выборе программы для учета трафика.

Требования были такие:

1) свободное ПО
2) возможность обработки логов с различных прокси на одном сервере
3) возможность построения стандартных отчетов с отправкой по почте, либо ссылка на веб-сервере
4) построение отчетов по отдельным подразделениям и рассылка таких отчетов руководителям подразделений, либо предоставление доступа по ссылке на веб-сервере

По программам учета трафика разработчиками представлена весьма скудная информация: лаконичное описание назначение программы плюс необязательным бонусом пара скриншотов. Да, понятно, что любая программа подсчитает количество трафика за сутки/неделю/месяц, а вот дополнительные интересные возможности, отличающую одну программу от других — не описаны.

Я решил написать этот пост, в котором попытаюсь описать возможности и недостатки таких программ, а так же некоторые их ключевые «фишки», чтобы немного помочь в выборе тем, кому его предстоит сделать.

Наши кандидаты:

SARG
free-sa
lightsquid
SquidAnalyzer
ScreenSquid

Отступление
Информация о «возрасте» программы и выходе последнего релиза не является параметром сравнения и приводится только для сведения. Постараюсь сравнить исключительно функционал программы. Так же я намеренно не стал рассматривать слишком старые программы, которые не обновлялись много лет.

Логи передаются на обработку анализатору в том виде, как их создал squid и не будут подвергаться какой-либо предварительной обработке с целью внесения в них изменений. Обработка некорректных записей и всевозможные преобразования полей логов должны вноситься самим анализатором и присутствовать только в отчете. Данная статья не является инструкцией по настройке. Вопросы конфигурирования и использования могут быть освещены в отдельных статьях.

Итак, приступим.

SARG — Squid Analysis Report Generator


Старейшина среди поддерживаемых программ такого класса (разработка начата в 1998 году, прежнее название — sqmgrlog). Последний релиз (версия 2.3.10) — апрель 2015 года. После этого было несколько доработок и исправлений, которые доступны в master-версии (можно скачать с помощью git с sourceforge).

Запуск программы производится вручную либо по cron-у. Запустить можно без параметров (тогда все параметры будут взяты из файла конфигурации sarg.conf), либо можно указать параметры в командной строке или скрипте, например даты, за которые строится отчет.

Отчеты создаются в виде html-страниц и складываются в каталог /var/www/html/squid-reports (по умолчанию). Можно задать параметр, задающий количество хранимых отчетов в каталоге. Например, 10 ежедневных и 20 недельных, более старые будут автоматически удаляться.

Возможно использование несколько config-файлов с разными параметрами для различных вариантов отчетов (например, для ежедневных отчетов можно создать свой конфиг, в котором будет отключена опция создания графиков и будет указан другой каталог для вывода отчета).

Подробно
При входе на главную страницу с отчетами можем выбрать период, за который он создан (определяется в параметрах создания отчета), дата его создания, количество уникальных пользователей, суммарный трафик за период, среднее количество трафика на пользователя.



При выборе одного из периодов сможем получить отчет topusers за этот период. Далее приведу описания и примеры всех типов отчетов, которые умеет делать SARG.

1) topusers — суммарный трафик по пользователям. Под пользователем понимается либо имя хоста, которому предоставлен доступ в Интернет, либо логин пользователя. Пример отчета:



Здесь отображаются IP-адреса. При настройке включении соответствующей опции IP-адреса преобразуются в доменные имена.

Используете аутентификацию? Учетные записи преобразуются в реальные имена:



Внешний вид может быть настроен в css-файле. Выводимые столбцы тоже настраиваются, ненужные можно убрать. Поддерживается сортировка столбцов (sorttable.js).

При нажатии на иконку с графиком слева увидим подобный график:



При нажатии на иконку справа получим отчет 5.

2) topsites — отчет по самым популярным сайтам. По умолчанию выводится список из 100 самых популярных сайтов (значение корректируется). С помощью регулярных выражений или задания псевдонимов можно объединить трафик доменов 3-го и более высоких уровней до домена 2-го уровня (как на скриншоте) или задать любое другое правило. Для каждого домена можно задать правило отдельно, например, для yandex.ru и mail.ru объединять до 3-го уровня. Значение полей вполне очевидно.



3) sites_users — отчет о том, кто заходил на определенный сайт. Тут все просто: имя домена и кто к нему обращался. Трафик тут не отображается.



4) users_sites — отчет о посещенных сайтах каждым пользователем.



Тут тоже все понятно. Если нажать на иконку в первом столбце, получим отчет 8).

5) date_time — распределение трафика пользователя по дням и часам.



6) denied — заблокированные squid-ом запросы. Здесь отображается кому, когда и куда в доступе было отказано. Количество записей настраивается (по умолчанию — 10).



7) auth_failures — отказы в аутентификации. HTTP/407.
Количество записей настраивается (по умолчанию — 10).



8) site_user_time_date — показывается в какое время на какой сайт и с какой машины заходил пользователь.



9) downloads — список загрузок.



10) useragent — отчет об используемых программах

В первой части отчета отображается IP-адрес и использованные useragent'ы.



Во второй — общий список useragent'ов с распределением в процентах с учетом версий.



11) redirector — отчет показывает кому был заблокирован доступ средствами блокировщика. Поддерживаются squidguard, dansguardian, rejik, формат логов настраивается.



У SARG более 120 параметров настройки, поддержка языков (на русский язык переведено 100% сообщений), поддержка регулярных выражений, работа с LDAP, возможность предоставления пользователям доступа только к своим отчетам на web-сервере (через .htaccess), возможность преобразования логов в свой формат для экономии места, выгрузка отчетов в текстовый файл для последующего заполнения базы данных, работа с файлами логов squid (разбиение одного или нескольких лог-файлов по дням).

Возможно создание отчетов по определенному набору заданных групп, например, если требуется сделать отдельный отчет по подразделению. В дальнейшем доступ к веб-странице с отчетами подразделения можно предоставить, например, руководителям средствами веб-сервера.

Можно отправлять отчеты по e-mail, правда, пока поддерживается только отчет topusers, а само письмо будет простым текстовым без поддержки HTML.

Можно исключить из обработки определенных пользователей или определенных хосты. Можно задавать псевдонимы для пользователей, объединяя трафик нескольких аккаунтов в один, например, всех аутстафферов. Также можно задать псевдонимы для сайтов, например, объединить в некий псевдоним несколько социальных сетей, в этом случае все параметры по указанным доменам (количество соединений, объем трафика, время обработки) будут просуммированы. Или с помощью регулярного выражения можно «отбросить» домены выше 3-го уровня.
Возможна выгрузка в отдельные файлы списка пользователей, превысивших определенные объемы за период. На выходе будет несколько файлов, например: userlimit_1G.txt — превысившие 1 Gb, userlimit_5G.txt — превысившие 5 Gb и так далее — всего 16 лимитов.

Еще SARG имеет в своем арсенале пару PHP-страниц: просмотра текущих подключений к squid и для внесения доменных имен в списки блокировки squidguard.

В общем, это очень гибкий и мощный инструмент, несложен в освоении. Все параметры описаны в дефолтном конфигурационном файле, в wiki-разделе проекта на sourceforge есть более подробное описание всех параметров в wiki-разделе, разбитое по группам, и примеры их использования.

free-sa


Отечественная разработка. С ноября 2013 года новых версий не было. Заявлено более быстрое создание отчетов по сравнению с конкурирующими программами и меньший объем занимаемого места для готовых отчетов. Проверим!

Ближе всего по логике работы эта программа к SARG (да и автор сам сравнивает с этой программой (например, тут)), поэтому и мы сравнивать будем с ним.

Порадовало наличие нескольких тем оформления. Тема представляет собой 3 css-файла и 4 png-иконки, им соответствующие.

Отчеты действительно делаются быстрее. Дневной отчет создался за 4:30, когда у SARG за 12 минут. Правда, с занимаемым объемом оказалось не так: объем, занимаемый отчетами — 440 МБ (free-sa) и 336 МБ (SARG).

Попробуем дать задание посложнее: обработать лог-файл объемом 3,2 ГБ за 10 дней, в котором 26,3 млн строк.

Free-sa также сделал отчет быстрее, за 46 минут, отчет занимает 3,7 ГБ на диске. SARG потратил 1 час 10 минут, отчет занимает 2,5 ГБ.

Но оба эти отчета будет неудобно читать. Кому, например, захочется вручную считать, какой домен популярнее — vk.com или googlevideo.com и подсчитывать вручную трафик всех их поддоменов? Если в настройках SARG оставить только домены 2-го уровня, то создание отчета займет примерно столько же времени, но теперь уже сам отчет занимает на диске 1,5 ГБ (дневной с 336 МБ уменьшился до 192 МБ).

Подробно
При входе на главную страницу видим примерно следующее (выбрана тема blues):

image

Честно говоря, непонятно назначение вывода года и месяцев, при нажатии на них ничего не происходит. В поле поиска можно что-то написать, но опять же ничего не происходит. Можно выбрать интересующий период.

image

Список заблокированных URL:

image

Отчет CONNECT metdod:



Отчет PUT/POST metdod:



Отчет о загрузках:



Популярные сайты:



Интересным показался отчет об эффективности прокси-сервера:

image

Отчет по пользователям:



При нажатии на значок графика во второй колонке получим график использования сети Интернет конкретным пользователем:



При нажатии на вторую иконку получим таблицу загрузки интернет-канала по часам:



При выборе IP-адреса получим список сайтов по пользователю в порядке убывания трафика:



Вся статистика отображается в байтах. Для переключения на мегабайты необходимо выставить параметр
reports_bytes_divisor=«M»

Программа не принимает сжатые файлы логов, не принимает больше одного файла с параметром -l, не поддерживает отбор файлов по маске. Автор программы предлагает обойти эти ограничения созданием именованных каналов.

Обнаружен досадный глюк — когда длина строки лога слишком большая, вместо адресов вписываются timestamp'ы:

image

При просмотре трафика этого «пользователя» можно увидеть домен с источником ошибки:

image

Таким образом, количество пользователей возросло в несколько раз.

Если сравнивать эти две программы, то free-sa создает отчет чуть быстрее. 20-кратного увеличения скорости, как заявлено автором, мне не удалось обнаружить. Возможно, ее можно увидеть при каких-то определенных условиях. Думаю, непринципиально сколько займет создание недельного отчета ночью — 30 минут или 50. По объему занимаемого отчетами места у free-sa преимущества нет.

lightsquid


Пожалуй, самая популярная считалка трафика. Работает быстро, отчеты занимают не много дискового пространства. Хоть эта программа и не обновлялась давно, я все же решил в этой статье рассмотреть ее возможности.

Логика работы программы иная: программа считывает журнал и создает набор файлов с данными, которые потом использует для создания веб-страниц. То есть заранее созданных отчетов с данными здесь нет, страницы с данными генерируются «на лету». Плюсы такого решения очевидны: для получения отчета не обязательно парсить все логи за период, достаточно раз в день «скармливать» lightsquid-у накопившийся журнал. Можно по cron-у делать это несколько даже несколько раз в день, чтобы быстро добавить новую порцию информации.

Не обошлось без минусов: невозможно обработать логи с разных серверов и собрать статистику в одном месте: при обработке журнала за какой-нибудь день с другого сервера уже имеющаяся статистика за этот день стирается.

Есть странное ограничением: lightsquid «воспринимает» как несжатые файлы логов, как и сжатые (gz — точно), но во втором случае имя файла должно быть в таком формате: access.log.X.gz, файлы с форматом имени access.log-YYYYMMDD.gz не воспримет.

Путем нехитрых манипуляций преодолеваем это ограничение и смотрим что получилось.

Подробно
Отчет за месяц (суммарный трафик 3 Тб, 110 млн строк) занял на диске 1 Гб.

На начальной странице видим трафик по дням за текущий месяц.



При выборе дня видим отчет за день по всем пользователям:



Если заданы группы, в правой колонке отображается название группы, к которой принадлежит пользователь. Пользователи, не входящие ни в одну группу, объединяются в группу 00 no in group (в данном отчете они помечены вопросительным знаком).

При выборе на главной странице grp на соответствующую дату попадаем на страницу отчета пользователей, разбитых по группам. Сначала перечисляются не входящие ни в какую группу, затем группы по порядку.



При нажатии на название группы в таблице справа переходим ниже на место в странице, где начинается отчет по данной группе:



При нажатии на «Top sites report» получаем отчет по популярным сайтам за день:



Big files report:



Переходим к таблице справа.
Здесь можно получить список топ-сайтов за месяц и за весь год (выглядят они так же, поэтому без скриншота), общую статистику за год и за месяц, а так же статистику за год и за месяц по группам.

Статистика за месяц:



При нажатии на значок с часами сможем увидеть таблицу по сайтам, времени доступа и потребленному в час трафику:



Здесь отображена статистика за день, но за месяц и за год будет выглядеть примерно так же, часовые статистики по доменам просуммируются.

При нажатии на значок графика можем увидеть потребление трафика пользователем в течение месяца:



Столбцы графика кликабельны: при нажатии на столбец переходим на статистику пользователя за другой день.

При нажатии на [M] получим отчет по потреблению трафика пользователем в течение месяца с указанием объёма за каждый день и за полную неделю.



При нажатии на имя пользователя получаем список сайтов, на которые заходил пользователь в порядке убывания трафика:



Ну вот вроде бы и всё. Все просто и лаконично. IP-адреса могут быть преобразованы в доменные имена. С помощью регулярных выражений доменные имена могут быть объединены в домены 2-го уровня, на всякий случай привожу регулярное выражение:

$url =~ s/([a-z]+:\/\/)??([a-z0-9\-]+\.){0,}([a-z0-9\-]+\.){1}([a-z]+)(.*)/$3$4/o;


При навыках в perl можно доработать под себя.



SquidAnalyzer


Схожая с lightsquid программа и тоже написана на Perl. Более симпатичное оформление. Последняя на текущий момент версия 6.4 выпущена в в середине декабря этого года, сделано много улучшений. Сайт программы: squidanalyzer.darold.net.

SquidAnalyzer может использовать несколько процессоров компьютера (параметр -j), благодаря чему отчеты делаются быстрее, но это применимо только к несжатым файлам. Для запакованных (поддерживается формат gz) обработка происходит с использованием одного ядра процессора.

И еще одно сравнение с lightsquid: тот же самый отчет на том же самом сервере делался около суток, на диске занимает 3,7 ГБ.

Так же как и lightsquid, SquidAnalyzer не сможет объединить два и более лог-файла с разных серверов за один и тот же период.

Подробнее
Главная страница — можно выбрать год отчета.


При выборе любого периода (год, месяц, неделя, день) внешний вид веб-страниц будет схожим: сверху меню со следующими отчетами: MIME types, Networks, Users, Top Denied, Top URLs, Top Domains. Чуть ниже статистика прокси за выбранные период: Requests (Hit/Miss/Denied), Megabytes (Hit/Miss/Denied), Total (Requests/Megabytes/Users/Sites/Domains). Далее график по количеству запросов за период и по трафику.

В правом верхнем углу есть календарь. При выборе какого-нибудь месяца можно увидеть краткую статистику и график загрузки по дням:



В календаре есть возможность выбора недели. При выборе увидим похожую статистику:



При выборе дня видим статистику по часам:



Отчет по типу контента:



Отчет по сетям.



Отчет по пользователям.



При выборе пользователя получаем его статистику за период.





Запрещенные ресурсы:



Отчет по доменам 2-го уровня.



От себя бы хотел отметить очень медлительную работу программы по мере накопления информации. С каждым новым логом пересчитывается статистика за неделю, месяц и год. Поэтому рекомендовать эту программу для обработки логов с сервера с большим количеством трафика я бы не стал.

ScreenSquid


У этой программы другая логика: журнал импортируется в базу данных MySQL, затем данные запрашиваются из нее при работе в веб-интерфейсе. База с обработанным десятидневным логом, упомянутым ранее, занимает 1,5 Гб.

Подробнее
Программа не может импортировать файлы логов с произвольным именем, привязка только к access.log.

Главная страница:



Краткая статистика:



Для IP-адресов можно создать псевдонимы:



… а потом их можно объединить в группы:



Переходим к основному — отчетам.

Слева меню с типами отчетов:

Трафик пользователей логины
Трафик пользователей IP адреса
Трафик сайтов
Топ сайтов
Топ пользователей
Топ IP адресов
По времени суток
Трафик пользователей логины расширенный
Трафик пользователей IP адреса расширенный
Трафик IP адреса с резолвом
Популярные сайты
Кто качал большие файлы
Трафик по периодам (дни)
Трафик по периодам (имя дня)
Трафик по периодам (месяцы)
HTTP статусы
IP адреса логинов
Логины с IP адресов

Примеры отчетов.

Трафик пользователей IP адреса:



Трафик сайтов:



Топ сайтов:



… далее, если честно, не хватило терпения для изучения возможностей, поскольку страницы стали генерироваться по 3-5 минут. Отчет «по времени суток» за день, лог за который вообще не импортировался, создавался более 30 секунд. За день с трафиком — 4 минуты:



На этом все. Надеюсь, этот материал кому-нибудь пригодится. Всем спасибо за внимание.
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 21

    0
    Еще есть эти хлопчики sams.perm.ru/new
      0
      Опять же, смотреть логи %по_IP% тяжко.
      Тем более если была ISA, то значит есть WIndows домен. А там чуть немного работы с NTLM, Kerberos, Samba и IP превращаются в учетные записи :)
        0
        SAMS, как мне показалось, больше предназначен для настройки squid.
        В ближайшее время настрою и, скорее всего, добавлю в статью.
      0
      А как настраиваете squid?
      Редактированием *.conf из консоли или чем-то другим

      Хотелось бы упомянуть здесь sonar-squid.ru — проект вроде свежий, но мне просмотреть статистику не удалось — вероятно из-за формата log-файла, но в perl-е я не силён…
        0
        Я настраиваю редактированием conf-файла. Правил немного, каких-либо изощренных настроек нет. Фильтр через squidguard.
        Эту программу тоже посмотрю, спасибо за наводку.
          0
          Если получится запустить — не сочтите за труд, отпишитесь мне. А то обидно что из-за какой-то небольшой настройки в конфиге не получается использовать эту довольно аккуратную web-морду.
            0
            Попробовал на двух дистрибутивах — что-то никак…
            Может, лучше webmin? Например, вот

              0
              Не, он только для настройки ( а не сбора ститистики), да и выглядит «а-ля 90-е» — заказчику стыдно показать…
        +1
        А вам не звонили из 2001 с просьбой вернуть статью?
          0
          Вопрос непонятен. Попробуйте перефразировать.
            –2
            Это такая шутка, означающая что-то очень старое. Уже появились новые языки, технологии, а мы по-прежнему парсим логи сквида.
              0
              Уважаемый, а подскажите другой вариант построения статистики использования интернет в офисе компании со штатом >50 человек?
              Есть конечно вариант вообще отказаться от прокси-сервера, если:
              1. Руководство компании не страдает параноей
              2. Сотрудники сильно мотивированы делать ту работу за которую им платят и не сидят в Вконтакте и не разглядывают котиков
              3. У компании «толстый» канал в интернет и кэширование не обязательно.
                0
                Многоуважаемый, я же написал «мы», не противопоставляя себя вам. Я тоже не знаю другого способа сделать отчёты squid.
                А по поводу шутки — я ожидал бы увидеть эту статью на opennet'е в 200х годах, но никак не на хабре в 2015г.
                  +1
                  Это хорошо, что новые появились. Но «старые» задачи никуда не делись. И инструменты для их решения тоже меняются.
          0
          Как-то ни разу в голову не приходила мысль использовать готовые скрипты для анализа лог-файлов сквида.

          Обычно я делал всю обработку логов сквида на базе данных, поскольку так реально проще, особенно если объёмы большие. Если авторизация из виндовс-домена, то вся информация по логину уже в логах есть. Обычно в промежуточную базу загонялся файл лога распарсенный по полям, после чего, уже в зависимости от степени нужной детализации данные из это базы агрегировались и складывались в большую партишенированную таблицу, откуда уже строились рапорты.

          В реальности, если достаточно было для анализа только активность с разрядностью в 5 минут и URL с точностью только до хоста, то месячный объём данных по корпорации был весьма небольшим, а все аномалии (крупные файлы и т.д.) писались в отдельную таблицу в атомарном виде.
            0
            А мы всё не можем перестать жрать кактус Squid2MySQL =(
              0
              А какие есть альтернативы?
              0
              SAMS однозначно продвинутей остальных. Он не только умеет подсчитывать/показывать статистику, но и хорошо справляется с настройкой сквида. Я настроил года 3 назад (с авторизацией по ИП) — до сих пор работает без проблем. На предыдущей работе была авторизация в AD и лимитирование дневного трафика — так-же отлично все работало.
                0
                Ну, настройка сквида — это отдельная тема, она тут не рассматривается. Три года назад, значит речь идет о первой версии?
                Подскажите на каком дистрибутиве гарантированно заработает вторая? На двух попробовал — никак.

                • НЛО прилетело и опубликовало эту надпись здесь
                    0
                    первый завелся на центос6_х64 (немного менял код пхп, что именно — уже не вспомню, там было по моему пересечение имен методов). думаю что можно и второй завести на центос6, по свободе попробую — отпишусь.

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое