Как стать автором
Обновить

Анализ неявных предпочтений пользователей. Научно-технический семинар в Яндексе

Блог компании Яндекс Поисковые технологии *Алгоритмы *
Анализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, — важнейший фактор в ранжировании документов в результатах поиска или, например, показе рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.

Этому вопросу и было посвящено исследование, проведенное мной, Михаилом Агеевым, совместно с Дмитрием Лагуном и Евгением Агиштейном в Emory Intelligent Information Access Lab Университета Эмори.




Мы изучали методы сбора данных и алгоритмы анализа поведения пользователя по движениям мыши, а также возможности применения этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году. Позже я представил доклад о результатах проделанной работы в рамках научно-технических семинаров в Яндексе. Его конспект вы найдете под катом.
Читать дальше →
Всего голосов 47: ↑42 и ↓5 +37
Просмотры 19K
Комментарии 8

Сбор и анализ логов с Fluentd

Блог компании Selectel
fluentd

Любому системному администратору в своей повседневной деятельности приходится иметь дело со сбором и анализом логов. Собранные логи нужно хранить — они могут понадобиться для самых разных целей: для отладки программ, для разбора инцидентов, в качестве подспорья для службы техподдержки и т.п. Кроме того, необходимо обеспечить возможность поиска по всему массиву данных.
Читать дальше →
Всего голосов 25: ↑22 и ↓3 +19
Просмотры 72K
Комментарии 8

Экспресс-анализ подозрительной активности в журнале веб-сервера

Информационная безопасность *Разработка веб-сайтов *
Из песочницы
На большинстве современных хостингов кроме FTP доступа к файловой системе предоставляется также SSH доступ (по-умолчанию или по запросу в тех поддержку). Умение веб-мастера работать с файлами сайта в терминале (в режиме командной строки) по SSH экономит ему массу времени. Операция, которая может занимать десятки минут по FTP, делается через командную строку за пару секунд. Кроме того, есть много операций, которые можно сделать только по SSH в режиме командной строки.

Веб-мастеру не обязательно осваивать весь инструментарий операционной системы Unix, для начала достаточно познакомиться с базовыми командами, а к ним добавить несколько полезных трюков при работе с командной строкой по SSH, чтобы быстро искать файлы, изменять их атрибуты, копировать, удалять и выполнять операции с текстовыми данными.

Я пропущу описание протокола и процесса подключения к аккаунту хостинга по SSH, в сети можно найти множество видео-уроков и статей по данной теме, скажу лишь что для подключения вам потребуется программа Putty (ОС Windows) / Терминал (Mac OS X) или аналогичные, и доступы к хостингу по SSH: хост, порт, логин и пароль (часто имя и пароль они совпадают с доступом в cPanel, ISPManager или аккаунтом панели управления хостингом).

Итак, что полезного можно делать в командной строке? Можно быстро выполнять поиск подстроки в текстовом файле, сортировку, фильтрацию текстовых данных. Например, для анализа журналов (логов) веб-сервера, чтобы выявить подозрительные запросы к сайту или понять, как взломали сайт.

Предположим, вы заметили подозрительную активность на сайте (стал медленно открываться, пропали доступы в админ-панель, с сайта рассылают спам и т.п.). Первое, что в этом случае нужно выполнить – это проверить файлы сайта на вредоносный код специализированными сканерами. Но пока сайт сканируется, можно провести экспресс-анализ логов веб-сервера с помощью команд find/grep, чтобы опеределить, не было ли обращений к каким-то подозрительным скриптам, попыток брутфорса (подбора пароля) или вызовов хакерских скриптов. Как это сделать? Об этом ниже.
Читать дальше →
Всего голосов 13: ↑7 и ↓6 +1
Просмотры 16K
Комментарии 6

ELK на Docker

Nginx *Виртуализация *
Многие я думаю читали о применении Elasticsearch, Logstash и Kibana для сбора и анализа логов, но часто статьи начинаются с длинного мануала как поднять сервисы ELK и заставить работать их совместно.
Здесь я хочу рассказать о быстром старте с помощью Docker.
Читать дальше →
Всего голосов 18: ↑17 и ↓1 +16
Просмотры 87K
Комментарии 22

PipelineDB: работа с потоками данных

Блог компании Selectel *nix *Администрирование баз данных *
Туториал
PR-2004-7

В предыдущих публикациях мы уже затрагивали проблему обработки событий в реальном масштабе времени. Сегодня мы хотели бы вновь вернутся к этой теме и рассказать о новом и весьма интересном инструменте — потоковой СУБД PipelineDB.
Читать дальше →
Всего голосов 19: ↑17 и ↓2 +15
Просмотры 11K
Комментарии 10

Splunk. Введение в анализ машинных данных — часть 1. Примеры SPL запросов и визуализация логов

Блог компании TS Solution Системное администрирование *IT-инфраструктура *Сетевые технологии *Серверное администрирование *
Туториал


В данной статье мы расскажем и покажем как загрузить данные в Splunk, как строить поисковые запросы в системе на основе встроенного языка SPL и как можно их визуализировать. Это чисто практическая «How to» статья на основе тестовых данных, доступ к которым предоставляется свободно и доступен для скачивания всем желающим.

После прочтения и практического повторения Вы научитесь:

  • Пользоваться базовым функционалом системы
  • Загружать данные в Splunk
  • Строить базовые поисковые запросы
  • Визуализировать полученные результаты

Всего голосов 12: ↑12 и ↓0 +12
Просмотры 33K
Комментарии 11

Splunk. Введение в анализ машинных данных — часть 2. Обогащение данных из внешних справочников и работа с гео-данными

Блог компании TS Solution Системное администрирование *IT-инфраструктура *Сетевые технологии *Серверное администрирование *
Туториал


Мы продолжаем рассказывать и показывать как работает Splunk, в частности говорить о возможностях языка поисковых запросов SPL.

В этой статье на основе тестовых данных (логи веб сервера) доступных всем желающим для загрузки мы покажем:

  • Как обогатить логи информацией из внешних справочников
  • Как можно визуализировать географические данные (данные с координатами)
  • Как группировать цепочки событий в транзакции и работать с ними

Под катом вы найдете как сами примеры поисковых запросов, так и результат их выполнения. Вы можете скачать бесплатную версию Splunk, загрузить тестовые данные и повторить все на своем локальном компьютере.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 15K
Комментарии 3

Splunk + Check Point, пример анализа логов вашего фаервола

Блог компании TS Solution Системное администрирование *IT-инфраструктура *Серверная оптимизация *Сетевые технологии *
Туториал

Если Вы не удовлетворены стандартными отчетами и средствами аналитики от Check Point, если Ваш Smart Event виснет и грузит ваш сервер, если отчеты Smart Event кажутся Вам несколько неинформативными… То почему бы не создать свои?



Сегодня мы расскажем как загрузить логи Check Point в Splunk, какие могут быть отчеты, и как, отфильтровать данные, чтобы лишний раз не грузить систему и уменьшить лицензию. И да, если Ваша компания не очень большая — то вы можете спокойно обойтись бесплатной лицензией.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 9.4K
Комментарии 10

Обзор Splunk Machine Learning Toolkit

Системное администрирование *IT-инфраструктура *Сетевые технологии *Серверное администрирование *


Помимо того, что Splunk может собирать логи практически из любых источников и строить аналитические отчеты, дашборды, алерты на основе встроенного языка поисковых запросов SPL, о котором мы писали в предыдущих статьях, Splunk еще имеет очень большую базу бесплатных аддонов и приложений.

Сегодня мы рассмотрим одно из самых популярных, с точки зрения пользователей, приложений — Splunk Machine Learning Toolkit.
Читать дальше →
Всего голосов 20: ↑19 и ↓1 +18
Просмотры 11K
Комментарии 9

Анализ SIP коммуникаций с помощью утилиты 3CX Log Viewer

Блог компании 3CX Ltd. Системное администрирование *IT-инфраструктура *Сетевые технологии *Серверное администрирование *
Туториал
Recovery mode

Введение


Утилита 3CX Bin Log Viewer предназначена для анализа лог-файлов 3CX Phone System. В нее включены мощные механизмы отбора, позволяющие быстро находить и анализировать самые разные события системы. 3CX Bin Log Viewer – незаменимое средство поиска и устранения сложных неполадок в системе.

Установка


3CX Bin Log Viewer устанавливается из отдельной загрузки, либо непосредственно из Консоли управления 3CX.

3CX 15.X: Загрузите 3CX Bin Log Viewer V15
3CX 14: В Консоли управления перейдите в Help > Download 3CX Log Viewer. Будет загружен zip архив, который следует распаковать и запустить файл 3cxBinLogViewer.exe
3CX 12: В Консоли управления 3CX перейдите в 3CX Phone System Updates > Other Updates и загрузите утилиту. Она скачивается в папку Program Files\3CX PhoneSystem\Bin\Support\3CXBinLogViewer. Запускаемый файл 3cxBinLogViewer.exe.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 3.5K
Комментарии 0

Splunk 7.0. Что нового?

Блог компании TS Solution Системное администрирование *IT-инфраструктура *Серверная оптимизация *Серверное администрирование *


Месяц назад компания Splunk на своей 8-ой ежегодной конференции Splunk Conf 2017 презентовала выпуск нового мажорного релиза Splunk 7.0. В этой статье мы расскажем об основных нововведениях и улучшениях платформы, а также покажем пару примеров.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 5.6K
Комментарии 4

Splunk 7.1. Что нового? Новый веб интерфейс, интеграция с Apache Kafka и многое другое…

Блог компании TS Solution Системное администрирование *IT-инфраструктура *Серверная оптимизация *Серверное администрирование *


Несколько дней назад компания Splunk выпустила новый релиз своей платформы Splunk 7.1 в котором, наверно, произошло самое ожидаемое изменение за последние несколько лет — да, полностью изменился графический интерфейс. В этой статье мы расскажем об основных нововведениях и улучшениях платформы. Что еще нового помимо GUI? Смотрите под кат.
Читать дальше →
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 3.5K
Комментарии 12

8 облачных анализаторов логов для оценки рабочей среды

Блог компании Поиск VPS Тестирование IT-систем *Анализ и проектирование систем *Веб-аналитика *Облачные сервисы *
Перевод
Увеличение количества устройств, повышение квалификационных требований, оптимизация процесса сбора данных необходимы для любого вида бизнеса. Анализ логов может дать вам реальное представление о том, что происходит в вашей информационной среде. Вот некоторые примеры, функционирующие в реальном времени:

  • планирование производительности
  • раннее обнаружение проблемы
  • актуальная отчетность
  • управление доступностью

Если у вас несколько мегабайт лог-файлов, тогда их можно просмотреть вручную, но когда вы работаете в среднем и корпоративном бизнесе, где объем логов исчисляется гигабайтами, тогда ручной анализ превращается в кошмар.



Если вы ищете решение для мониторинга и анализа логов ваших веб-приложений, включая инфраструктуру, вы можете рассмотреть следующие средства для работы с логами. Большинство из них имеют слегка урезанную бесплатную версию, в которой вы можете попробовать поработать.
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 18K
Комментарии 2

1. Анализ логов Check Point: официальное приложение Check Point для Splunk

Блог компании TS Solution Информационная безопасность *Системное администрирование *IT-инфраструктура *Big Data *
Туториал


Работая с шлюзами безопасности компании Check Point, очень часто возникает задача разбора логов для обнаружения и анализа инцидентов информационной безопасности. Обычно в организациях существует уже какая-либо система логирования, и стоит задача транспортировки логов с сервера управления Check Point и последующая настройка фильтров для логов, составление дашбордов, графиков и так далее. В данном курсе мы рассмотрим различные варианты анализа логов Check Point с помощью внутреннего функционала и сторонних приложений, рассмотрим какую полезную информацию мы можем извлечь, и чем она поможет в настройке межсетевого экрана.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 7.1K
Комментарии 0

2. Анализ логов Check Point: SmartEvent

Блог компании TS Solution Информационная безопасность *Системное администрирование *IT-инфраструктура *Big Data *
Туториал


Здравствуйте, коллеги. В прошлый раз, в статье «1. Анализ логов Check Point: официальное приложение Check Point для Splunk» мы обсуждали разбор логов шлюза безопасности на основе официального приложения в системе логирования Splunk. В заключении пришли к выводу что хоть приложение в качестве быстрого решения очень удобно, но на данном этапе является недоработанным — не настроено большого количества дашбордов, на которые очень важно обращать внимание security инженеру для того чтобы понимать, что происходит в организации с точки зрения ИБ. В данной статье обсудим возможности просмотра и анализа логов функционалом SmartEvent, на что стоит обратить внимание, и рассмотрим какие варианты по автоматизации событий доступны.
Читать дальше →
Всего голосов 13: ↑11 и ↓2 +9
Просмотры 6K
Комментарии 2

1.Elastic stack: анализ security логов. Введение

Блог компании TS Solution Информационная безопасность *Системное администрирование *IT-инфраструктура *Big Data *


В связи окончанием продаж в России системы логирования и аналитики Splunk, возник вопрос, чем это решение можно заменить? Потратив время на ознакомление с разными решениями, я остановился на решении для настоящего мужика — «ELK stack». Эта система требует времени на ее настройку, но в результате можно получить очень мощную систему по анализу состояния и оперативного реагирования на инциденты информационной безопасности в организации. В этом цикле статей мы рассмотрим базовые (а может и нет) возможности стека ELK, рассмотрим каким образом можно парсить логи, как строить графики и дашбоарды, и какие интересные функции можно сделать на примере логов с межсетевого экрана Check Point или сканера безопасности OpenVas. Для начала, рассмотрим, что же это такое — стек ELK, и из каких компонентов состоит.
Читать дальше →
Всего голосов 16: ↑13 и ↓3 +10
Просмотры 32K
Комментарии 4

2. Elastic stack: анализ security логов. Logstash

Блог компании TS Solution Информационная безопасность *Системное администрирование *IT-инфраструктура *Big Data *


В прошлой статье мы познакомились со стеком ELK, из каких программных продуктов он состоит. И первая задача с которой сталкивается инженер при работе с ELK стеком это отправление логов для хранения в elasticsearch для последующего анализа. Однако, это просто лишь на словах, elasticsearch хранит логи в виде документов с определенными полями и значениями, а значит инженер должен используя различные инструменты распарсить сообщение, которое отправляется с конечных систем. Сделать это можно несколькими способами — самому написать программу, которая по API будет добавлять документы в базу либо использовать уже готовые решения. В рамках данного курса мы будем рассматривать решение Logstash, которое является частью ELK stack. Мы посмотрим как можно отправить логи с конечных систем в Logstash, а затем будем настраивать конфигурационный файл для парсинга и перенаправления в базу данных Elasticsearch. Для этого в качестве входящей системы берем логи с межсетевого экрана Check Point.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 16K
Комментарии 0

3. Elastic stack: анализ security логов. Дашборды

Блог компании TS Solution Информационная безопасность *Системное администрирование *IT-инфраструктура *Big Data *


В прошлых статьях мы немного ознакомились со стеком elk и настройкой конфигурационного файла Logstash для парсера логов, в данной статье перейдем к самому важному с точки зрения аналитики, то что вы хотите увидеть от системы и ради чего все создавалось — это графики и таблицы объединенные в дашборды. Сегодня мы поближе ознакомимся с системой визуализации Kibana, рассмотрим как создавать графики, таблицы, и в результате построим простенький дашборд на основе логов с межсетевого экрана Check Point.
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 8K
Комментарии 0

TS Total Sight. Средство сбора событий, анализа инцидентов и автоматизации реагирования на угрозы

Блог компании TS Solution Информационная безопасность *Системное администрирование *IT-инфраструктура *Big Data *


Добрый день, в прошлых статьях мы познакомились с работой ELK Stack. А теперь обсудим возможности, которые можно реализовать специалисту по ИБ в использовании данных систем. Какие логи можно и нужно завести в elasticsearch. Рассмотрим, какую статистику можно получить, настраивая дашборды и есть ли в этом профит. Каким образом можно внедрить автоматизацию процессов ИБ, используя стек ELK. Составим архитектуру работы системы. В сумме, реализация всего функционала это очень большая и тяжелая задача, поэтому решение выделили в отдельное название — TS Total Sight.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 2.8K
Комментарии 0

Использование journalctl для просмотра и анализа логов: подробный гайд

Блог компании RUVDS.com Серверная оптимизация *Серверное администрирование *Облачные сервисы *Лайфхаки для гиков
Туториал


Journalctl — отличный инструмент для анализа логов, обычно один из первых с которым знакомятся начинающие администраторы linux систем. Встроенные возможности ротации, богатые возможности фильтрации и возможность просматривать логи всех systemd unit-сервисов одним инструментом очень удобны и заметно облегчают работу системным администраторам.

Эта статья рассматривает основные возможности утилиты journalctl и различные варианты ее применения. С помощью journalctl можно просматривать логи системы, чтобы решить возникшие проблемы на рабочей станции или сервере использующие дистрибутив linux с демоном инициализации systemd, де-факто уже ставшим стандартом в современных Linux-системах, например: RHEL, CentOS, Fedora, Debian и многих других.

Существует мнение, что systemd не так уж и хорош — он нагружает систему и это все еще предмет для споров на сегодняшний день, но нельзя отрицать, что он предоставляет прекрасный набор инструментов для управления системой и поиска проблем. Представьте, что вам приходится иметь дело с проблемным сервером, который даже не загружается — в таком случае можно загрузиться с live-дистрибутива, смонтировать системный раздел и просмотреть логи systemd, чтобы понять, в чем проблема.
Читать дальше →
Всего голосов 64: ↑62 и ↓2 +60
Просмотры 80K
Комментарии 24
1