1 июня 2010 – в день защиты детей – «Рамблер» запустил фильтр сайтов с эротическим содержанием
Поисковый фильтр
«Взрослый» контент теперь исключается из результатов поиска «Рамблера» по умолчанию, если пользователь намеренно его не ищет. При этом мы оставляем пользователям возможность находить эротический контент, если они именно в нем заинтересованы. Фильтрация происходит в тех случаях, когда выдача «взрослых» сайтов неуместна.
В дальнейшем мы планируем запустить «Семейный поиск», который обезопасит детей от нежелательного появления в выдаче не только «взрослого» контента, но и некоторых других тематик (азартные игры, наркотики и др.).
«Семейный поиск» находится в разработке, но попробовать продукт можно уже сегодня на странице Расширенного поиска :
При включенном «Семейном поиске» «Рамблер» не только фильтрует порно, но и вообще не производит поиск по сайтам с эротическим содержанием, даже если в запросе содержится намерение найти подобные сайты.
Как мы это делаем
Мы определяем признаки, характерные для сайтов, содержащих взрослый контент. Причем эти признаки зависят от типа «взрослого контента». Например, для эротических сайтов признаки будут отличаться от тех, где жесткое порно. В качестве признаков учитываются специфическое лексическое наполнение в различных частях документа, текстах ссылок, наличие картинок и прочее. Веса признакам в классификаторе «раздаются» автоматически с помощью методов машинного обучения.
В зависимости от выбранной степени фильтрации и от итоговой оценки степени «взрослости» ресурса возможны различные шаги. Некоторые ресурсы вообще исключаются из выдачи результатов поиска, некоторые понижаются в позициях. При этом, тем не менее, такие ресурсы не исключаются из поискового индекса (если только они не содержат признаки спама).
Примерно то же самое происходит и с запросами: выражено ли в запросе намерение получить «взрослый» контент, определяется автоматически по разным признакам запроса: лексические, поведенческие (например, анализ кликов пользователей по результатам поиска).
Мы только начали работу над фильтрацией нежелательного контента и допускаем, что алгоритмы могут ошибаться. Будем благодарны, если вы сообщите нам о возможных ошибках и неточностях. Мы обязательно учтем все замечания, чтобы улучшить работу фильтров.
Марина Анисимова
Пресс-секретарь «Рамблера»
Поисковый фильтр
«Взрослый» контент теперь исключается из результатов поиска «Рамблера» по умолчанию, если пользователь намеренно его не ищет. При этом мы оставляем пользователям возможность находить эротический контент, если они именно в нем заинтересованы. Фильтрация происходит в тех случаях, когда выдача «взрослых» сайтов неуместна.
В дальнейшем мы планируем запустить «Семейный поиск», который обезопасит детей от нежелательного появления в выдаче не только «взрослого» контента, но и некоторых других тематик (азартные игры, наркотики и др.).
«Семейный поиск» находится в разработке, но попробовать продукт можно уже сегодня на странице Расширенного поиска :
При включенном «Семейном поиске» «Рамблер» не только фильтрует порно, но и вообще не производит поиск по сайтам с эротическим содержанием, даже если в запросе содержится намерение найти подобные сайты.
Как мы это делаем
Мы определяем признаки, характерные для сайтов, содержащих взрослый контент. Причем эти признаки зависят от типа «взрослого контента». Например, для эротических сайтов признаки будут отличаться от тех, где жесткое порно. В качестве признаков учитываются специфическое лексическое наполнение в различных частях документа, текстах ссылок, наличие картинок и прочее. Веса признакам в классификаторе «раздаются» автоматически с помощью методов машинного обучения.
В зависимости от выбранной степени фильтрации и от итоговой оценки степени «взрослости» ресурса возможны различные шаги. Некоторые ресурсы вообще исключаются из выдачи результатов поиска, некоторые понижаются в позициях. При этом, тем не менее, такие ресурсы не исключаются из поискового индекса (если только они не содержат признаки спама).
Примерно то же самое происходит и с запросами: выражено ли в запросе намерение получить «взрослый» контент, определяется автоматически по разным признакам запроса: лексические, поведенческие (например, анализ кликов пользователей по результатам поиска).
Мы только начали работу над фильтрацией нежелательного контента и допускаем, что алгоритмы могут ошибаться. Будем благодарны, если вы сообщите нам о возможных ошибках и неточностях. Мы обязательно учтем все замечания, чтобы улучшить работу фильтров.
Марина Анисимова
Пресс-секретарь «Рамблера»