Наверное, многие знают, что самый знаменитый и самый авторитетный в мире каталог DMOZ.org (он же ODP или Open Directory Project) выкладывает полностью свою базу данных в открытый доступ в формате RDF (http://www.dmoz.org/help/getdata.html) с тем, чтобы люди могли свободно использовать эти данные на своих сайтах. Например, это бывает полезно для создателей нишевых каталогов, так они могут наполнить свои сайты первоначальной информацией.
Однако, народ очень часто парится с форматом RDF (это формат описания ресурсов, похожий на XML — xmlhack.ru/texts/06/rdf-quickintro/rdf-quickintro.html), пишет на разных языках разные парсеры для разных СУБД. И вот, оказывается, есть люди, которые эту проблему за всех решили. Добро пожаловать: на странице www.we-globe.net/WebLab/Download/DmozRdf2MySQL.html лежат готовые MySQL-дампы базы DMOZ за последние 3 месяца.
На этом же ресурсе есть и еще два любопытных раздела:
www.we-globe.net/WebLab/Dmoz/TotalStatistics.html — глобальная статистика DMOZ, включая данные по рубрикам, редакторам и т.д. (данные от 2008-06-07)
www.we-globe.net/WebLab/Hostnames.html — глобальная статистика по хостам и доменам (данные от 2008-05-15)
Выглядит все, правда, достаточно коряво, но зато информация весьма ценная.
Однако, народ очень часто парится с форматом RDF (это формат описания ресурсов, похожий на XML — xmlhack.ru/texts/06/rdf-quickintro/rdf-quickintro.html), пишет на разных языках разные парсеры для разных СУБД. И вот, оказывается, есть люди, которые эту проблему за всех решили. Добро пожаловать: на странице www.we-globe.net/WebLab/Download/DmozRdf2MySQL.html лежат готовые MySQL-дампы базы DMOZ за последние 3 месяца.
На этом же ресурсе есть и еще два любопытных раздела:
www.we-globe.net/WebLab/Dmoz/TotalStatistics.html — глобальная статистика DMOZ, включая данные по рубрикам, редакторам и т.д. (данные от 2008-06-07)
www.we-globe.net/WebLab/Hostnames.html — глобальная статистика по хостам и доменам (данные от 2008-05-15)
Выглядит все, правда, достаточно коряво, но зато информация весьма ценная.