tac Jan 4 2015 at 10:02

Картирование интернета

5 min

5.6K

Domain names administrating*Network technologies*

Recovery Mode

-13

Comments 49

strobegen Jan 4 2015 at 11:28

тут вот недавно была новость про
«scanning entire Internet in under 5 minutes.»
github.com/robertdavidgraham/masscan
— гляньте может получится применить в вашем случае

tac Jan 4 2015 at 12:02

действительно, можно попробовать не ждать ответа с каждого IP как я делаю, но не думаю, что это действительно так быстро, хотя может и ускорить положение дел. На днях попробую. Спасибо за идею.

strobegen Jan 4 2015 at 14:23

там используется своя реализация TCP/IP стека и необходимо использовать специальный драйвер для сетевой карты PF_RING DNA
т.е дело не только в ожидании ответа

bockra Jan 4 2015 at 11:30

Привет, задумка интересна, но.

Я бы поглядел статистику об использовании разных хостингов, потому что 1 ip != 1 сайт, а виртуальные хосты ни кто не отменял. Актуальным на 100% такой список не назовешь.
Вместо самописной утилиты можно глянуть в сторону nmap — у него богатая функциональность для такой задачи.
Я бы еще избежал сканирования разнообразных сетей провайдеров домашнего интернета. Большой пласт адресов, а постоянно работающих сайтов единицы.
Под пинг 80 подразумевается что-то типа telnet ip 80? Так как классический пинг не всегда отработает. Попробуй ping microsoft.com

tac Jan 4 2015 at 11:40

* Пингом я назвал это условно, там C# функция tcpClient.BeginConnect(ipAddress, Port, null, null);
* сетей провайдеров домашнего интернета — там вполне могут быть веб-сайты
* 1 ip != 1 сайт — а я и не говорил такого, но проверить каждый IP — чтобы понять где есть сайты, и наоборот как сайты используют IP достаточно важно. Про актуальность неясно — вопрос лишь в частоте проверки.

Renius Jan 4 2015 at 12:34

Во первых, вам нужен обработчик очередей с внешним интерфейсом, чтобы любой желающий мог подключиться и выступить работником. для ruby + sidekiq это делается быстро, значит и у вас что-то подобное должно быть.
Во вторых, я не думаю, что нужно прямо все ядро на эти вычисления, как на счет параллельных вычислений?

vp7 Jan 4 2015 at 12:40

Два момента:
1. Низкий таймаут (100ms) отсечёт довольно много «далёких» стран, лучше оставить в пределах 500ms
2. Зачем перебирать хосты в один поток? Можно поднять 1-10k потоков и отправлять запросы паралельно (или использовать неблокируемые сокеты и всё уместить в 5-10 потоков, по кол-ву ядер процессора). Пусть SYN запрос занимает 200 байт (взято с огромным запасом), тогда 10k * 200 байт даст в пределах 30MBit/s. И «156 дней» легко превратится в 3 часа или даже в 30 минут. Главное, чтобы провайдер не заблокировал канал, посчитав ваш трафик SYN Flood атакой.

tac Jan 4 2015 at 13:04

На самом деле, я и использую неблокируемые (асинхронные) сокеты, жду от них ответа 100ms. Действительно, можно сделать по другому, о чем я уже написал выше (и что по сути и используется в masscan/nmap). Но мне не хотелось, делать это асинхронно (хотя может это и окажется выгодно). Но думаю вы преувеличиваете возможности такой параллельности. Действительно, есть проблема «провайдер не заблокировал канал, посчитав ваш трафик SYN Flood атакой». Но и кроме того, что надо послать запрос и получить ответ, надо еще записать ответ в файл (делать это асинхронно, не удобно). Придется все равно синхронизировать ответы в какой-то структуре в оперативной памяти и выгружать на диск переодически. На первый взгляд, мне не показалось это быстрее, но можно попробовать, если это ускорит раз в 10 тоже уже хорошо.

tac Jan 5 2015 at 03:58

Действительно, Ваше замечание верно. Правда, как я и говорил выше сильно оптимистично, но тем не менее. Вот что у меня получилось.

Если асинхронно посылать запросы и ждать их завершения (синхронизировать для записи в файл) сразу для 256 ip адресов, то на это уходит 23088 ms против 26838 ms при полностью синхронном ожидании. Действительно, таймаут можно увеличить в этом случае до 500ms и это влиять существенно не будет: 23146ms против 122059 ms.

Ну реальная производительность увеличивается если число асинхронных запросов увеличить скажем 256*4, уже дает 31830 ms.

Но тут имеется и верхняя граница. Ни чего делить по кол-ву ядер не нужно, C# при асинхронных вызовах сам все успешно делит на потоки, а система под разные потоки выделяет необходимое число загрузки ядер. Так скажем, у меня 2 процессора по 4 ядра. Если я выполняю все синхронно задействуется примерно 12% общего времени CPU. Теперь я сделал тест на асинхронный скан 256*N ip адресов, при этом процессорное время бегало от 20% до 60%, ну в среднем 50%, скажем так было задействовано 4 ядра.

Результат:
256*4 дает 31830 ms
256*8 дает 45242 ms
256*16 дает 79411 ms
256*32 дает 168464 ms
256*64 недождался

т.е. с ростом асинхронных запросов без синхронизации производительность вначале растет, а потом падает. Выше 256*16 уже идет замедление. Посчитаем выигрыш при 256*16 = 80 сек. * 16 = есть вероятность что получу за 21 минуту вместо 109 упомянутых в статье. Но там однопроцессорное время, приведем 109/4 — 21 = 33 мин. выигрыш, т.е. где-то 160% чистый выигрыш

vp7 Jan 5 2015 at 05:20

Стоп-стоп-стоп.
Либо вы умудрились запустить своё приложение на 80386 (или даже на 80286), либо где-то в коде ошибка. В крайнем случае — серьёзно не хватает памяти и машина постоянно swap'ится :)
И сразу оговорюсь — с C# дела не имел, но не верю, что у него реализация работы с сокетами настолько кривая.

Предположим, вы запускаете сразу 256 паралельных запросов.
Тогда в нормальной ситуации должно быть так:
1. Запуск в цикле 256 TcpClient.BeginConnect(), предположим 10ms (считаем, что у вас ужасно медленный процессор, в реальности должны быть сотые доли ms)
2. К моменту 0 + 10ms (запуск) + 500ms (timeout) = 510ms у вас есть ответ по всем запросам (считаем, что всегда есть IP, по которому коннект отвалится по таймауту)
3. Записываете в файл результаты, ещё 10ms.
Итого, 256 запросов должны тратить 520ms.
Если сделаете 512 одновременных запросов, то потратите… 540ms или около того (и CPU должен быть где-то в районе idle).
И где-то на уровне 1k-30k одновременных запросов уже должны начаться притормаживания, загрузка процессора и всё такое.

Можете сделать профайлинг и показать реальные тайминги? А ещё лучше — с кусками кода :)

tac Jan 5 2015 at 06:39

ох, сказочник… сделай что нибудь руками…

tac Jan 5 2015 at 07:42

Хотя что то в этом есть. Основное время у меня уходит на проверку таймаута каждого асинхронного вызова, т.е. 256*N ожиданий AsyncWaitHandle.WaitOne(waitTimeSpan, false), после чего я уверен, что каждый в отдельности или прождал 500 ms или получил ответ.

Но в вашем варианте можно просто заснуть на 500ms и ждать чуда. И проверив это, действительно 95% (от более тщательной проверки таймаута) за это время получается отпросить.

И да, притормаживания начинаются на том же самом уровне, что я написал выше 256*16, т.е. 4к. т.е. 80 сек привратили ну скажем в 5 сек, с небольшой погрешностью в опросе.

Спасибо, помогли найти узкое место.

А вот по поводу коммента ниже — мимо. «по вашей схеме нужно 500*20.000 IP адресов» — что за глупости? сами придумали, и мне приписали какую то схему…

Дальше «имя домена сразу же появляется где-нибудь в открытой базе whois» — опа, а там искать не надо :), а в их сервесе как то я не наблюдал «дать новые домены».

А подробнее, я отвечу PHmaster — он написал более классическую схему, о которой стоит поговорить отдельно.

tac Jan 20 2015 at 15:31

> Хотя что то в этом есть. Основное время у меня уходит на проверку таймаута каждого асинхронного вызова, т.е. 256*N ожиданий AsyncWaitHandle.WaitOne(waitTimeSpan, false), после чего я уверен, что каждый в отдельности или прождал 500 ms или получил ответ. Но в вашем варианте можно просто заснуть на 500ms и ждать чуда. И проверив это, действительно 95% (от более тщательной проверки таймаута) за это время получается отпросить.

При ближайшем рассмотрении, оказалось это не возможно. Нужно закрывать соединение, или сборщик муссора будет тормозить. А чтобы закрывать не отвеченные соединения нужно вначале проверить истек ли таймаут, т.е. выполнить AsyncWaitHandle.WaitOne(waitTimeSpan, false).

vp7 Jan 21 2015 at 02:18

Мистика. Рост производительности оборудования эффективно компенсируется усложнением библиотек :(
Единственное что остаётся — посоветовать переходить на RAW сокеты (самостоятельно генерировать SYN пакеты), но и тут не обошлось без ложки дёгтя — гугл подсказывает, что поддержка SOCKET_RAW была выпилена из десктопных версий Windows, но оставлена в серверных версиях.
На raw сокетах можно будет сделать банальный SYN ping и вообще отказаться ото всех этих асинхронных заморочек.

qw1 Jan 4 2015 at 14:07

Интернет намного сложнее, чем 1 IP = 1 домен.
Крупнейшие российские сайты, например, 4pda.ru, располагаются на серверах CloudFlare, причём в обратную сторону (ip→домен) адрес не оттранслируется. Исключать зарубежные ip — терять эти сайты

tac Jan 5 2015 at 00:58

Ну это дорога с двустороним движением, скрывать связь ip-домен — это исключить сайт для поиска в поисковиках, скажем так «нового типа» поддерживающих прозрачность веб-владельца. И еще вопрос, чего больше захотят пользователи :)

qw1 Jan 5 2015 at 01:04

Это технические реалии, когда много крупных сайтов размазаны по одному большому пулу IP-адресов облачного провайдера и нет никакой возможности зафиксировать связь IP ↔ сайт. Это слишком хорошее решение для балансировки нагрузки, чтобы считаться с мнением мифических «поисковиков нового типа».

tac Jan 5 2015 at 02:28

Проблемы в том, что они размазаны никакой, пусть они балансирую нагрузку. Речь же о публичности/легкой доступности этой информации, а тут вы лукавите. По IP можно было бы получить список всех сайтов, использующих этот IP (я же не говорил, что мне нужно однозначное соответствие). Кстати, бот гугла как то находит эти сайты? Откуда он их узнает если они появились только что?

Ну, и конечно, пока это лишь идея о «поисковиках нового типа» — никто с этим считаться не будет (капитан америка), но если бы тот же гугл по умолчанию не индексировал бы такие «крупные сайты», то думаю от их «крупности» ничего бы не осталось бы. Ну, а так пока что «мифический поисковик» будет работать с сайтами «менее крупными», но с публичной информацией.Их я думаю тоже достаточно :). А хитрицы пусть покурят в сторонке, честно говоря я не понимаю тех кто желает скрыть IP сайта, кроме явно жуликов и закрытой информации. А приватный сектор и жуликов исключить из поисковиков — это лишь на благо. И речь же как раз о том, что доверия к индексированию нет, и то что это индексирование мало что отражает.

vp7 Jan 5 2015 at 05:27

IPv4 — слишком дорогой ресурс, чтобы для каждого сайта выделять свой собственный IP. И чтобы каждый CDN для каждого сайта на каждой ноде также выделял свой IP (к примеру, у CDN 500 серверов, он обслуживает 20.000 сайтов — по вашей схеме нужно 500*20.000 IP адресов).

Ну а о «новых сайтах» гугл узнаёт достаточно просто.
Предположим, сайт только что зарегистринован… имя домена сразу же появляется где-нибудь в открытой базе whois. Уже можно искать. А потом автор сайта Вася заходит на свой новенький сайт через Google Chrome с включенной опцией «проверять сайты на фишинг». И ещё раз гугл узнаёт о новом сайте. А, возможно, автор Вася отправит через gmail письмо с адресом своего сайта своему другу Пете,… а google уже тут как тут, проиндексировал письмецо :)

p.s. Просто для информации — в РФ многие хостеры для VPS «выделяют отдельные IP адреса за 50-250 руб/мес». При цене домена в 100 руб/год и стоимости хостинга домашней странички в 30 руб/год.
Почувствуйте, как говорится, разницу.

qw1 Jan 5 2015 at 09:25

Есть ещё одно существенное возражение против сканирования IP.

Допустим, вы нашли что порт 80 открыт. Но сейчас немало серверов настроены так, что без указания Host в заголовке запроса они откажутся отдавать контент. Просто потому, что на сервере расположена пара-тройка служебных доменов для разных целей и сервер не знает, куда именно хочет зайти юзер. В лучшем случае покажет какую-нибудь заглушку.

вот примеры
94.124.200.86/ — это адрес hh.ru
212.24.44.142/ — это адрес geektimes.ru

супер поисковик слепо пройдёт мимо.

tac Jan 5 2015 at 10:39

Ну, собственно, тo же самое возражение, что и прочие. Как я и говорил, будем переучивать нерадивых админов. Введем некий стандарт на такого рода заглушки, по принципу sitemap, только в нашем случае администратор ресурса будет предоставлять набор доменов, которые он взялся обслуживать. Нет, ну на нет и суда нет — пусть ждет, может во вторичном режим краулер доберется до анализа таким образом «скрытых» доменов.

Приниципальных возражений я не вижу. Да и вообще уже ТЗ вырисовалось из моей идеи )

Расширение адресного пространства, про то что вы ниже написали про IPv6 — это будущее уж очень далекое, и по сути ничего не меняет. Просто больше пустоты будет среди IP с открытым 80 портом, точнее аналогов этому.

Тут же вот какое дело, я занимался как то биоинформатикой, и по сути это все та же задача, чем я занимался и там. Искал к примеру определенный ген белка в организмах. Тут по сравнению с этим детский лепет. Там всевозможных исключений из правил еще больше чем тут. Но если проводить аналогию, то я хочу основываясь на первичном — секвенсе ДНК найти ген (пространстве IP набор доменов). Но проблема в чем, ген как токовой найти нельзя, т.к. они все модифицированые и нужно искать вначале наиболее константные и дальше исходить из них или гадать на кофейной гуще и решать ген это или нет (т.е. заниматься выравниванием последовательности, без знания структуры).

Так вот к моему удивлению, люди предпочитают основываться не на первичной информации, а на вторичной и в итоге гадать на кофейной гуще (в биоинформатике та же проблема, только поданная под другим соусом).

Поэтому как бы там не было, вначале надо включить в рассмотрение, те кто прямо отдают информацию, и потом заниматься загадками. Но к моему удивлению майнстрим идет всегда против этого простого принципа.

qw1 Jan 5 2015 at 14:20

Расширение адресного пространства, про то что вы ниже написали про IPv6 — это будущее уж очень далекое, и по сути ничего не меняет. Просто больше пустоты будет среди IP с открытым 80 портом, точнее аналогов этому.

Да, ничего не меняет. Только вероятность встретить сайт на случайно выбранном IP будет сопоставима с вероятностью встретить жизнь на случайно выбранной планете. А сканирование всех адресов подряд надо было начинать задолго до большого взрыва, сейчас может процентов на 10 было бы выполнено.

Kivin Jan 9 2015 at 14:56

Как я и говорил, будем переучивать нерадивых админов. Введем некий стандарт на такого рода заглушки, по принципу sitemap, только в нашем случае администратор ресурса будет предоставлять набор доменов, которые он взялся обслуживать.

Три раза «Ха».
Вот ip адрес сервера виртуального хостинга. 91.106.207.104 На нём размещено *большое* число сайтов. Некоторые из них имеют выделенный ip, но большинство — нет. Как новый чудо-поисковик будет действовать в этом случае? Что делать сотням пользователей этого сервера?

gonzazoid Jan 4 2015 at 17:58

Вспоминаем также бесплатные хостинги — тот же narod.ru (и в плане 1ip — МНОГО сайтов и в плане доменов не второго уровня, как и msk.ru, org.ua и много их таких), а также блогосервисы, которые вообще не ru/su/рф, но вполне русскоязычные, а также ознак[а|о]мливаемся с безудержным безумным принтером, работающим на смену хостинга на забугорный(тут же всплывает тот факт что в европе нормальные сервера по каналам и цене)а домена на нейтральный сом/net/org и понимаем что прогон по geo ip — вообще не метод, теряется ОЧЕНЬ значительная часть рунета. После осознания момента рекомендую заглянуть сюда searchengines.guru, тут сидит народ, который решает недавно пришедшую к Вам идею на моей памяти последние лет десять (возможно больше), причем решает профессионально (в том смысле что зарабатывает на этом денег). Не примите за стеб или высокомерие — просто любую новую идею (а в особенности гениальную) в первую очередь надо проверять на число уже готовых реализаций. И только тогда, когда не будет сил проверять дальше — браться за реализацию (держа в голове что идею все таки кто то реализовал, но вы это так и не нашли).

mtt Jan 4 2015 at 18:32

и создадим публичную базу — интернет карту

Объясните пожалуйста цель этой базы, зачем политические границы переносить в виртуальное пространство ip-адресов? Вы хотите, чтобы в помощью вашей «интернет-карты» очередной говно-сервис сообщал что «контент в вашем регионе недоступен»? Интернет призван объединять мир, а не делить на куски секторов, придуманных политиками.

tac Jan 4 2015 at 22:28

В том числе и для этого — ага. Только не для жесткого запрещения, а по желанию пользователя ограничить поиск по стране.

mtt Jan 4 2015 at 22:50

ограничить поиск по стране

И как вы видите это должно работать? Вот ищу я к примеру «mvc framework». Вы предлагаете ограничить мне выборку, к примеру по стране Гондурас. Первый вопрос — зачем? А потом, ну хорошо — вы якобы «отфильтруете» сайты по выбранной стране. По вашему, если у сайта ip из вашей «интернет-карты» принадлежит этой стране значит его нужно включать в выборку? Сайт о Москве может быть расположен на хостинге в калифорнии и наоборот. Не существует четкого соответствия «сайт»<->«географическая координата», поэтому невозможно «ограничить поиск по стране» да и не нужно это.

tac Jan 4 2015 at 23:04

Я вполне себе отдаю отчет, что сейчас в этом отношении творится полный бардак, который и описал в статье и на каком уровне можно считать, что IP принадлежит стране. Нужно/ненужно — это ваше сугубо личное мнение, основанное на том какую цель Вы приследуете.

На первом этапе, отрезать русскоязычные сайты, находящихся не на российских IP — это не проблема вообще. Найти и и выделить их тоже не проблема — определить по языку используемому на сайте. Не проблема отрезать — потому что, нужно понимать главное — поисковику должны докладывать где и какие страны. В идеале, любой сайт должен сообщать свою страну вплане физического расположения — но это, как я и написал легко выяснить, а так же свой язык — скажем в заголовке HTTP, а сайты же не подчиняющиеся этой хорошой манеры, надо просто исключить из поиска. Далее все зависит от желаний пользователя — хотят они понимать куда они заходят и какой контент ищут — такой поисковик будет пользоваться успехом, нет — воспользуются другим.

Но такого рода поисковика я пока не вижу, и в этом проблема. «ищу я к примеру «mvc framework»» — надо вам и указать Вы хотите объяыснение получить на русском, английсом или китайском? Используя вышеописанное вам и найдут соответствующие из проверенного контента без мусора. (добавить мусор, не проблема, сложнее его убрать)

gonzazoid Jan 5 2015 at 00:00

В идеале, любой сайт должен сообщать свою страну вплане физического расположения

Хочется спросить — в чьем идеале, но мешает желание задать другой вопрос — зачем? который в свою очередь перебивается вопросом кому должен?

gonzazoid Jan 5 2015 at 00:04

в дальнейшем, как я понимаю, поставить границы, таможню, на импортные сайты пускать по загранпаспорту, импортные tcp/ip пакеты вручную растаможивать и без синей печати, как уже предлагали на хабре, на Русь-матушку не пущать. Не надо.

mtt Jan 5 2015 at 11:38

а так же свой язык — скажем в заголовке HTTP

Абсолютно согласен с вами насчет языков. Это интересная и полезная задача — построить языковую карту интернета. Вы не поверите, но каждый сайт с давних времен может указывать свой язык, к примеру html lang=«ru». Но вот физическое размещение сервера с контентом в географических границах это абсолютно бесполезная информация. Что с того, что вы будете знать, что сервер со статьёй на китайском языке про «mvc framework» находится на хостинге в столице Зимбабве? Вы не включите её в результаты поиска для китайскоязычных пользователей?

tac Jan 5 2015 at 12:28

Ну, я уже об этом говорил. Ни я не включу, а пользователь может пожелать не включить. И потом я так же приводил пример, когда надо сравнить цены интернет магазинов в стране, а еще лучше в городе/регионе. И если подумать назначений много можно придумать, поэтому зависит от «хотелки» — задачи.

mtt Jan 5 2015 at 12:56

если подумать назначений много можно придумать

Вы хотите составить карту физических местоположений всех серверов интернета. Вам кажется, что всем поголовно это нужно, но по факту в параграфе «А собственно для чего нужно картирование интернета такого рода ?» вы так и не ответили на этот вопрос. Дальше ваша целевая аудитория внезапно сомкнулась до разработчиков «поисковиков нового типа», однако когда и этот вариант поставлен под сомнение, вы переключаетесь на новый мифический тип сайтов: «компараторы цен в интернет магазинах». Вы же понимаете, что интернет магазин доставляющий кукл барби по Воронежу может хоститься в Мозамбике и физичекое местоположение сервера и в этом случае не несёт никакого смысла?

tac Jan 5 2015 at 13:29

Просто с каждой итерацией, я пытаюсь все больше объяснить на пальцах. Поэтому не стоит передергивать, что мне кажется. В статье я отделался общими словами, надеясь что всем это и так очевидно. Почему моя аудитория до кого то сомкнулась не ясно. Я сразу говорил, что это нужно в контексте создания поисковика. Пример я дал самый очевидный. Конечно я ожидал, что и тут начнут юлить. Ну да у нас сложный мир :) что делать. Но это не обесценивает смысл описанного.

Если кто-то хостится в Мозамбике, и я ему делаю предоплату — то я скорее не буду работать с таким интернет-магазином. Серьезные поставщики имеют официальную контору в той стране где продают и под неё выделен специальная подсеть IP. Вот с такими людьми и стоит работать, без серых схем. И вот это же имеет смысл показывать в поисковиках.

А недовольство этого — от лукавого. Поэтому конечно будут противники такого рода поисковика — жулики и еже с ними, просто я не ожидал, что еще на стадии идеи :)

amarao Jan 4 2015 at 20:20

Африканские IP'шники уже давно юзаются в Европах, потому что завести в Африке LIR'а и нахапать африканских IP дешевле, чем перекупать у спекулянтов блоки европейских IP.

Spetros Jan 4 2015 at 21:01

Рекомендую автору продолжить читать Википедию. Ознакомиться, как минимум, со статьями «IP-адрес», «Частный IP-адрес» и «Доменное имя».

PHmaster Jan 5 2015 at 03:34

Автор, мне кажется, вы не с той стороны подошли к проблеме. Бот гугла, вряд ли пингует айпишники на наличие/отсутствие сайта. Скорее, он ходит по перекрестным гипер-ссылкам. Как и любой «краулер» (crawler). Вся его поисковая система изначально была построена на принципе ссылочного ранжирования — т.е. сколько внешних ссылок на сайт имеется в интернете. Таком образом, если на сайт нет никаких внешних ссылок (с других сайтов) — в поисковую выдачу он не попадет. А если в выдачу он не попадает — зачем его вообще выискивать пингованием айпишников и индексировать? Просто «шоб было»? Лишняя трата ресурсов. Не знаю, может, что-то у гугла поменялось в этом плане, но мне кажется, что это вполне логичная схема. Так что хотите построить карту реальных сайтов — не надо ничего «пинговать», начните парсить ссылки с какого-нибудь интернет-каталога, и будет вам счастье, а доменные имена в айпишники потом уже можно резолвить через DNS. Тогда и картина по доменным именам у вас будет более полная, и домены реальные, и айпишников к каждому домену DNS-запрос выдает целую пачку, и можно уже как-то прикидывать, в каких странах этот домен хостится.

Только вот предыдущие комментаторы вам как бы намекают на отсутствие целесообразности вашего замысла. Хотя, одни ребята так тоже когда-то начали с вроде бы ненужной идеи — и получился ahrefs.com.

tac Jan 5 2015 at 09:27

Это наверно самый интересный тезис, из всех комментирующих. Спасибо. В принципе я доволен как происходит дискуссия, все свои опасения, догадки и уточнения, которые надо было сделать — люди меня поправили. Просто многие не готовы к нетрадиционной точке зрения, поэтому заговаривают меня и минусуют. Не первый год замужем :)

Тут есть два аспекта — идеологический и технический.

1. Конечно, именно так и делается сейчас. И на этом собственно я и стараюсь построить различие. Здравый вопрос заключается в том, чтобы знать какие вообще есть сайты, и на каких устроуствах они работают. В силу разных причин это сделать не просто. Минусы этого как тут уже говорили — полицейское государство, удушение авторским правом и прочие. Плюсы — порядок и возможность анализа. Скажем та жа коммерция — сравнение цен в интернет магазинах, одного и того же города. Как это сделать без территориальной привязки — никак. В итоге людей дурят — ведь известно, что экономика построена на неиформированности о реальном рынке. И это только один пример, возможности анализа описанного образа.

Поэтому, чтобы иметь доверие пользователей — нужнен поисковик, который ранжирует только сайты про которые все известно. И когда про них прямо не известно устройство на котором оно работает, или адрес (юридический или физический — решается простыв предоставлением провайдером) от имени кого этот сайт работает — то такие сайты надо не показывать по умолчанию, и включать в поиск лишь в настройках, запрятанных в бразере.

И ранжирование само по себе должно быть прозрачным процессом, и не строится на частоте ссылочности. Т.е. 1. сейчас нет списка доменов упорядоченных по PageRang и прочим альтернативам, а также нет тематического разделения. Все только косвенные признаки. 2. частота цитирования ничего не говорит о значимости, так же Википедия пример простой накрутки ссылками, т.к. у них каждая странца ссылается на другую, да еще ражные разделы ссылаются друг на друга. Вот вам и результат поднятия в рейтинге.

Ну и потом, то что вы написали про «краулер» это как раз вторичный способ. Ну подумайте сами — все равно надо начинать с какиех то ссылок, чтобы найти другие ссылки. В итоге не раз можно нарваться на замкнутый в самом себе граф и не видеть другой граф. Нет основания для отдания предпочтения. В моем же случае, когда этот принцип конечно тоже будет по поискам ссылок — это вторично, но первично это ссылки на первых страницах сайтов имеющих IP соответствие. И это справедливо и дает доверие.

2. Технический вопрос. Вы думаете поиск по принципу «краулера» реализовать проще, чем поиск по IP — подчеркну для первичного сбора информации (что я и назвал картированием)? Нет, думаю это сложнее. Тут надо не просто пропинговать все IP, а скачать страницы всех ссылок, чтобы найти другие ссылки — т.е. в сотни раз медленее. И в отличии о первого способа, не очень то подъемно в «кустарных условиях», а именно наличие «кустарный условий» заставляет находить более приемлимые решения, и тогда возможна конкуренция в среди поисковиков — чуть ли ни каждый сам себе может написать поисковик, и не кушать коммерческие продукты, цена которым станет копейки.

PHmaster Jan 5 2015 at 16:10

У вас чувствуется явный недобор информации и некоторая путанница в рассуждениях по некоторым техническим вопросам. Начните с чтения о том, как устроены нынешние поисковые системы.

сейчас нет списка доменов упорядоченных по PageRang и прочим альтернативам, а также нет тематического разделения.

В Google Page Rank (PR), тематический индекс цитируемости яндекса (ТИЦ) и аналогичные показатели других поисковиков как раз и закладывается количество внешних ссылок на сайт. Тематика там тоже учитывается: если у на ваш сайт ссылается тысяча других по слову «полотенце», то вы не найдете его в выдаче по слову «динозавр». Или найдете на очень низких позициях. Кроме того, поисковики пытаются учесть общую тематику сайта, который на вас ссылается, и это тоже влияет на ранжирование по конкретным поисковым запросам (не по всем, заметьте, а по каждому — в разной степени).

частота цитирования ничего не говорит о значимости

Гугл считает иначе. А что тогда говорит? Вы хотите вернуть интернет в ту эру, когда простой подбор нужной плотности ключевых слов гарантировал появление сайта в поисковой выдаче, в результате чего выдачу заспамливали всяким мусором, содержащим только рекламу с минимумом полезной информации?

так же Википедия пример простой накрутки ссылками, т.к. у них каждая странца ссылается на другую, да еще ражные разделы ссылаются друг на друга. Вот вам и результат поднятия в рейтинге.

Вы путаете внутренние ссылки со внешними.

Ну и потом, то что вы написали про «краулер» это как раз вторичный способ. Ну подумайте сами — все равно надо начинать с какиех то ссылок, чтобы найти другие ссылки.

На каком-то этапе развития интернета (как раз до того, когда гугл внедрил систему ссылочного ранжирование) поисковики были не очень популярны. Чтобы найти какой-то сайт — люди шли в тематические интернет-каталоги. Эти же каталоги поисковики, по-видимому, и парсили, чтобы обнаружить и проиндексировать сайты. Кроме того, почти в каждом поисковике была страничка «добавить ваш сайт в индекс». А вы сейчас попробуйте ради эксперимента зарегистрировать совершенно новый сайт, проследить, чтобы нигде на него не было ссылок, и дождаться хотя бы одного поискового бота. Проблема только в том, что многие хостинг-провайдеры обычно где-то на своих страницах размещают ссылку на созданный вами сайт, чтобы помочь вам на начальном этапе.

Вы думаете поиск по принципу «краулера» реализовать проще, чем поиск по IP

Да, это более сложно и ресурсоемко. Но и результат будет гораздо точнее. Не все айпи-адреса резолвятся в доменные имена. Это как еще один минус к уже перечисленным в комментариях. Ну и почитайте про ahrefs.com, где-то на хабре была статья про них недавно. Они начинали краулить, кажется, на одном обычном компьютере, а потом получили много миллионов инвестиций — и понеслось.

Только опять же, сформулируйте внятно, хотя бы для себя, что и зачем вы делаете. А то вы вначале писали про карту интернета по странам — а теперь уже хотите свой поисковик запилить.

tac Jan 5 2015 at 16:16

Если вы не согласны, или скорее даже не понимаете позицию оппонента, не стоит отправлять учить мат. часть — не серьезно. По существу вечером, хотя думаю это мало кого интересует.

PHmaster Jan 5 2015 at 16:39

Вы что, обиделись? Я ведь не обозвал вас неучем, я просто посоветовал, что конкретно вам стоило бы почитать, чтобы восполнить очевидные пробелы в знаниях о сфере, о которой вы, между прочим, написали статью. Я даже потратил время на то, чтобы указать, в каких местах конкретно ваши рассуждения ошибочны, и в чем именно заключается ошибка. А вы обижаетесь. Несерьезно.

tac Jan 5 2015 at 17:46

ох… ну, для начала может стоило бы подумать, о том, чего Вы сами не поняли? Я конечно назвал себя новичком в этой области, но не насталько, чтобы вы рассказывали мне элементарные вещи уровня студенческих общеобразовательных знаний.

Мне даже трудно комментировать, то что вы написал. В огороде бузина, а в Киеве дядька. С тем же успехом можно выдрать любые цитаты и написать ваши. Я просто не вижу связи между тем, что я пишу и вы сейчас прокомментировали. И уж поверьте нового вы мне ничего не сказали.

Если начать с конца «А то вы вначале писали про карту интернета по странам — а теперь уже хотите свой поисковик запилить». Хочется спросить а Вы вообще статью читали? Я в лучших традиция научных статей написал мотивировку, и перешел к деталям. В мотивировочной части СРАЗУ было описано о создании поисковиков, а все остально это лишь начальный этап того, что для этого надо, с выделением в главное — это картирование как физической структуры нета, так и привязки этого к странам. Честно говоря, незнаю как еще более внятно это сказать. Внятнее уж простите некуда.

Поэтому возникает впечатление. что вы стебетесь, а не отвечаете мне. Но допустим.

Далее, вы мне рассказываете что учитывыют современные поисковики. Но я то пишу совсем не об этом!!!

«сейчас нет списка доменов упорядоченных по PageRang», а Вы мне рассказываете что в них заложенно (знаем мы это в школе проходили ) ). Я же говорю о следующем этапе когда я собрал все домены, которые хочу анализировать, и после этого обращаюсь к сервисам гугла и яндекса, чтобы получить их индексы, и таким образом упорядочить домены, которые я выделил для своего поисковика. И я пишу, что готовых таких списков на данный момент нет. И это в том контексте, что считаются эти индексы не прозрачно и их владельцы подсуживаю тем или иным, поэтому имеет смысл для начала просто найти согласование между различными индексами разных поисковиков. Вот что я имелл введу в той фразе, правда писал не так подробно.

«Гугл считает иначе» — на заборе тоже написано дрова, гугл тут не авторитет, а обвиняемый. А дальше вообще идет взятое с воздуха. Ну, не говорил я ничего по этому поводу, ну зачем же приписывать мне ахинею?

Имеет значение реальный приход пользователей на сайт, время пребывания на сайте и т.п. статистика поведения пользователей на сайте. Но введу технических проблем это анализировать, я пока ничего и не говорил об этом.

Потом я видешли спутал внешние ссылки с внутреними. Нет. Тот же хабр, скажите мне зачем создает кучу зеркал? после чего все внутрение ссылки становятся внешними? Тот же прием и в Википедии.

И да поисковый бот, ну нулевой сайт приходил, правда разворачивался и уходил :)

И заканчиваете фиерично :) Мол да надо хреначить то, что сложнее и получать безумное финансирование, и будет мол счатье…
т.е. на колу висит мачало, начинаем все сначала.

в то время как основной посыл в каждый дом свой поисковик, который сможет базироваться на картировании интернета — свободных базах, а уже как базироватья дело каждого.

Не ужели так не доступно?

gonzazoid Jan 5 2015 at 18:10

Автор, не могли бы Вы уточнить, каким образом возможность отсекать сервера, расположенные в определенной стране (именно это ведь является отправной точкой нашей дискуссии) улучшит выдачу пользователю (я сознательно не говорю повысит релевантность, так как это в глазах пользователя может быть лишь одним из параметров качества выдачи). Как бы регион пользователя тем же яндексом давно определяется, есть класс регионозависимых запросов, и на них подбирается выдача с учетом региона пользователя. Но на что может влиять регион расположения сервера?

PHmaster Jan 5 2015 at 20:35

Хочется спросить а Вы вообще статью читали? Я в лучших традиция научных статей написал мотивировку, и перешел к деталям. В мотивировочной части СРАЗУ было описано о создании поисковиков, а все остально это лишь начальный этап того, что для этого надо, с выделением в главное — это картирование как физической структуры нета, так и привязки этого к странам.

То есть, вы утверждаете, что в статье ясно сказано, что вы хотите запилить свой собственный поисковик? о_0 Вы сами свою статью читали? Вот вам конкретно выдержки из нее:

А собственно для чего нужно картирование интернета такого рода?
Ну в фантазии я вас ограничивать не хочу. И вначале были намеченны идеи для чего это может быть надо.

Идем в начало:

У кого нибудь есть представление о том, сколько существует русскоязычных ресурсов? А есть ли возможность посмотреть их ранжированные списки как по частоте использования и тематическому разделению.

То есть, вы в начале говорите, что вам зачем-то понадобились ранжированные списки всех русскоязычных ресурсов, но зачем — не говорите. А в конце заявляете, что полностью полагаетесь на фантазию читателя в этом вопросе, и отправляете всех в рекурсию, ссылаясь на начало статьи, в котором конкретных целей таки не указано, указано просто желание поиметь списки. Ранжированные списки — пройденный этап, повторюсь еще раз. Они были до прихода гугла, и это были интернет-каталоги (по типу dmoz).

«сейчас нет списка доменов упорядоченных по PageRang», а Вы мне рассказываете что в них заложенно (знаем мы это в школе проходили ) )… И я пишу, что готовых таких списков на данный момент нет. ...

Зайдите в гугл, введите любой запрос, — и вы увидите упорядоченный список доменов. Сферический PageRank в вакууме ничего не дает. Запрос задает тематику, гугл упорядочивает домены и даже отдельные страницы в выдаче по тематике запроса. Ваш упорядоченный по голому PageRank список будет абсолютно бесполезным. Таких списков нет, потому что они никому не нужны.

Имеет значение реальный приход пользователей на сайт, время пребывания на сайте и т.п. статистика поведения пользователей на сайте. Но введу технических проблем это анализировать, я пока ничего и не говорил об этом.

Еще один велосипед? Гугл уже давно этим занимается, и его алгоритм ранжирования это тоже учитывает. Поставьте себе гугл хром — и примкните к тем, кто вносит в это свой вклад. Пингование айпишников здесь вам никак не поможет.

Потом я видешли спутал внешние ссылки с внутреними. Нет. Тот же хабр, скажите мне зачем создает кучу зеркал? после чего все внутрение ссылки становятся внешними? Тот же прием и в Википедии.

Не видел, чтобы хабр этим занимался. Приведете несколько ссылок на зеркала — буду премного благодарен, это любопытно. Сами по себе зеркала тоже ничего не дадут — в гугле не дураки работают, и замкнутые самореферрентные системы они уже давно научились определять и исключать из индекса. Пруфов привести не могу, но об этом я читал на СЕО-форуме еще несколько лет назад. Поэтому, создав кучу «зеркал», как вы их называете (в то время как они называются «сателлитами»), их тоже нужно будет «раскручивать», проставляя ссылки на них с внешних ресурсов.

И заканчиваете фиерично :) Мол да надо хреначить то, что сложнее и получать безумное финансирование, и будет мол счатье…

Хреначить надо не то, что сложнее, а то, у чего есть конкретная цель. А вот вы собираетесь просто и бесцельно хреначить, то что полегче. При полном отсутствии конкретной цели. У ahrefs, который я привел вам в пример, цель была — когда-то гугл убрал возможность проследить все внешние ссылки на конкретный сайт, и все СЕОшники застонали от такого решения. Возникла конкретная потребность — ahrefs.com ее удовлетворил. И как результат получил финансирование (а не просто потому что они хреначили офигенно сложную шнягу). Какую конкретную потребность, кроме вашего праздного любопытства, будет удовлетворять ваш список?

tac Jan 5 2015 at 23:54

Вот к чему проводит чтение статей по диагонали. А потом упорствовать в том что не дочитали, абзацом выше интересующий вас контекст.

К интернет каталогам, описанное относится косвенно, типо был звон да не там. Дальше бла-бла-бла, не интересно.

tac Jan 6 2015 at 00:56

Впрочем, глянул я тут эти каталоги. Ну вообще-то по задумке то что надо. По реализации аж слеза навернулась. Ну, придатки тех кто свой поисковик имеет, просто смешно смотреть. Они видимо специально извратили идею интернет-каталогов, чтобы люди не хотели этим пользоваться. Особенно понравилось то, что гугл свой интернет-каталог — закрыл :) Задайтесь вопросом почему? Да потому что они хотят пользоваться этой информацие приватно, а не отдавать людям в свободный доступ. Тоже самое и у других поисковиков — в таких каталогах можно найти только рекламу.

Но не будем о грусном. dmoz, некий момонт по описанию работающий аж на заре создания интернета. Заходим, идеально: позволяет сортировать как по языку, так и по стране!!! Ну, собственно, типа есть все о чем в моей статье. Ну, вот цифры

105к ссылок на русском, из которых 37к в России. Хочется спросить серьезно? И это весь результат их 20 летней работы? Заходим в нижний каталог — Браузерные игры — 40 шт. офигеть :)

Такое впечатление, что они руками все эти ссылки проставляют.

Т.е. форма интерфейса — ДА, замечательно… наполнение? ну, понятно, что никуда не годится. Не удивительно, что о них никто просто не знает. Не знаю, что они там делают, но тогда да стоит делать dmoz2.

И заметим в скобках, что именно подобного типа интернет-каталоги — основа любого поисковика. Только одни на этом скурвились, не желая отдавать это в общественный доступ (ведь даже этот мизер из 1 млн. ссылок оценили в свое время в десятки млн. баксов), а другие просто перестали это поддерживать в соответствии с развитием времени. Ви тоге можно считать, что интернет-каталогов просто нет на сегодняшний день.

PHmaster Jan 6 2015 at 01:26

Я же вам сразу написал: интернет-каталоги умерли с развитием поисковиков, и гугл сыграл в этом немаловажную роль. Раньше наличие сайта в том же dmoz считалось чем-то крутым, показателем надежности и статуса, что ли, потому как чтобы попасть туда — нужно было пройти непростую процедуру регистрации и модерации, и привести свой сайт в соответствие целому списку требований. Причем, у каждого каталога этот список был свой, и достаточно длинный. Сейчас этим никто не заморачивается, люди перестали пользоваться каталогами и пользуются поисковиками. Да и сайтов в интернете так много, что в каталоге вы заблудились бы. А добавить их все в каталог, и сделать по нему поиск — получается тупо поисковик.

tac Jan 6 2015 at 05:11

Ну с такой политикой, они и не жили вовсе. Тупо поисковик, да не тоже самое. Лан, не видите разницы, видно и не увидите.

qw1 Jan 5 2015 at 09:38

Нас в недалёком будущем ждёт IPv6, идея полного сканирования адресного пространства уходит на пенсию.