ну вот хочу я, например, получить список всех ссылок на странице…
через фильтры этого не сделать,
либо делать html валидным xhtml и далее искать через xpath,
либо старым проверенным способом — через регулярные выражения
хм, как-то странно все это…
ну а если выделить достаточно большой буфер (например 10Мб) под обработку входного потока символов, а затем результаты сразу скидывать в файл, причем обязательно включить flush для файлов, чтобы не было тормозов при файловых операциях?
а миллионы аллокаций на С++ — тут на ум приходит только неумелое использование STL, когда строки используются в виде объекта string, тогда при каждом присвоении действительно будет новая аллокация
в любом случае, без конкретного исходного кода на С++ это все мои домыслы))
PS: ну не понимаю я как может код на С++ работать медленнее, чем на C#))
на данный момент выгоднее начинать разработку на PHP, чтобы потом отдать ее на поддержку более дешевому специалисту, а, как известно, программисты на PHP не особо дорогие
ничего общего между сапой и хабром нет (кроме того, что это сайты)
вопрос не в рейтингах, посетителях и пр., а в индексации такого сайта
этот сайт потом добавляется в сапу, на нем продаются сеоссылки, и таким образом зарабатываются деньги
Но глянул счас сапу, всё же там не совсем подобное.
хм, а как вы смотрели?
существует целая индустрия (хотя это слишком громкое слово) для создания автогенеренных говносайтов (есть такой термин), и в сапе таких сайтов большинство, хотя и встречаются нормальные сайты
вот эту проблему хорошие системы рейтингования и призваны решать
эту проблему решит адекватный алгоритм от Яндекса, который сможет отфильтровать такие сайты и запретить добавлять их в индекс — только так перестанут генерится такие ГС тоннами
пока что алгоритм Яндекса удается обходить, поэтому ГС и клонов очень много
просто в виртуальной машине в принципе никуда «налево» не хожу, поэтому антивирус особо не нужен
вот думаю, что надо бы для полной уверенности сделать аналогичную машину на linux'e, только вот, имхо, не все клиент-банки смогут заработать
надо пробовать
на этом компьютере на подозрительные сайты не хожу, в самих клиент-банках включена защита по-максимуму
антивирус — это скорее «психологическое» спокойствие, у меня он не стоит
не засоряйте себе и другим голову!
а что она проверяет?
PS: объем regex'a доставляет))
через фильтры этого не сделать,
либо делать html валидным xhtml и далее искать через xpath,
либо старым проверенным способом — через регулярные выражения
так что заголовок сильно отдает желтизной
точнее что можно prelink'овать и preload'ить на вебсервере?
хабраэффект?
если не смотреть на названия с явными орфографическими ошибками и с цифрами, то большинство названий вполне годятся для СДЛ-сайтов
хотя и названия с ошибками тоже пригодятся — сделают редирект на основной домен, если неграмотный пользователь допустит орфографическую ошибку
хотя, конечно же, истерия вокруг всего этого начинает надоедать
PS: сам предпочитаю регистрировать домены в международных зонах, чтобы не зависеть от правового беспредела
ну а если выделить достаточно большой буфер (например 10Мб) под обработку входного потока символов, а затем результаты сразу скидывать в файл, причем обязательно включить flush для файлов, чтобы не было тормозов при файловых операциях?
а миллионы аллокаций на С++ — тут на ум приходит только неумелое использование STL, когда строки используются в виде объекта string, тогда при каждом присвоении действительно будет новая аллокация
в любом случае, без конкретного исходного кода на С++ это все мои домыслы))
PS: ну не понимаю я как может код на С++ работать медленнее, чем на C#))
а С++ что тормозило? C# меня не интересует
ничего общего между сапой и хабром нет (кроме того, что это сайты)
вопрос не в рейтингах, посетителях и пр., а в индексации такого сайта
этот сайт потом добавляется в сапу, на нем продаются сеоссылки, и таким образом зарабатываются деньги
хм, а как вы смотрели?
существует целая индустрия (хотя это слишком громкое слово) для создания автогенеренных говносайтов (есть такой термин), и в сапе таких сайтов большинство, хотя и встречаются нормальные сайты
эту проблему решит адекватный алгоритм от Яндекса, который сможет отфильтровать такие сайты и запретить добавлять их в индекс — только так перестанут генерится такие ГС тоннами
пока что алгоритм Яндекса удается обходить, поэтому ГС и клонов очень много
тут дело не в полезности/бесполезности, а в факте наличия сайта в индексе основных поисковых систем и наличия пузомерок
не ищите смысла там, где его нет,
большая часть сайтов в интернете — полное УГ и клоны