Andrey2008 24 авг 2010 в 05:53

Д'Артаньян и интернет, или работа над проблемой битых ссылок

8 мин

16K

Блог компании Intel

+38

Комментарии 58

dohlik 24 авг 2010 в 06:07

По сути получается сокращалка ссылок, со своим главным недостатком — я не вижу, куда эта ссылка меня уведет. Считаю, что ПСы должны просто выкидывать (или пессимизировать) страницы с битыми ссылками при поиске (не специалист, возможно они уже и так это делают?). Вручную все отслеживать слишком сложно.

В конце концов, если раздел на сайте переехал, что мешает хранить в БД пару «старые адреса» => «новые адреса» и либо перенаправлять туда автоматом, либо в сообщении 404 указывать (возможный) новый адрес страницы. Но это наверное слишком идеальный вариант

EvgeniyRyzhkov 24 авг 2010 в 06:21

>> По сути получается сокращалка ссылок, со своим главным недостатком — я не вижу, куда эта ссылка меня уведет.

К счастью эта проблема решаема. На своем сайте есть возможность организовать автоматическую замену на лету «экранированных» ссылок на оригинальные. На чужих конечно сайтах это не сработает.

Выкидывать страницы с битыми ссылками из поиска вряд ли удастся (тоже не специалист), так как тогда искать будет нечего.

VolCh 24 авг 2010 в 06:43

Когда с вас скопируют статью, то скопируют и ссылки. Выходом может быть использование атрибута title с адресом редиректа — не совсем привычный способо, да и требует доверия к сайту, но лучше чем ничего.

Если продолжать заботиться о пользователях, то можно модернизировать вашу систему так, чтобы она при проверке работающей ссылки скачивала текст страницы, а когда ссылка не рабочая выдавала этот текст с пояснением типа «эта ссылка вела туда-то, но там такой страницы больше нет, мы сохранили её для вас»

EvgeniyRyzhkov 24 авг 2010 в 07:07

>> Если продолжать заботиться о пользователях, то можно модернизировать вашу систему так

Идея неплохая, спасибо, подумаем. Сходу правда видна проблема с копирайтами — прямо так взять и выкачать чужую статью не многим позволено (как Google).

cyberbobs 24 авг 2010 в 10:40

Может, тогда имеет смысл давать ссылку на кэш компании Google с потерявшейся страницей?

EvgeniyRyzhkov 24 авг 2010 в 10:46

Тоже была такая идея, но два момента:
1. Кеш со временем очистится.
2. Слишком уж сложная система получается :-).

Setti 24 авг 2010 в 06:27

Я лично не уверен, что в таком возрасте рационально заниматься изучением C#

Я очень сомневаюсь, что ребенок продвинется дальше «Часть 1. Первое знакомство»

Я очень сомневаюсь, что школьник тринадцати лет после этого отправится в Google искать для скачивания чудо-зверя «Microsoft Visual C# 2008 Express Edition»

Какое-то у вас предвзятое отношение к молодым людям.

EvgeniyRyzhkov 24 авг 2010 в 07:08

>> Какое-то у вас предвзятое отношение к молодым людям.

У автора есть опыт преподавательской деятельности :-)

tzlom 25 авг 2010 в 06:22

да, в 13 лет я качал паскаль а не не C#
правда я и сейчас C# не качаю, но это другой вопрос :)

ckald 12 апр 2012 в 11:31

Я в 11 лет С++ изучал. Горькое знание о Паскале пришло классе в 9м

bagyr 24 авг 2010 в 06:32

Как показывает история, устранение битых ссылок создает больше проблем, чем сами битые ссылки.
Не зря главной заслугой Тима Бернерса-Ли считают введение ошибки 404.

EvgeniyRyzhkov 24 авг 2010 в 07:09

>> Как показывает история, устранение битых ссылок создает больше проблем, чем сами битые ссылки.

Почему? Поясните, пожалуйста.

bagyr 24 авг 2010 в 08:04

У Реймонда подробно описано.
В крадце: до www предпринималось много попыток этого избежать, в итоге все они выливались либо в сложные автоматизированные индексаторы, либо в подобие катлогов.
HTTP заменил их все быстро и уверенно именно за счет простоты и общей прозрачности. Worse is better и все такое.

swk 25 авг 2010 в 08:35

Во-первых, умный хранение структуры «новая ссылка» < — «старые ссылки» — это не устрание битых ссылок, а их предупреждение.

Во-вторых, что значит заменил? Не работает ведь! ;-)

swk 25 авг 2010 в 08:36

*хранение структуры с умным редиректом

JuliaTem 24 авг 2010 в 06:56

Звучит хорошо.
И всё же, лицом статьи напрашивается быть Дон Кихот Ламанчский, а не Д'Артаньян :)

EvgeniyRyzhkov 24 авг 2010 в 07:09

Ну тогда уж один, сражающийся с другим :-).

JuliaTem 24 авг 2010 в 07:45

Зачем? у Дон Кихота были мельницы :)

Andrey2008 24 авг 2010 в 07:48

Это своего рода юмор, на тему, что у меня синдром д'Артаньяна. :)

JuliaTem 24 авг 2010 в 07:52

Да-да, у меня тоже юмор :) с намёком…

Fintiflushka 24 авг 2010 в 07:13

Они С# на котах 16-летним «детям» объясняют? :) Забавно.

ZiNTeR 24 авг 2010 в 09:51

Не поверите, но это делал еще Гради Буч для младших научных сотрудников еще более старшего дошкольного возраста :)

Абстракция фокусируется на существенных с точки зрения наблюдателя характеристиках объекта.

Инкапсуляция скрывает детали реализации объекта.

Сохраняемость поддерживает состояние и класс объекта в пространстве и во времени.

И книга эта является бестселлером по ООП подходу в С++

НЛО прилетело и опубликовало эту надпись здесь

JuliaTem 24 авг 2010 в 07:54

Сча народ ринется проверять :) Лучше такое в личку кидать…

majesty 24 авг 2010 в 07:54

код вообще фееричен чуть более, чем полностью… $HTTP_GET_VARS уже лет пят как deprecated, да и mysql_insert_id вкупе с auto_increment PRIMARY_KEY было бы логичнее использовать, чем вести параллельно какой-то искусственный идентификатор.

НЛО прилетело и опубликовало эту надпись здесь

Beholder 24 авг 2010 в 08:12

Не так много, редиректы они где надо поставили.

yul 24 авг 2010 в 08:07

Интересно, а google снижает позицию сайтам за дохлые ссылки? если нет, то это был бы неплохой способ заставить мелкие и средние сайты следить за достоверностью ссылок. С крупными сайтами, конечно, ничего особо не поделаешь, если уж им лень строчку редиректа добавить…

ZiNTeR 24 авг 2010 в 09:55

В случае изменений своей структуры ссылок каким-то сайтом (то есть если по внешним ссылкам попадаешь на 404, а не на нужную страницу) обычно у него происходит обвал рейтинга, пузомерок.
При полной переработке старого ресурса это, на мой взгляд, одна из самых важных проблем…
Просто видел ситуации, когда из-за смены движка сайта его иЦ падал более чем в 2 раза — старые ссылки не были сохранены.

G_Z 24 авг 2010 в 08:08

Проблема есть, но вы драматизируете.
Это проблема добросовестной разработки, адекватности разработчиков и тех, кто принимает решения.

Предлагаемое решение — ужасно.
Твиттеру, как инициатору, и человеку, придумавшему «короткие ссылки» давно пора что-нибудь отрезать, в рамках превентивных мер.

Достаточно при любых изменениях в путях сайта (а даже такое понятие есть далеко не у всех, массово пихают ID) добавлять перенаправление с «было» на «стало».
Чем проще структура, тем проще такое реализовать — простую и логичную структуру использовать выгодно.

Обходить ссылки — избыточно, если сайт не закрыт от индексации роль такого обходчика выполнит поисковых паук.
Нужно лишь мониторить 404 ошибки в логах.

Andrey2008 24 авг 2010 в 08:15

Мы с разных планет. Я вообще не понимаю Вас. Есть моя статья, скажем на сайте Intel или на Хабре. В ней ссылка на MSDN. В MSDN что-то поменялось. Ссылки в моих статьях указывают в никуда. И причем здесь поисковики и какие логии я должен мониторить? Вы о чем? Я хочу, чтобы мои тексты адекватно ссылались на другие ресурсы.

G_Z 24 авг 2010 в 08:26

Мониторить логи и следить за ссылками должен Intel и MSDN, разумеется. Проблема у них, вы как можете боретесь и её последствиями.

Если статья ваша, к чему вводить дополнительный уровень сокращённой ссылки, а не исправить ссылку на новую, отредактировав материал? Нет доступа к тексту, ссылка часто упоминается в разных материалах?

Сокращённая ссылка решает проблему с достаточно простым исправлением ссылки, но заранее «убивает» все ссылки материалов, приводя их в нечитаемый вид.
Так ли часто бывают смены адресов, чтобы ради удобства их исправления жертвовать прямыми и понятными ссылками из материалов?

Вы о чем? Я хочу, чтобы мои тексты адекватно ссылались на другие ресурсы.

Я больше о причине. Следить за ссылками, в идеале, должен сам владелец.
Как уже написал, сокращённые ссылки, на мой взгляд, большее зло, нежели ссылки битые.

Beholder 24 авг 2010 в 08:10

Это реклама ещё одной сокращалки ссылок?

А если не изобретать велосипед, то уже давно придумали Persistent Uniform Resource Locator.

Andrey2008 24 авг 2010 в 08:18

Причем тут вообще сокращение ссылок?

P.S. Для тех кто опять ищет рекламу – это внутренняя закрытая функциональность.

7vies 24 авг 2010 в 09:53

Хм, «внутренняя закрытая» и то использование таких ссылок на хабре — как-то не сходится.

Andrey2008 24 авг 2010 в 10:20

Все сходится. Добавлять ссылки можем только мы. Это не открытый сервис, а внутренняя система. А пользуется любой читатель, кто переходит по ссылкам туда, куда нужно.

7vies 24 авг 2010 в 10:37

А, в этом смысле закрытая. Рекламу можно просто по-разному искать :)
А аналогия с сокращателями ссылок очевидная же.

sectus 24 авг 2010 в 08:22

БольшАя или бОльшая часть проблемы с битыми ссылками — это ссылки на всякие файловые хранилища с варезных форумов. Там уже через месяц файлов может не быть. А такие ссылки как правило скрыты от гостей, что не позволит сторонним скриптам проверить ссылки. А даже, если не скрыты, то, например depositfiles, выдаёт 200 на несуществующий файл. — Часть этих проблем относится не только файловым хранилищам и варезным форумам.

Кто следит за тем, чтобы ссылки на сайте не были битыми, и после изменения структуры сайта все ссылки вели на нужные разделы и статьи? СЕОшники. Потому что они заинтересованы денежно. Вот, если бы Интел и Микрософт были заинтересованы напрямую (взяли бы и начали продавать ссылки: ) ) в работающих ссылках на своём сайте, то они бы следили за ними.

Andrey2008 24 авг 2010 в 10:31

Это все конечно правильно и хорошо, но исключительно теоретически. Лучше делать хоть что-то, чем ничего не делать.

maxp 24 авг 2010 в 08:49

«но хоть на минутку хочется себя д'Артаньяном почувствовать» — ага, очень замечательно.
Предложить неработающее решение высосоной из пальца проблемы — истинный д'Артаньян…

«Очень легко испортить весь свой материал, пост в блоге, сервис, книгу или любой другой проект из-за того что кто-то другой (или вы сами) возьмет и поменяет адрес ресурса на который вы ссылаетесь. » — это говорит только о том, что самому материалу грош цена, если он так смертельно зависит от какой-то конкретной странички в MSDN.

anthonio 24 авг 2010 в 09:03

Кстати, у вас все примеры в статье на microsoft.com Совпадение? :)

Andrey2008 24 авг 2010 в 10:31

Совпадение. Множество других не лучше. Просто с microsoft.com больше общаюсь.

anthonio 24 авг 2010 в 11:36

К слову, заставил себя вспомнить когда последний раз мне пришлось искать инфу по битой ссылке — не смог! :)
ИМХО, проблема надумана. Если статья с битой ссылкой старая, что не редкость для ИТ, то и вероятнее всего, она морально устарела. А если материал фундаментальный и неустаревающий, то смотрители сайта, что его постят — уроды, а сам материал, скорее всего, уже продублирован на просторах интернета.

Andrey2008 24 авг 2010 в 18:20

Ничего себе надуманная. 20% ссылок в википедии в никуда… habrahabr.ru/blogs/webdev/102527/
Я думаю просто зависит от задач. Я например очень часто стакиваюсь с описанной проблемой.

НЛО прилетело и опубликовало эту надпись здесь

allter 25 авг 2010 в 07:25

Скорее, поисковики могли бы отслеживать/регистрировать изменения ссылок (и визуализировать, например, в просмотре кэшированной версии страницы). Слабосвязанная природа контента — основа концепции Web, с ней бессмысленно бороться.

Кстати, если ввести ссылку из топика в Гугль, то ссылка на интересующую страницу находится первой в результате выдачи, так что проблемы автора особо и не существует.

Valery35 24 авг 2010 в 09:53

Проблема есть — общее количество битых ссылок со временем будет увеличиваться.
Пока кто нибудь не придумает как на этом делать деньги.

НЛО прилетело и опубликовало эту надпись здесь

medin 24 авг 2010 в 10:02

Мне нравится как ссылки сделал мыло.ру — например, r.mail.ru/n49626431, если не обзывать это сокращалко ссылки (и убрать этот функционал) то хоть заперемещай документ, но он будет иметь уникальный ничегонезначащий урл. А то что это непонятные цифры — большинству инет населения без разницы.

mrkto 24 авг 2010 в 10:30

Проблема высосана из пальца!

Школьник пойдёт на торрент и скачает полную, уже крякнутую версию.
Ему вообще привычней качать с торрента, чем с HTTP. Думаю скоро ссылки исчезнут и останутся одни md5/sha-хэши, а поисковики будут в качестве редиректора. (по крайней мере для файлов, ещё там seo-блок «previous version hashes:»)

Andrey2008 24 авг 2010 в 10:36

Учимся думать:
1) Она и так бесплатная!
2) Проблема неверных ссылок не равна проблеме скачивания крякнутых программ. Вы просто еще не сталкивались с ситуацией, когда это отнимает реальное время и реальные деньги.

mrkto 25 авг 2010 в 11:25

Ну и к чему все придрались к слову «крякнутая», потому что я не заострял на нём внимание, скорее, если бы microsoft позаботился о рабочей ссылке, школьники и не узнали бы про полные версии на торрентах.

EvgeniyRyzhkov 24 авг 2010 в 10:47

Из-за такого подхода как у Вас, многие наши сограждане ищут кряки даже на бесплатные продукты.

Стыдно должно быть, товарищ!

mrkto 25 авг 2010 в 11:32

Я что, говорил про свой подход? Это моё мнение об обычных пользователях, которые действительно ищут кряки на бесплатные программы.

mrkto 25 авг 2010 в 11:39

И да, Microsoft уже ведёт активную работу в вузах и школах. И теперь каждому школьнику/студенту на время обучения доступны полные версии большинства продуктов Microsoft (Windows, Visual Studio, SQL Server)

например: www.mai.ru/life/soft/soft2.php

mr_jok 24 авг 2010 в 13:16

лично я обычно периодически проверяю ссылки с помощью бесплатной программы Find broken links on your site with Xenu's Link Sleuth

Strange_R 26 янв 2012 в 18:53

Лично я вижу решение проблем битых ссылок в том, чтобы сами пользователи могли пополнять базу данных таких ссылок, точнее переадресаций с недействительных (исходных) адресов на действительные (результирующие). Я попытался воплотить такую систему в виде интернет-сервиса 404help.net
Принцип действия таков:
Пользователи, которые хотят разместить переадресацию, пополняют базу данных системы.
Пользователи, которые хотят пользоваться системой, устанавливают для своих браузеров (строже говоря, программ доступа) дополнения (расширения, плагины), которые перехватывают и обрабатывают ошибки доступа к ресурсам (например, ошибку 404). Либо же пользователь вручную задействует дополнение в случае проблемы доступа к ресурсу.
Дополнения подают запрос в информационную систему, содержащий информацию об исходном адресе, и система возвращает соответствующий исходному результирующий адрес, производя на него переаресацию. Или же дополнение может само обрабатывать часть исходных адресов — например, производя переадресацию с алиасов на локальные и сетевые ресурсы.
Это всё малая часть задуманного. Ажиотажа особого нет — система будет иметь смысл только когда будет достаточно заполнена, набрав критическую массу. Пока что только приступаю к пополнению базы. Но считаю что уже полезны плагины системы к браузерам, производящие переадресации с алиасов на ресурсы.
Прошу высказать ваше мнение, критику, пожелания. Можно это делать в блоге системы: 404help.livejournal.com/668.html

Спасибо )

astenix 4 авг 2020 в 18:43

Привет из 2020-го.

Битьё ссылок продолжается.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий