Комментарии 56
Осталось проверить, подходит ли пароль к железкам
Продолжение будет? )
Интересно.
Насколько я понял, движок 2009 года, соответственно на текущий момент мало актуален с точки зрения практического SEO 2013 года. Но очень интересно его использование с точки зрения парсинга сайтов и последующей обработки контента.
Присоединюсь, «А продолжение будет?»
И еще, не подскажите, где образ нашли?
Насколько я понял, движок 2009 года, соответственно на текущий момент мало актуален с точки зрения практического SEO 2013 года. Но очень интересно его использование с точки зрения парсинга сайтов и последующей обработки контента.
Присоединюсь, «А продолжение будет?»
И еще, не подскажите, где образ нашли?
hi.baidu.com/cayrus/item/06f4d90e03c95bc32f4c6bb1
Такое впечатление, что везде информация была тщательно выпилена. Хотя непонятна причина неубивания образа на сервере Гугла…
Такое впечатление, что везде информация была тщательно выпилена. Хотя непонятна причина неубивания образа на сервере Гугла…
мало актуален с точки зрения практического SEO 2013 года
С точки зрения черно-серого seo — да, малоактуально. Я даже больше скажу — движок лишен доступа к тем данным, которыми оперирует большой брат. Например история кликов на рекламу. Но даже поверхностный осмотр показывает участки кода, которые совершенно не нужны GSA. Они достались по наследству от девелоперов Самого и не работают при индексации. Но могут много о чем рассказать.
интересно, что таке paid_link_count? купленные ссылки? как гугл их определяет? или это имеется ввиду адсенс?
после прочтения статьи пока одни вопросы…
после прочтения статьи пока одни вопросы…
Вопросы — это хорошо. Статья писалась именно для совместного поиска ответов )
Нет, это не адсенс. Купленные ссылки всегда видны невооруженным взглядом — вы думаете у современных SE нет надежного алгоритма их определения? Да с первых дней появления такой проблемы. Я уверен, что это сделанo на системе treshold-ов, учитывающих время появления линка в контенте и других признаков. Периодическое подкручивание ручек этих treshold-ов и приводин к всяким пингвинам на пороге )
Нет, это не адсенс. Купленные ссылки всегда видны невооруженным взглядом — вы думаете у современных SE нет надежного алгоритма их определения? Да с первых дней появления такой проблемы. Я уверен, что это сделанo на системе treshold-ов, учитывающих время появления линка в контенте и других признаков. Периодическое подкручивание ручек этих treshold-ов и приводин к всяким пингвинам на пороге )
окей…
что содержат has_*? чем они отличаются от счетчиков?
можно ли сделать вывод из найденой Вами информации, что для гугла важнейшим параметром при ранжировании является имеено перелинковка контента и внешние ссылки? (ни одного упоминания кейвордов, тайтлов и прочих seo-бубнов)
При чем тут wiki? имеются ввиду ссылки с Википедии, или с внутренней вики индексируемого ресурса?
PS: за отсутствием кармы (я новичок), плюсую буквами Вашему ответу и всему посту! Очень интересный материал! Спасибо!
что содержат has_*? чем они отличаются от счетчиков?
можно ли сделать вывод из найденой Вами информации, что для гугла важнейшим параметром при ранжировании является имеено перелинковка контента и внешние ссылки? (ни одного упоминания кейвордов, тайтлов и прочих seo-бубнов)
При чем тут wiki? имеются ввиду ссылки с Википедии, или с внутренней вики индексируемого ресурса?
PS: за отсутствием кармы (я новичок), плюсую буквами Вашему ответу и всему посту! Очень интересный материал! Спасибо!
Быстро скачиваем и изучаем, возможно завтра и этого не останется.
Скорее всего просто забыли удалить.
Спасибо, давно мечтал поковырять нечто подобное.
Скорее всего просто забыли удалить.
Спасибо, давно мечтал поковырять нечто подобное.
А не пробовали уже перебирать в имени файла 20090210 далее? Может что-то посвежее завалялось?
Да, можно попробовать простым скриптом… Но я думаю, что свежее нет. Проект закрыт в 2009.
попробовал только что, увы свежее ничего нет(
Перебрал с 2008 года, доступные версии:
20081028
20090108
20090210
20081028
20090108
20090210
Выложите-ка итоговый образ куда-то на торренты. Дайте и другим немного поковыряться :)
Поддерживаю
magnet:?xt=urn:btih:89388ACE8C3B91FDD3A2F86D8CBB78C58A70D992&dn=vgsa_20090210.7z&tr=udp%3a%2f%2ftracker.publicbt.com%3a80
Это исходный образ диска, а после вышеуказанных в статье модификаций?
это исходный образ, по ссылке dl.google.com/vgsa/vgsa_20090210.7z
На всякий случай я просто оставлю это здесь: dl.google.com/vgsa/vgsa_20090210.7z
Если нужны будут зеркала, пишите.
Если нужны будут зеркала, пишите.
Зеркало уже сделал Internet Archive: archive.org/details/vgsa_20090210
Хочу странного: описание алгоритмов в упомянутых краулере и ответчике. Как краулер составляет индекс? Как поисковая машина формирует ответ на запрос? Ну и так далее. Вот если бы кто-то сделал такой обзор — было бы круто!
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Это в Readme написано — дефолтный пароль на админ интерфейс http_://address:8000. Он меняется прямо в админе.
Welcome to the Google Search Appliance virtual edition!
Unzip the file to get the virtual machine disk image. We recommend
using 7zip (http://www.7-zip.org/) to extract the archive.
Once running, you can access the Administration Console of the virtual search
appliance at http://:8000, where is the IP address of the virtual
appliance.
You can log into the Administration Console with:
Username: admin
Password: j0njlRXpU5CQ
For question and feedback, please contact:
enterprise-gsa-virtual@google.com
Welcome to the Google Search Appliance virtual edition!
Unzip the file to get the virtual machine disk image. We recommend
using 7zip (http://www.7-zip.org/) to extract the archive.
Once running, you can access the Administration Console of the virtual search
appliance at http://:8000, where is the IP address of the virtual
appliance.
You can log into the Administration Console with:
Username: admin
Password: j0njlRXpU5CQ
For question and feedback, please contact:
enterprise-gsa-virtual@google.com
Начал читать купившись на фразу
Оказалось это хитрый SEOшный трюк :)
и увидел много чего интересного с точки зрения СЕО
Оказалось это хитрый SEOшный трюк :)
Не совсем ) Одной из целей этого квеста был именно поход за «настоящими» базами английских слов от доверенного источника — с перекрестными связями по синонимам и признаком релевантности одного слова другому. Я их, судя по всему, нашел — и они вкусные, но к моменту дописывания статьи, пока не смог разобрать из скомпилированного вида во чтото удобоваримое.
Я совершенно не преуменьшаю ваше достижение, наоборот — снимаю шляпу, со всем уважением.
Кроме того, я ни чего не имею против SEO и тех кто им занимается.
Просто у вас перед катом SEO написано по-русски как CEO, что в свою очередь является общеупотребительным сокращением от Chief executive officer .
Вот мне и стало любопытно, что же такого может быть интересного внутри гугловской виртуалки для руководителя компании?
Ну а в конце, смайлик как бы говорит, — «да без проблем, я понял что это обычная описка».
Кроме того, я ни чего не имею против SEO и тех кто им занимается.
Просто у вас перед катом SEO написано по-русски как CEO, что в свою очередь является общеупотребительным сокращением от Chief executive officer .
Вот мне и стало любопытно, что же такого может быть интересного внутри гугловской виртуалки для руководителя компании?
Ну а в конце, смайлик как бы говорит, — «да без проблем, я понял что это обычная описка».
Кто поможет, застрял на этапе: «Загрузившись в /bin/bash и перемонтировав корень в rw»?
Все время получаю монтирование read-only.
Все время получаю монтирование read-only.
НЛО прилетело и опубликовало эту надпись здесь
VMWare Workstation 8.0 радостно подхватила образ кстати, без всякой конверсии. Насчет 9.0 — нет чтобы проверить.
Скорее всего тоже подхватит, а вот в ESXi надо делать экспорт из WS.
Хм. Попытался сменить пароль рута — сменился без проблем.
В конфиге iptables прекрасное —
Удаленный саппорт по модему?
## ppp0
-A OUTPUT -o ppp0 -p tcp -j ACCEPT
# Enable SSH from the modem
-A INPUT -i ppp0 -p tcp -m tcp --dport 22 -j ACCEPT
Удаленный саппорт по модему?
В железках они вроде как и по модему могут саппорт делать. Чтото такое читал в мануалах на сайте. Меня в iptables почему-то умилил комментарий про высокие порты и мы, дескать, nobody )
Да, сейчас еще раз попробовал на свежем образе — меняется. Дело было ночью, может привиделось )
Подробно не ковырял, но кажется мне что редактирования ENT_LICENSE_MAX_PAGES_OVERALL для поднятия лимита недочтаточно, как то не-энтерпрайзово это… обычно лицензия запрятана куда как глубже и хитрее, учитывая что основные мозги системы написаны как раз не на Питоне.
Оно конечно баловство, никто всерьез эту штуку в 2013 юзать не будет имхо, но интересно.
Оно конечно баловство, никто всерьез эту штуку в 2013 юзать не будет имхо, но интересно.
Были такие сомнения. Там есть два питоновских файла, которые пропускают через себя все связанное с лицензией. Завязано на API. Но с другой стороны — судя по тому, как все сделано… Такое ощущение что это были игрушки для кого-то, сделали, заработало и забыли. А чтобы чтото серьезно прятать — дел и так хватает умным людям.
Оно конечно баловство, никто всерьез эту штуку в 2013 юзать не будет имхо, но интересно.
А как же горячие головы, готовящиеся к всеобщему катаклизму?
На деле — применение можно найти. Мне там нравится в админе фича, где можно задать авторизацию через обычную форму логина. Тоесть можно проиндексировать закрытые сайты, от которых есть логин и которые обычные SE посмотреть не могут. Да и для документов очень полезная штука.
Мммм… Ну для «напоиграться» для 1 человека или маленькой фирмы — можно, но скорее всего им хватит и 50К документов. Поиск масштаба предприятия на неподдерживаемом решении никто делать не будет.
А что касается горячих голов… Ну так не Гуглом единым. Есть Apache Solr, к нему куча краулеров — и родной Nutch и сторонние. Все опенсорс, развивается уже почти 10 лет. На основе Lucene можно легко какую нить децентрализованную систему замутить, хотя их и так хватает…
А что касается горячих голов… Ну так не Гуглом единым. Есть Apache Solr, к нему куча краулеров — и родной Nutch и сторонние. Все опенсорс, развивается уже почти 10 лет. На основе Lucene можно легко какую нить децентрализованную систему замутить, хотя их и так хватает…
Интересно, что гугл до сих пор хостит vgsa_20090210.7z.
Спросонья мозг не совсем корректно работает. Пришла мысль, почему образ VGSA лежит на серверах Гугла.
А может это изощренный способ хантинга умных программистов?
Типо, залез во внутренности песочницы Гугла 2009 года… сделал чего нибудь эдакое, а потом где нибудь в коде находишь, ну или через web морду выдается: «Ваша кандидатура крайне заинтересовала нас. Напишите нам на job@google.com с пометкой Hack VGSA».
А может это изощренный способ хантинга умных программистов?
Типо, залез во внутренности песочницы Гугла 2009 года… сделал чего нибудь эдакое, а потом где нибудь в коде находишь, ну или через web морду выдается: «Ваша кандидатура крайне заинтересовала нас. Напишите нам на job@google.com с пометкой Hack VGSA».
то есть питоновский код там не скомпилированный?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
GSA: Препарируем Google Search Appliance в виртуальной машине