Pull to refresh
18
0
Vladimir Bilonenko @citycat

User

Send message
Я из графиков вижу что на маленьких файлах быстрее синхронный код, а на больших readFile-and-sync-chain.js
который не должен быть быстрей readFile.js

В чем подвох?
Полностью поддерживаю автора – информационная экономика не может строится на тех же принципах, что и натуральная.

Приведу простой пример:

1. У меня есть буханка хлеба, у вас 1$. Мы совершаем обмен. Теперь у меня нет хлеба но есть 1$ А у вас нет 1$, но есть хлеб.

2. Я написал программу, и продал её вам за 10$. Что выходит? У вас нет 10$ но есть программа. А у меня есть и программа и 10$

Нематериальные вещи не могут продаваться как материальные. Поэтому возникает пиратство, как неизбежность.

Многие компании выдают нематериальное за материальное, облекая программы в боксы с дисками, а литературные произведения в бумажку с обложкой. Но скоро все придут к пониманию, что создание информационного контента может оплачиваться не иначе как услуга(!). Покупая книгу вы должны платить за краски и бумагу, а издательство должно платить писателю за написание произведения, которое позволит продать эти краски с бумагой.

В патенте не указано напрямую может гугл обходится без структурированого источника или нет. Я предположил (!) что НЕ может. И мое предположение подтвердилось рядом наблюдений, в том числе ошибками в поиске.

Поскольку моё утверждение объясняет результаты выдаваемые гуглом, я считаю что прав.

Вы утверждаете что Гугл геокодирует все подряд страницы, и если вышло, добавляет в local DB. Хорошо, докажите свое мнение аргументировано:

1. Объясните ошибки из примеров в статье
2. Объясните почему гугл выдает меньше результатов чем сервис на основе Google API
3. Приведите пример результата который мог получится только из неструктурированного источника
4. Объясните как кластеризируются веб-страницы (в патенте только про кластеризацию структурированных данных)

И тогда я с удовольствием исправлю статью.
Отлично, идем дальше.

Мы с вами вместе читали патент. Возьмем следующий пример: я в своем ЖЖ пишу что отныне я по адресу Пушкина 26 открываю подпольное кафе.

Эта информация попадет в local DB? Если попадет, то как? (желательно с ссылкой на патент или другой источник)
Окей мы сошлись на том что поиск ведется не веб-индексу, а по local DB, которая строится указанным в патенте методом?
Google или Яндекс в поте лица пишут конвертеры и заключают договора со всевозможными страницами разной степени желтизны, ибо такой процесс не scalable, на это не хватит никаких ресурсов.

Согласен что это не scalable, поэтому и работаю над вышеупомянутым сервисом.
«гугл может запросто сделать то же самое» — а где пруф линк, что он так делает?

Конечно он мог бы, но там все не просто, потому что если на странице есть слово «банкомат» и некий адрес, это вовсе не значит что они связанны.

Вообще не понимаю почему мы спорим. Google Maps ищет по каталогу (local DB), а не по индексу веб-страниц. Есть патент где описано откуда в этом каталоге данные.

Поэтому я предлагаю вам привести источник где описано что Google Maps умеет находить что-то исходя только из неструктурированных данных, и описано как он это делает. Или дискуссия не имеет смысла.
Конечно, эта информация была взята из коммерческой базы или онлайн-каталога )) Обратите внимание на следующие вещи:

1. У Яндекса (который покупает базы и указывает поставщика) есть данные про этот банкомат
2. Страница-источник (http://www.raiffeisen.ru/) указанная Гуглом, напротив, не содержит данных про этот банкомат, (как же гугл с неё взял данные ?)

Я вам предлагаю вместо того, чтобы строить предположения о том как Google «выгрызает» данные из веб страниц, написать об этом статью в этот же блог (с указанием источников)

Буду признателен и обещаю плюсовать ))
Компания не попадает в каталог Google пока её адрес не будет определен через структурированный источник. А потом, да, информация дополняется из «интернет».

Но если компании нет в структурированном источнике, её нет в выдаче.

Смотрите, вот сравнение результатов по запросу «спортзал» в Google Maps и в сервисе, который ищет геоданные непосредственно в веб, используя Гугловский же Search API (работает только для Киева, его пишу я)



Как вы объясните разницу в количестве результатов?
По поводу Википедии, я не могу привести ссылку на источник, поэтому будем считать это моей догадкой. Но вот (http://www.geonames.org/wikipedia/), например ребята парсят дампы википедии и показывают на гугл картах. В общем вариантов попадания этих данных в каталог Google много.

Что касается памятника и турфирм, то алгоритм описан в патенте, ссылка в статье.

А можно поинтересоваться, какую точку зрения вы отстаиваете?
веб-сайты содержащие крупные каталоги компаний; данные с этих сайтов забираются индивидуальным краулером, который регулярными выражениями выпарсивает информацию со страниц каталога

В частности для Википедии Google парсит дампы (http://download.wikimedia.org/), где в wiki разметке содержатся координаты

Поэтому, когда для предприятия определены основные поля (название, адрес, номер телефона), осуществляется веб-поиск по запросу:
название_предприятия+адрес_предприятия
и найденные страницы (а главное ключевые слова из найденных страниц) ассоциируются с данными о компании.

Именно так левая турфирма (попавшая в каталог из структурированного источника) оказалась в выдаче при поиске памятника
Не знаю. Знаю что данные с сайтов использующих Map API утекают в базу Google. Но как именно — трудно сказать.
Если внимательно просмотрите статью, то заметите, что я указал еще ТРИ структурированных источника данных кроме LBC. Это должно ответить на ваш вопрос.

Возможно, для Киева у Google Maps меньше данных и поэтому легче найти узкие места в выдаче. Но я не думаю что есть разница в алгоритме.
Действительно mapia находит только «спорт зал» (раздельно).
Спасибо за рекламу, но mapia и maplos проекты не того масштаба, да и задачи у них разные.
Так и есть
… самое важное, чтобы эта информация попала в один (а лучше в несколько) структурированных источников … Единственное известное место, это Google LBC.

Но как сделать, чтобы ваша компания была на первой странице по определенному запросу?

И с другой стороны, представьте что Google (веб-поиск) будет находить только те страницы, которые вы добавили через Webmaster Tools
А в чем технологическое преимущество Mapia.ua над Google Maps?
Узнал новое, хоть и был на семинаре))

Спасибо, что вспомнили про наш «забавный» проект maplos.com, отлично всё описали!
Да вот мне как раз и интересно, в странах где развито IT образование у разработчиков такой же подход?
Написать вопрос меня натолкнула проблема с %2F в апаче. Так вышло что за долго времени эта проблема мне не разу не попадалась. Я сначала вошел в ступор, потом разобрался. А прочитай я хоть раз документацию, то знал бы сразу.

В HTML был как пример мастноу технологии. В нём тоже были ранее неожиданности.
Вопрос связан с тем, что несмотря на длительный опыт веб разработки я периодически сталкиваюсь с неожиданностями в спецификациях и документациях самых привычных технологий и программ.

Возможно это связано с несовершенством моего подхода, а возможно это так у всех самоучек, а людей с IT образованием всё не так. Хотя не уверен что у нас (в Украине) ксть такое образование

Information

Rating
Does not participate
Location
Киев, Киевская обл., Украина
Works in
Date of birth
Registered
Activity