Так, ладно, попробуем по делу. Выгода от iframe+javascript сомнительная:
1) Вы не можете контроллировать ползователей
2) Вы не можете защититься от того, что пользователь Вам вернет ядовитые данные, вместо реальной обработоки целевого URLа (Снять квартиру в районе «buy viagra www_spam-site.spam» за «buy viagra» рублей в месяц).
2а) Вам вообще могут не те резльутаты возвращать
3) Вас могут (справедливо) занести в тот же Safe Browsing API за то, что во фрейме какой-нибудь вирус откроется
и главное — не видел я сайтов (особенно крупных и которые имеет смысл парсить) которые бы не были в достаточной степени видны, БЕЗ Javascript, так что в чем выгода этого метода — я вообще не понимаю. Ваш программист знает только Javascript?
Далее, Вы не можете спокойно запустить 100 компьютеров вместо того чтобы ждать 10 посетителей… а когда поток посетителей кончится — предприятию вообще конец?
И главное «на разбор одного предложения требуется минута»… я не знаю что такое «предложение», но предполагая что это «страница» — это просто жесточайшее нецелесообразное использование компьютерного времени. Тот же CURLMulti + какой-нибудь lxml позволят Вам обрабатывать сотню страниц в СЕКУНДУ на ОДНОЙ машине, что в несколько тысяч раз быстрее чем Javascript -метод.
Заходить на Ваш сайт не будь я под Linux и Chrome — было бы страшно — кто его знает чего там во фрейме начнет открываться.
А уж вирусораспространителям такой сайт просто радость — делай сайты с вирусованным Javascript тоннами, и натравливай Ваших посетителей на них.
«За оскорбление репутации и попытку принудить к действию или бездействию в отношении хозяйственной деятельности со стороны третьих лиц я думаю можно счёт выставить соразмерный с нашим годовым оборотом. „
А можно это перевести на русский?.. Хочется понять смысл, но, прочитав 5 раз, так и не понял.
«Распознавание объектов на видео в реальном времени»
Ubuntu.
В Chrome ничего вообще там не происходит, кроме воспроизведения видео.
В Firefox показывается первые полсекунды видео, потом тишина, видео висит, меняется только надпись FPS и какая-то кардиограмма красно-зеленая ползет справа вверху.
Хмм, Вы правы, там должно быть миллионы. Точнее говоря, сотни миллионов — я не исключал цифры и слова с цифрами, так что у меня получались сотни миллионов уникальных. Исправлю. Спасибо.
Тогда Вы можете использовать Hadoop Streaming. Там по сути отдельно компилируется map, отдельно reduce, вход у обоих — stdin, выход — stdout. Компилировать на каком угодно языке можно. А Hadoop — он не только по процессам разделен — а может даже и по машинам.
Не, просто это слово, которое всегда в словарях английского первым попадалось :) Честно говоря что такое aardvark в компьютером смысле я даже и не знаю.
А Википедию я в других целях парсил — об этом тоже писал на Хабре в паре топиков "Толпы против Веб — 2:0"
Они его в 2004 опубликовали еще. Многие фирмы держат защитные патенты — типа «не судись со мной, а то я их достану и тебя засужу». А так вопрос отмены software patents — уже который год ОЧЕНЬ ГОРЯЧИЙ.
А вообще лучше конечно practical computer science. Такого вот уровня объяснения нужны: www.youtube.com/watch?v=0PahtaFK640 Кстати, пошел смотреть это именно после статьи про формат JPEG, где упоминались коды Хафмана, которые я так и не понимал что такое. Посмотрел — все понял.
1) Вы не можете контроллировать ползователей
2) Вы не можете защититься от того, что пользователь Вам вернет ядовитые данные, вместо реальной обработоки целевого URLа (Снять квартиру в районе «buy viagra www_spam-site.spam» за «buy viagra» рублей в месяц).
2а) Вам вообще могут не те резльутаты возвращать
3) Вас могут (справедливо) занести в тот же Safe Browsing API за то, что во фрейме какой-нибудь вирус откроется
и главное — не видел я сайтов (особенно крупных и которые имеет смысл парсить) которые бы не были в достаточной степени видны, БЕЗ Javascript, так что в чем выгода этого метода — я вообще не понимаю. Ваш программист знает только Javascript?
Далее, Вы не можете спокойно запустить 100 компьютеров вместо того чтобы ждать 10 посетителей… а когда поток посетителей кончится — предприятию вообще конец?
И главное «на разбор одного предложения требуется минута»… я не знаю что такое «предложение», но предполагая что это «страница» — это просто жесточайшее нецелесообразное использование компьютерного времени. Тот же CURLMulti + какой-нибудь lxml позволят Вам обрабатывать сотню страниц в СЕКУНДУ на ОДНОЙ машине, что в несколько тысяч раз быстрее чем Javascript -метод.
Заходить на Ваш сайт не будь я под Linux и Chrome — было бы страшно — кто его знает чего там во фрейме начнет открываться.
А уж вирусораспространителям такой сайт просто радость — делай сайты с вирусованным Javascript тоннами, и натравливай Ваших посетителей на них.
Unsafe Javascript attempt to access frame with URL www.maperty.ru/ from frame with URL maperty-robot.appspot.com/374854. Domains, protocols and ports must match.
Uncaught Error: Too much time spent in unload handler.
А можно это перевести на русский?.. Хочется понять смысл, но, прочитав 5 раз, так и не понял.
Ubuntu.
В Chrome ничего вообще там не происходит, кроме воспроизведения видео.
В Firefox показывается первые полсекунды видео, потом тишина, видео висит, меняется только надпись FPS и какая-то кардиограмма красно-зеленая ползет справа вверху.
Что там вообще хоть происходить-то должно?..
imonad.com/seo/wikipedia-word-frequency-list/ — около 5 млн. уникальных
www.craighenderson.co.uk/mapreduce/
www.conceivablytech.com/2530/products/microsoft-patents-operating-system-shutdown/
А Википедию я в других целях парсил — об этом тоже писал на Хабре в паре топиков "Толпы против Веб — 2:0"
есть labs.trolltech.com/page/Projects/Threads/QtConcurrent
Сам не пробовал.
А вообще лучше конечно practical computer science. Такого вот уровня объяснения нужны: www.youtube.com/watch?v=0PahtaFK640 Кстати, пошел смотреть это именно после статьи про формат JPEG, где упоминались коды Хафмана, которые я так и не понимал что такое. Посмотрел — все понял.
А так да — такие статьи нужны! :)