Pull to refresh
513
0
Слава Вишняков @yoihj

Нагруженные бэкэнды

Send message
Так, ладно, попробуем по делу. Выгода от iframe+javascript сомнительная:
1) Вы не можете контроллировать ползователей
2) Вы не можете защититься от того, что пользователь Вам вернет ядовитые данные, вместо реальной обработоки целевого URLа (Снять квартиру в районе «buy viagra www_spam-site.spam» за «buy viagra» рублей в месяц).
2а) Вам вообще могут не те резльутаты возвращать
3) Вас могут (справедливо) занести в тот же Safe Browsing API за то, что во фрейме какой-нибудь вирус откроется

и главное — не видел я сайтов (особенно крупных и которые имеет смысл парсить) которые бы не были в достаточной степени видны, БЕЗ Javascript, так что в чем выгода этого метода — я вообще не понимаю. Ваш программист знает только Javascript?

Далее, Вы не можете спокойно запустить 100 компьютеров вместо того чтобы ждать 10 посетителей… а когда поток посетителей кончится — предприятию вообще конец?

И главное «на разбор одного предложения требуется минута»… я не знаю что такое «предложение», но предполагая что это «страница» — это просто жесточайшее нецелесообразное использование компьютерного времени. Тот же CURLMulti + какой-нибудь lxml позволят Вам обрабатывать сотню страниц в СЕКУНДУ на ОДНОЙ машине, что в несколько тысяч раз быстрее чем Javascript -метод.

Заходить на Ваш сайт не будь я под Linux и Chrome — было бы страшно — кто его знает чего там во фрейме начнет открываться.

А уж вирусораспространителям такой сайт просто радость — делай сайты с вирусованным Javascript тоннами, и натравливай Ваших посетителей на них.
Источник подобных сведений?..
Chrome в девелоперской консоли (справедливо) жалуется что cross-domain policy Вы не учитываете. Собственно я так понял он вообще ничего не делает.

Unsafe Javascript attempt to access frame with URL www.maperty.ru/ from frame with URL maperty-robot.appspot.com/374854. Domains, protocols and ports must match.

Uncaught Error: Too much time spent in unload handler.
«За оскорбление репутации и попытку принудить к действию или бездействию в отношении хозяйственной деятельности со стороны третьих лиц я думаю можно счёт выставить соразмерный с нашим годовым оборотом. „

А можно это перевести на русский?.. Хочется понять смысл, но, прочитав 5 раз, так и не понял.
«Распознавание объектов на видео в реальном времени»

Ubuntu.
В Chrome ничего вообще там не происходит, кроме воспроизведения видео.
В Firefox показывается первые полсекунды видео, потом тишина, видео висит, меняется только надпись FPS и какая-то кардиограмма красно-зеленая ползет справа вверху.

Что там вообще хоть происходить-то должно?..
Если честно — мне эту статью было писать лень уже год, наверное, я все ждал когда кто-нибудь это сделает. :) Но не дождался.
А Вы строку 14 не пропустили при просмотре?
И даже если быть еще точнее — я считал н-граммы (словосочетания), вот поэтому у меня сотни миллионов и выходили.
Хмм, Вы правы, там должно быть миллионы. Точнее говоря, сотни миллионов — я не исключал цифры и слова с цифрами, так что у меня получались сотни миллионов уникальных. Исправлю. Спасибо.
Ну как бы я сказал «миллиарды слов», а не «уникальных» :)
Хотя она, скорее всего, все же на потоках.
Тогда Вы можете использовать Hadoop Streaming. Там по сути отдельно компилируется map, отдельно reduce, вход у обоих — stdin, выход — stdout. Компилировать на каком угодно языке можно. А Hadoop — он не только по процессам разделен — а может даже и по машинам.
Ну если Microsoft недавно запатентовала процесс выключения операционки, то чему удивляться. :)
www.conceivablytech.com/2530/products/microsoft-patents-operating-system-shutdown/
Не, просто это слово, которое всегда в словарях английского первым попадалось :) Честно говоря что такое aardvark в компьютером смысле я даже и не знаю.

А Википедию я в других целях парсил — об этом тоже писал на Хабре в паре топиков "Толпы против Веб — 2:0"
Они его в 2004 опубликовали еще. Многие фирмы держат защитные патенты — типа «не судись со мной, а то я их достану и тебя засужу». А так вопрос отмены software patents — уже который год ОЧЕНЬ ГОРЯЧИЙ.
Ы — это круто :)

А вообще лучше конечно practical computer science. Такого вот уровня объяснения нужны: www.youtube.com/watch?v=0PahtaFK640 Кстати, пошел смотреть это именно после статьи про формат JPEG, где упоминались коды Хафмана, которые я так и не понимал что такое. Посмотрел — все понял.

А так да — такие статьи нужны! :)

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Date of birth
Registered
Activity