Да, такая штука по умолчанию у меня в HTC Desire. Честно сказать — Swype ее кушает на завтрак по скорости и точности. Так что Гуглу Свайп следовало бы покупать.
Не, я конечно в восторге — роботы и все такое, но они в такие здоровые дырки и так медленно паркуются, что честно говоря, выгоды для любого, кто хотя бы год за рулем отсидел — не вижу.
Споры относительно семантики (определения что понимать под словом) являются одними из тех споров, в которых не рождается истина. И в них никто ничего не выигрывает.
Собственно я о том, что гиганты наверняка уже используют подобные системы in-house, так что им покупать это нафиг не надо, у них своих систем слежения хватает.
Автор, а чем Вас не устроили распределенные базы данных ключ-значение (thepiratebay.org-xxx.xxx.xxx.xx) тот же Византийский Паксос (Byzantine Paxos), например, устойчив к лжи и подлогу внутри сети, отказам части сети и т.п…
Проблема тут будет в том, что сквоттеры уже через час будут владеть всеми доменами, которые только хоть как-то осмысленны. Сейчас их останавливает только то, что за домены надо платить хоть сколько-то. А в такой сети какой ограниченный ресурс будет использоваться для сдерживания?
100 компьютеров позволят Вам обрабатывать примерно 170 миллионов страниц в месяц по самой консервативной оценке. Куда Вам столько? Одного VPS для Ваших целей с ушами.
У меня вон проект есть — сканирует 20000 ресурсов ежедневно (в сумме 500 000 страниц в день — ограничение искусственное, чтобы не выходить за 200 ГБ траффика в месяц, а процессор позволяет где-то в 20 раз больше делать) — ничего на одном VPS за $20 живет.
Скажите сколько Вам нужно будет посетителей привлечь, чтобы проанализировать 15 млн страниц за месяц?
«Посетители не стоят ничего.»
Кстати не продадите миллионов десять посетителей за «ничего»?
Так, ладно, попробуем по делу. Выгода от iframe+javascript сомнительная:
1) Вы не можете контроллировать ползователей
2) Вы не можете защититься от того, что пользователь Вам вернет ядовитые данные, вместо реальной обработоки целевого URLа (Снять квартиру в районе «buy viagra www_spam-site.spam» за «buy viagra» рублей в месяц).
2а) Вам вообще могут не те резльутаты возвращать
3) Вас могут (справедливо) занести в тот же Safe Browsing API за то, что во фрейме какой-нибудь вирус откроется
и главное — не видел я сайтов (особенно крупных и которые имеет смысл парсить) которые бы не были в достаточной степени видны, БЕЗ Javascript, так что в чем выгода этого метода — я вообще не понимаю. Ваш программист знает только Javascript?
Далее, Вы не можете спокойно запустить 100 компьютеров вместо того чтобы ждать 10 посетителей… а когда поток посетителей кончится — предприятию вообще конец?
И главное «на разбор одного предложения требуется минута»… я не знаю что такое «предложение», но предполагая что это «страница» — это просто жесточайшее нецелесообразное использование компьютерного времени. Тот же CURLMulti + какой-нибудь lxml позволят Вам обрабатывать сотню страниц в СЕКУНДУ на ОДНОЙ машине, что в несколько тысяч раз быстрее чем Javascript -метод.
Заходить на Ваш сайт не будь я под Linux и Chrome — было бы страшно — кто его знает чего там во фрейме начнет открываться.
А уж вирусораспространителям такой сайт просто радость — делай сайты с вирусованным Javascript тоннами, и натравливай Ваших посетителей на них.
«За оскорбление репутации и попытку принудить к действию или бездействию в отношении хозяйственной деятельности со стороны третьих лиц я думаю можно счёт выставить соразмерный с нашим годовым оборотом. „
А можно это перевести на русский?.. Хочется понять смысл, но, прочитав 5 раз, так и не понял.
«Распознавание объектов на видео в реальном времени»
Ubuntu.
В Chrome ничего вообще там не происходит, кроме воспроизведения видео.
В Firefox показывается первые полсекунды видео, потом тишина, видео висит, меняется только надпись FPS и какая-то кардиограмма красно-зеленая ползет справа вверху.
Хмм, Вы правы, там должно быть миллионы. Точнее говоря, сотни миллионов — я не исключал цифры и слова с цифрами, так что у меня получались сотни миллионов уникальных. Исправлю. Спасибо.
Тогда Вы можете использовать Hadoop Streaming. Там по сути отдельно компилируется map, отдельно reduce, вход у обоих — stdin, выход — stdout. Компилировать на каком угодно языке можно. А Hadoop — он не только по процессам разделен — а может даже и по машинам.
Не, просто это слово, которое всегда в словарях английского первым попадалось :) Честно говоря что такое aardvark в компьютером смысле я даже и не знаю.
А Википедию я в других целях парсил — об этом тоже писал на Хабре в паре топиков "Толпы против Веб — 2:0"