How to become an author
.NET Knowledge Base
  • All streams
  • Development
  • Administrating
  • Design
  • Management
  • Marketing
  • PopSci
Log in Sign up
662.8
Karma
0.0
Rating
68
Followers
27
Following

Слава Вишняков yoihj

Нагруженные бэкэнды

Profile

Posts 34

Comments 858

Bookmarks 34

  • extsrc.js — загружаем все скрипты асинхронно и уже после отрисовки страницы (даже с document.write)
    131
    yoihj
    October 9, 2010 at 07:56 PM
    0
    defer разве работает document.write?
  • extsrc.js — загружаем все скрипты асинхронно и уже после отрисовки страницы (даже с document.write)
    131
    yoihj
    October 9, 2010 at 07:56 PM
    +1
    1. Про innerHTML я думал, но будет медленнее мне кажется. Есть какие-то аргументы в пользу?
    2. Верно — надо бы, сделаю.
  • extsrc.js — загружаем все скрипты асинхронно и уже после отрисовки страницы (даже с document.write)
    131
    yoihj
    October 9, 2010 at 07:22 PM
    0
    Пардон ;) второе — «asyncsrc».
  • Google покупает перспективный стартап BlindType
    76
    yoihj
    October 4, 2010 at 12:20 AM
    +1
    И BumpTop тоже…
  • Google покупает перспективный стартап BlindType
    76
    yoihj
    October 4, 2010 at 12:20 AM
    +3
    Да, такая штука по умолчанию у меня в HTC Desire. Честно сказать — Swype ее кушает на завтрак по скорости и точности. Так что Гуглу Свайп следовало бы покупать.
  • Google покупает перспективный стартап BlindType
    76
    yoihj
    October 4, 2010 at 12:18 AM
    +1
    Зря Вы человека заминусовали — поищите историю стартапа DodgeBall, чтобы понять о чем он.
  • Volkswagen создал систему автоматической парковки
    78
    yoihj
    September 26, 2010 at 04:30 PM
    +1
    Не, я конечно в восторге — роботы и все такое, но они в такие здоровые дырки и так медленно паркуются, что честно говоря, выгоды для любого, кто хотя бы год за рулем отсидел — не вижу.
  • Использование коэффициента Танимото для поиска людей с одинаковыми предпочтениями
    22
    yoihj
    September 25, 2010 at 03:31 PM
    +3
    упс:
    print 1. * len(critic_1 & critic_2) / len(critic_1 | critic_2)

    там "|" должно быть в знаменателе
  • Использование коэффициента Танимото для поиска людей с одинаковыми предпочтениями
    22
    yoihj
    September 25, 2010 at 03:31 PM
    +3
    "-c" в знаменателе там явно лишнее, да и делается подобный расчет куда проще с помощью setов.

      critic_1 = set(['Film A', 'Film B'])
      critic_2 = set(['Film A'])
      print 1. * len(critic_1 & critic_2) / len(critic_1 & critic_2)
    

    "1." там для того, чтобы в float расчет шел.
  • Не все лицензии Creative Commons являются свободными
    29
    yoihj
    September 22, 2010 at 11:56 PM
    0
    Споры относительно семантики (определения что понимать под словом) являются одними из тех споров, в которых не рождается истина. И в них никто ничего не выигрывает.
  • Evercookie — самые устойчивые куки
    68
    yoihj
    September 22, 2010 at 01:16 PM
    +1
    Добавил в топик, спасибо за важную находку — в самой оригинальной статье про это ни слова.
  • Evercookie — самые устойчивые куки
    68
    yoihj
    September 22, 2010 at 11:54 AM
    +1
    Добавил в статью, но откуда информация?
  • Evercookie — самые устойчивые куки
    68
    yoihj
    September 22, 2010 at 10:28 AM
    +2
    Вам не нужны. А тем, кто хочет следить за своими пользователями — нужны. Кроссбраузерность — это так больше — (не)приятная дополнительная плюшка.
  • Evercookie — самые устойчивые куки
    68
    yoihj
    September 22, 2010 at 10:27 AM
    +1
    Собственно я о том, что гиганты наверняка уже используют подобные системы in-house, так что им покупать это нафиг не надо, у них своих систем слежения хватает.
  • Evercookie — самые устойчивые куки
    68
    yoihj
    September 22, 2010 at 10:20 AM
    +2
    … вспоминая (уже потертый) топик о Steven Rambam «The next HOPE»…
  • Evercookie — самые устойчивые куки
    68
    yoihj
    September 22, 2010 at 10:18 AM
    +4
    Вы серьезно думаете, что он — первый кто до этого додумался?
  • Распределённая система имён в Интернете
    73
    yoihj
    September 22, 2010 at 10:09 AM
    +1
    Автор, а чем Вас не устроили распределенные базы данных ключ-значение (thepiratebay.org-xxx.xxx.xxx.xx) тот же Византийский Паксос (Byzantine Paxos), например, устойчив к лжи и подлогу внутри сети, отказам части сети и т.п…

    Проблема тут будет в том, что сквоттеры уже через час будут владеть всеми доменами, которые только хоть как-то осмысленны. Сейчас их останавливает только то, что за домены надо платить хоть сколько-то. А в такой сети какой ограниченный ресурс будет использоваться для сдерживания?
  • Распределённая система имён в Интернете
    73
    yoihj
    September 22, 2010 at 10:06 AM
    +3
    200млн / 100 = 2 млн строк? Ваш вопрос я так понял — куда на современном компьютере можно сохранить 20-100 мегабайт данных?
  • Мирный ботнет
    39
    yoihj
    September 9, 2010 at 05:57 PM
    +6
    «А если 100 [компьютеров] станет мало?»

    100 компьютеров позволят Вам обрабатывать примерно 170 миллионов страниц в месяц по самой консервативной оценке. Куда Вам столько? Одного VPS для Ваших целей с ушами.

    У меня вон проект есть — сканирует 20000 ресурсов ежедневно (в сумме 500 000 страниц в день — ограничение искусственное, чтобы не выходить за 200 ГБ траффика в месяц, а процессор позволяет где-то в 20 раз больше делать) — ничего на одном VPS за $20 живет.

    Скажите сколько Вам нужно будет посетителей привлечь, чтобы проанализировать 15 млн страниц за месяц?

    «Посетители не стоят ничего.»

    Кстати не продадите миллионов десять посетителей за «ничего»?
  • Непрерывное wavelet преобразование
    55
    yoihj
    September 9, 2010 at 05:47 PM
    +2
    Вот ровно те же мысли возникли при чтении — интересно, но не понятно ничего.

    И главный вопрос, который меня мучает — а где это все применяется-то вообще и как связано с тематикой Хабра?

    Насколько я помню вейвлеты в SURF применяются для анализа изображения, а тут речь про сигналы, частоты…

    Кажется они еще в распознавании лиц могут применяться, но вот глядя на вышесказанное как-то связать не могу это все.
  • Мирный ботнет
    39
    yoihj
    September 9, 2010 at 05:10 PM
    +10
    Так, ладно, попробуем по делу. Выгода от iframe+javascript сомнительная:
    1) Вы не можете контроллировать ползователей
    2) Вы не можете защититься от того, что пользователь Вам вернет ядовитые данные, вместо реальной обработоки целевого URLа (Снять квартиру в районе «buy viagra www_spam-site.spam» за «buy viagra» рублей в месяц).
    2а) Вам вообще могут не те резльутаты возвращать
    3) Вас могут (справедливо) занести в тот же Safe Browsing API за то, что во фрейме какой-нибудь вирус откроется

    и главное — не видел я сайтов (особенно крупных и которые имеет смысл парсить) которые бы не были в достаточной степени видны, БЕЗ Javascript, так что в чем выгода этого метода — я вообще не понимаю. Ваш программист знает только Javascript?

    Далее, Вы не можете спокойно запустить 100 компьютеров вместо того чтобы ждать 10 посетителей… а когда поток посетителей кончится — предприятию вообще конец?

    И главное «на разбор одного предложения требуется минута»… я не знаю что такое «предложение», но предполагая что это «страница» — это просто жесточайшее нецелесообразное использование компьютерного времени. Тот же CURLMulti + какой-нибудь lxml позволят Вам обрабатывать сотню страниц в СЕКУНДУ на ОДНОЙ машине, что в несколько тысяч раз быстрее чем Javascript -метод.

    Заходить на Ваш сайт не будь я под Linux и Chrome — было бы страшно — кто его знает чего там во фрейме начнет открываться.

    А уж вирусораспространителям такой сайт просто радость — делай сайты с вирусованным Javascript тоннами, и натравливай Ваших посетителей на них.
  • Мирный ботнет
    39
    yoihj
    September 9, 2010 at 05:01 PM
    0
    Источник подобных сведений?..
  • Мирный ботнет
    39
    yoihj
    September 9, 2010 at 05:01 PM
    0
    Chrome в девелоперской консоли (справедливо) жалуется что cross-domain policy Вы не учитываете. Собственно я так понял он вообще ничего не делает.

    Unsafe Javascript attempt to access frame with URL www.maperty.ru/ from frame with URL maperty-robot.appspot.com/374854. Domains, protocols and ports must match.

    Uncaught Error: Too much time spent in unload handler.
  • Абузы разные нужны, абузы разные важны…
    46
    yoihj
    September 8, 2010 at 11:51 PM
    0
    «За оскорбление репутации и попытку принудить к действию или бездействию в отношении хозяйственной деятельности со стороны третьих лиц я думаю можно счёт выставить соразмерный с нашим годовым оборотом. „

    А можно это перевести на русский?.. Хочется понять смысл, но, прочитав 5 раз, так и не понял.
  • Google Scribe — ваш личный писарь
    37
    yoihj
    September 8, 2010 at 03:26 AM
    0
    Гугл уже не знает чем заняться.
  • Десять вещей, которые вы не ожидали от HTML/Javascript
    41
    yoihj
    September 6, 2010 at 06:43 PM
    +1
    «Распознавание объектов на видео в реальном времени»

    Ubuntu.
    В Chrome ничего вообще там не происходит, кроме воспроизведения видео.
    В Firefox показывается первые полсекунды видео, потом тишина, видео висит, меняется только надпись FPS и какая-то кардиограмма красно-зеленая ползет справа вверху.

    Что там вообще хоть происходить-то должно?..
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 4, 2010 at 07:04 PM
    0
    Да, в принципе, можно!
  • MapReduce: более продвинутые примеры, попробуем без зауми
    7
    yoihj
    September 4, 2010 at 08:24 AM
    0
    Если честно — мне эту статью было писать лень уже год, наверное, я все ждал когда кто-нибудь это сделает. :) Но не дождался.
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 11:28 PM
    0
    А Вы строку 14 не пропустили при просмотре?
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 10:40 PM
    0
    И даже если быть еще точнее — я считал н-граммы (словосочетания), вот поэтому у меня сотни миллионов и выходили.
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 10:39 PM
    0
    Хмм, Вы правы, там должно быть миллионы. Точнее говоря, сотни миллионов — я не исключал цифры и слова с цифрами, так что у меня получались сотни миллионов уникальных. Исправлю. Спасибо.
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 10:22 PM
    0
    http://en.wikipedia.org/wiki/Wikipedia:Size_comparisons — 1.5 млрд слов
    imonad.com/seo/wikipedia-word-frequency-list/ — около 5 млн. уникальных
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 10:17 PM
    0
    Ну как бы я сказал «миллиарды слов», а не «уникальных» :)
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 09:53 PM
    0
    Хотя она, скорее всего, все же на потоках.
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 09:52 PM
    0
    И вот еще интересную штуку нашел:
    www.craighenderson.co.uk/mapreduce/
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 09:52 PM
    0
    Тогда Вы можете использовать Hadoop Streaming. Там по сути отдельно компилируется map, отдельно reduce, вход у обоих — stdin, выход — stdout. Компилировать на каком угодно языке можно. А Hadoop — он не только по процессам разделен — а может даже и по машинам.
  • «Don't be evil» по версии Эрика Шмидта
    74
    yoihj
    September 3, 2010 at 09:47 PM
    +1
    Вообще «ogle» — это скорее «глазеть», «пялиться».

    «Stop ogling at the teacher! Blink, boy!»
    www.urbandictionary.com/define.php?term=ogle
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 09:33 PM
    0
    Ну если Microsoft недавно запатентовала процесс выключения операционки, то чему удивляться. :)
    www.conceivablytech.com/2530/products/microsoft-patents-operating-system-shutdown/
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 09:32 PM
    0
    Не, просто это слово, которое всегда в словарях английского первым попадалось :) Честно говоря что такое aardvark в компьютером смысле я даже и не знаю.

    А Википедию я в других целях парсил — об этом тоже писал на Хабре в паре топиков "Толпы против Веб — 2:0"
  • MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)
    53
    yoihj
    September 3, 2010 at 09:29 PM
    0
    Судя по ru.wikipedia.org/wiki/MapReduce
    есть labs.trolltech.com/page/Projects/Threads/QtConcurrent
    Сам не пробовал.
  • ← here
  • there →
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

Info

  • Rating 5,974–th
  • Date of birth January 23, 1983
  • Activity 11/4/16, 4:41 PM
  • Registered April 10, 2008

Contribution to hubs

  • Information Security 310
  • Working with 3D-graphics 262
  • Opera 205
  • Algorithms 203
  • JavaScript 143
  • Antivirus protection 137
  • C++ 129
  • Website development 125
  • IT-companies 108
  • Hosting 95

Your account

  • Log in
  • Sign up

Sections

  • Posts
  • Hubs
  • Companies
  • Users
  • Sandbox

Info

  • How it works
  • For Authors
  • For Companies
  • Documents
  • Agreement
  • Terms of service

Services

  • Ads
  • Subscription plans
  • Content
  • Seminars
  • Megaprojects
© 2006 – 2021 «Habr»
Language settings
About
Support
Mobile version
Language settings
Interface
Content