Комментарии / Профиль stab / Хабр

stab@stab

Пользователь

ПрофильСтатьи8ПостыНовостиКомментарии440

Hetzner dedicated или в поисках дешевого хостинга

stab 25 мар 2011 в 07:27

Мне они вместо i7-920 выдали i7-930 — мелочь, а приятно.

Google представил интернет-издание Think Quarterly

stab 25 мар 2011 в 07:13

Дык там и читать нечего, обычный «глянец», который тоннами лежит парикмахерских, кофейнях, т.д.

MinHash — выявляем похожие множества

stab 9 мар 2011 в 12:56

А какие алгоритмы есть для поиска похожих множеств? Актуальная для меня тема.

MinHash — выявляем похожие множества

stab 9 мар 2011 в 11:14

Вначале описан коэффициент Жаккара, у него именно такое поведение, плюс, не самые лучшие хэш-функции, на коротких словах плохо себя ведут.

MinHash — выявляем похожие множества

stab 9 мар 2011 в 10:56

Потому что это так для поиграться сделано, на слова разбивается просто по пробелам. Знаки препинания как часть слова в этом случае воспринимаются или как отдельное слово.

«Aliketo» — ищет похожие вещи, и даже иногда находит, но только на английском

stab 5 мар 2011 в 08:38

Ну а чё, похожи :D

«Aliketo» — ищет похожие вещи, и даже иногда находит, но только на английском

stab 5 мар 2011 в 08:33

А что там? Оно просто самообучается постоянно, у меня:

obama
putin
dobby

«Aliketo» — ищет похожие вещи, и даже иногда находит, но только на английском

stab 4 мар 2011 в 16:28

Ага, зомби ему покоя не дают. Попробуй «flower» ввести. Надеюсь, со временем самообучится :)

«Aliketo» — ищет похожие вещи, и даже иногда находит, но только на английском

stab 4 мар 2011 в 15:37

Вижу, что ищут одной строчкой «мир, труд», так не работает. Так работает:

мир
труд

Цирк уехал. Что делать тем, кто остался? (По следам 4-го Стартап-Уикенда в Москве)

stab 14 фев 2011 в 15:17

А что у вас за проект? Думаю, стоит ли со своим соваться.

Есть ли практический смысл использовать для итераторов префиксный оператор инкремента ++it, вместо постфиксного it++

stab 13 фев 2011 в 13:24

Не считаю это оптимизацией, тем более преждевременной. Всегда пишу ++smth, если не нужно предыдущее значение и smth++, если нужно. В циклах for оно, как правило, ни к чему, поэтому ++smth. Просто, хороший тон, имхо.

Где-то видел ещё замеры скорости компиляции для разных случаев, если уж совсем с ума сходить :)

«Просконс» — выбираем электронику

stab 7 фев 2011 в 11:46

Этот пост на Хабре + контекстная реклама через АдВордс, ну и ссылочки раздаю всем при возможности. Пока больше никак.

Реляционные базы данных обречены?

stab 28 янв 2011 в 11:02

В самом плохом случае вам дают просто key-value хранилище, в котором можно хранить всё что угодно. Данные режутся на небольшие блоки и по ключу автоматом раскидываются по серверам. Дальше крутитесь как хотите :)

В зависимости от реализации могут быть всякие плюшки, вроде раздельного хранения атрибутов в value или хранения в каждом атрибуте списка атрибутов. Могут быть даже индексы, но это совсем не правило. В той же Кассандре, которую фейсбук использует, индексы появились совсем недавно, а в Гипертейбл их просто нет.

Но за все плюшки надо платить, скажем обычно индекс должен жить только на одном сервере, репликация есть, но нет распределённых индексов. В Монго вообще забава, индекс должен влезать в оперативку, не влезает — всё извините, живите без индекса. Хотите возможность перебирать данные по ключу в порядке возрастания значения ключа, теряете в распределении нагрузки по серверам. Хотите хранить большое кол-во атрибутов по каждому ключу, готовьтесь к построению субиндексов по их именам, благо это делается автоматом при большом кол-ве атрибутов, но они начинают жрать память даже когда не нужны, т.к. становятся частью значения.

Скорость появляется в тех задачах, где достаточно исользования key-value хранилища, как key-value хранилища. Плюс к этому, полная согласованность данных не гарантируется, а иногда вовсе понижается до того, что только один сервер в кластере может иметь актуальные данные. Поэтому, запись в базу может выглядеть просто как сохранение в оперативку с отложенной на неизвестный срок репликацией — соответсвенно, скорость при «записи» очень большая.

Если сравнивать с РСУБД, где всё предсказуемо, то пока nosql это зыбучие пески, но это моё мнение. Особняком стоит Редис — сервер структур данных, имхо, в нём есть некоторые просчёты, но сама идея выносить реализацию и хранение структур данных очень притягательная. Короче много всего у nosql, и плюсов и минусов, долго и лень писать, сотрясая воздух :)

Реляционные базы данных обречены?

stab 28 янв 2011 в 08:56

Там просто нет индексов, доступ возможен только по «первичному ключу». Если нужны выборки по значениям данных, то либо руками строить индексы, либо использовать встроенные возможности, которые не везде есть. В результате, скорость аналогичная РСУБД и геморрой. В этом, извините, заключается жопа nosql решений.

-4

Алгоритм для выявления сообществ в больших сетях

stab 27 янв 2011 в 07:53

К сожалению задачка NP-сложная, рисовать будет годами, да и формализовать постановку сложно. Данные многомерные, измерений по количеству вершин, и не факт что есть какая-то красивая «проекция» на плоскость. Поэтому чаще задачу переформулируют как «нарисовать прикольный граф», и тут уже начинаются эвристики и прочее :)

Пять инноваций будущего по версии главного астролога IBM

stab 22 янв 2011 в 11:15

Хм, вариант. Вот и посчитали :)

Пять инноваций будущего по версии главного астролога IBM

stab 22 янв 2011 в 10:38

Если совсем с ума сходить, можно посчитать теоретический минимум необходимой энергии для сохранения и изменения состояния одного бита информации. Но можно проще, посчитать относительный КПД, скажем P4 выдавал порядка 10k MIPS, а тот же i7 выдаёт порядка 50k MIPS при сравнимом тепловом пакете — КПД в 5 раз больше.

Фильтр Блума

stab 18 янв 2011 в 17:06

Почитал, на сколько я понял, фильтр Блума там используется для быстрой проверки на отсутствие слова в словаре исключений. А сами словари в виде trie представлены.

Фильтр Блума

stab 18 янв 2011 в 14:44

Плин, «ниже определённого потолка».

Фильтр Блума

stab 18 янв 2011 в 14:37

Честно говоря, долго пытался придумать пример наглядно показывающий, почему при одном массиве и нескольких функциях эффективность выше, чем при одном массиве и одной функции. Ни одной интуитивно понятной аналогии мне так в голову и не пришло, поэтому решил об этом не писать.

Фишка в том, что при заданной вероятности ложного срабатывания, одной функии и конечном кол-ве элементов, которые предполагается запомнить фильтром, эффективность фильтра ниже, поскольку все те «избыточные» биты, которые были введены для удерживания кол-ва ошибок выше определённого потолка, «никак» не используются.

Если ввести вторую функцию, то эти «неиспользуемые» биты разделяются между ними, при этом кол-во необходимых бит на ключ растёт линейно, а точность экспоненциально.

1 2 3 4

6 7 ...

21 22