Pull to refresh
21
0
Send message
Кстати да, вспомнил, была и потеря данных в кластере cassandra… тогда на одной ноде закончилось место на диске, насколько я помню… Но было печально, конечно
Честно говоря на тот момент не сталкивался с необходимостью реплицирования по ДЦ, хотя было бы здорово, конечно.

Про то, почему её перестали использовать в фейсбуке — всегда было любопытно:)) взяли и отказались от своего же детища…
Его тоже никто не рассматривал, так как данные, которые мы хранили были бинарными. Поиск был по первым байтам ключа и по диапазонам байтов ключей. Насколько хватает моего опыта общения с sphinx, он не позволит делать запрос по бинарным диапазонам, верно?
Я тоже был очень расстроен первым знакомством:( Еще задолго до того, как появилась возможность её опробовать, мне понравилась эта статья, я начал читать о ней и верил в эту бд. Кстати, мой коллега попытался прикособочить к этой системе leveldb в качестве движка хранения данных и счастья также не испытал…
На первом проекте уже всё было хорошо, ущемлённым себя не чувствуешь:) На втором проекте была только парочка небольших открытий, но в целом всё было уже известно.

Я имел в виду, что mongodb — это всё-таки другая парадигма, а mysql и oracle для меня на тот момент были гораздо более известными субд, кроме того mysql уже был поставлен на серверах, куда я должен был поставить разработки. Еще там был инцидент: админы установили версию mongo 1.8 и при тестировании сервер заглючило и данные были потеряны… благо тестовые. Но версия > 2 уже почти не имеет такой неприятности:)

Вы правы, количество строк — это не всё. Там нужна была высокая скорость записи (~30-40 тыс. в секунду), с которой была проблема у mysql, а вот чтений было очень мало.
Скорее: почему нужно нанимать прежде всего человека, который работал с большими объёмами данных, если такая работа предполагается:)
Полностью согласен. В статье не написал про еще одно важное преимущество sql — огромнейшее сообщество.
К сожалению монго мы тогда использовали в других целях, для индексации данных его всерьёз никто не рассматривал.

Когда я пришёл, уже было желание использовать либо cassandra, либо riak, либо hbase. Hbase почему-то до меня был признан медленным, так что выбор был небольшой. А потом уже, когда первое решение на cassandra было готово, мы использовали mongodb для фронтенда.
Суть в том, что когда сталкиваешься с проблемой, решение которой нельзя нагуглить, хочется попробовать серебряную пулю, которую все так расхваливают. Ведь хочется верить, что всё будет просто и красиво. Такая вот последняя надежда:)

В качестве how to могу описать построение tf-idf и обратного индекса. Это будет скорее теоретический поисковый индекс, а не реальный, но должно быть показательно. Сойдёт? А вот с практической точки зрения: у нас он используется сейчас для всего: обсчёт логов, обработка данных, хранение.

Про организацию кластера есть хороший доклад с форума технологий mail.ru.
Статью прочитал и как-то приятно стало, что что-то делается. А прочитал комменты и…

А всё-таки, кто «в теме», ну неужели там действительно только школа продажников и ничего больше?

p.s. справедливости ради, услышал недавно про школу сколково… позабавили слова «прибыльно», «практически благотворительность» и «100 тысяч долларов за обучение»… я думал благотворительность выглядит как-то иначе

Information

Rating
Does not participate
Registered
Activity