All streams
Search
Write a publication
Pull to refresh
112
0
Дмитрий Думанский @doom369

Гребец и на дуде игрец

Send message
А что используется для распознавания речи? Тоже какой-то опенсорсный движок?
Движок используем один из опенсорсных

Какой именно, если не секрет? Планируете ли открывать код?
Ну я по опыту могу сказать, что благодаря, например, spring-data огромное количество кода вообще не нужно писать. Так что да — в большинстве случаев ORM оправдан. Еще и учитывая тот факт, что большинство проектов до прода вообще не доходит.
Очевидно, написать 100% кода на ORM, а потом 20% переписать — дешевле чем сразу написать 100% нативным SQL.
Согласен, с «на порядок» переборщил.
Будет создан новый объект строки с новой цепочкой символов внутри.
Какой объем данных хранится в Redshift? Сколько новых данных приходит в день?
Мы решали похожую задачу. Есть 200к точек. Нужно найти ближайшую точку для пользователя в заданном радиусе.

Создание дерева 2сек, 30к выборок == 1 сек на моем слабеньком ноуте. Писали на Java, использовали готовое KD-tree. Реализация решения заняла 2 часа.

Нас производительность устраивала, потому не оптимизировали. Но путей для оптимизации там море. Уверен, что вполне можно было бы подобраться к Вашему решению, может как-то выделю время…
Интересно… У меня следующие вопросы:
0) Правильно ли я понял — нагрузку можно создавать из нескольких машин и получать результаты на одной?
1) Какую максимальную нагрузку можно создать с одной машины, например — количество http реквестов в секунду в 1 поток, 100, 500 (можно любую из ваших в пример)?
2) Какое максимальное количество потоков можно создать на одной машине для имитации конкурентных пользователей?
3) Есть ли поддержка https?
Интересно, у нас все это сейчас делается баш скриптами (копирование логов из серверов в hdfs, где начинается обработка). Правда после прочтения я таки не уверен, что оно того стоит, слишком уж сложно выглядит.
Байт код сгенерируется. Но потом — во время выполнения, на этапе оптимизации, вполне может выкинуть.
Может уже позновато — какая у вас нагрузка на Редис и время ответа?
Очень похоже на задачу, которую может решить lucene/solr, нет?
Ну так вопрос вдругом — зачем тут хадуп?
Хороший пример, тут даже нечего возразить. Лишь вопрос по «миллион Regexp» — рилли? Что за задача, если не секрет?
Задача очень расплывчата, но это и не важно — Вычитали множество логов, распарсили. Создали мапу, как ключ положили Field_A, значение — лог. Проитерировались по коллекции логов, проверили вхождение в мапе Field_X — если нашли, положили в аутпут.

Если миллион записей — ~500мб на диске, в памяти это займет ~1ГБ. Алгоритму нужно вдвое больше. Вам надо 2 ГБ оперативы. Простой джарник запроцесит такой объем за несколько десятков секунд, а то и меньше в зависимости от железа. В то время как на поднятие хадуп нод уйдет от 5 мин.
Было бы не плохо, если бы Вы подкрепили свое высказывание реальным примером. Ну например, вот кусок данных и с ними надо сделать то-то.
Хорошо, можете привести пример этого маленького кусочка и задачу по обработке, которая ставилась?
Давно ждал эту статью. Особенно после спора на форуме что 10-ки ГБ в день это много данных и как раз для хадупа =).
Никак. Я профайлил отдельно мап и редюс методы в юнит тестах с продакшн логами. По ним смог определить узкие места нашего кода. Что касается более сложных задач — например, распределения ключей по редюсам, то для этого использовалась мониторилка самого хадупа. По ней четко можно понять где именно проблема и туда уже копать в каждом конкретном случае.

Information

Rating
Does not participate
Location
Киев, Киевская обл., Украина
Registered
Activity