Comments / Profile of doom369 / Habr

Дмитрий Думанский @doom369

Гребец и на дуде игрец

ProfileArticles19PostsNewsComments502

Домашний робот: от идеи к продукту

doom369 May 14 2014 at 15:41

А что используется для распознавания речи? Тоже какой-то опенсорсный движок?

Look

Домашний робот: от идеи к продукту

doom369 May 14 2014 at 15:15

Движок используем один из опенсорсных

Какой именно, если не секрет? Планируете ли открывать код?

Look

Oracle выиграла аппеляцию против Google

doom369 May 12 2014 at 11:19

Ну я по опыту могу сказать, что благодаря, например, spring-data огромное количество кода вообще не нужно писать. Так что да — в большинстве случаев ORM оправдан. Еще и учитывая тот факт, что большинство проектов до прода вообще не доходит.

Look

Oracle выиграла аппеляцию против Google

doom369 May 11 2014 at 08:20

Очевидно, написать 100% кода на ORM, а потом 20% переписать — дешевле чем сразу написать 100% нативным SQL.

Look

Изменения в String. Java 7

doom369 Apr 16 2014 at 16:12

Согласен, с «на порядок» переборщил.

Look

Изменения в String. Java 7

doom369 Apr 16 2014 at 15:55

Будет создан новый объект строки с новой цепочкой символов внутри.

Look

Как устроена инфраструктура обработки данных Sports.ru и Tribuna.com?

doom369 Apr 4 2014 at 19:42

Какой объем данных хранится в Redshift? Сколько новых данных приходит в день?

Look

Использование квадродеревьев при расчёте пробок 2ГИС

doom369 Dec 12 2013 at 16:06

Мы решали похожую задачу. Есть 200к точек. Нужно найти ближайшую точку для пользователя в заданном радиусе.

Создание дерева 2сек, 30к выборок == 1 сек на моем слабеньком ноуте. Писали на Java, использовали готовое KD-tree. Реализация решения заняла 2 часа.

Нас производительность устраивала, потому не оптимизировали. Но путей для оптимизации там море. Уверен, что вполне можно было бы подобраться к Вашему решению, может как-то выделю время…

Look

Наши танки. История нагрузочного тестирования в Яндексе

doom369 Nov 14 2013 at 17:27

Интересно… У меня следующие вопросы:
0) Правильно ли я понял — нагрузку можно создавать из нескольких машин и получать результаты на одной?
1) Какую максимальную нагрузку можно создать с одной машины, например — количество http реквестов в секунду в 1 поток, 100, 500 (можно любую из ваших в пример)?
2) Какое максимальное количество потоков можно создать на одной машине для имитации конкурентных пользователей?
3) Есть ли поддержка https?

Look

Hadoop, часть 2: сбор данных через Flume

doom369 Nov 7 2013 at 19:07

Интересно, у нас все это сейчас делается баш скриптами (копирование логов из серверов в hdfs, где начинается обработка). Правда после прочтения я таки не уверен, что оно того стоит, слишком уж сложно выглядит.

Look

FindBugs против CDK

doom369 Oct 24 2013 at 20:32

Байт код сгенерируется. Но потом — во время выполнения, на этапе оптимизации, вполне может выкинуть.

Look

Redis in production

doom369 Oct 23 2013 at 14:05

Может уже позновато — какая у вас нагрузка на Редис и время ответа?

Look

Вам не нужен Hadoop — у вас просто нет столько данных

doom369 Sep 21 2013 at 06:16

Очень похоже на задачу, которую может решить lucene/solr, нет?

Look

Вам не нужен Hadoop — у вас просто нет столько данных

doom369 Sep 20 2013 at 18:50

Ну так вопрос вдругом — зачем тут хадуп?

Look

Вам не нужен Hadoop — у вас просто нет столько данных

doom369 Sep 20 2013 at 18:00

Хороший пример, тут даже нечего возразить. Лишь вопрос по «миллион Regexp» — рилли? Что за задача, если не секрет?

Look

Вам не нужен Hadoop — у вас просто нет столько данных

doom369 Sep 20 2013 at 17:52

Задача очень расплывчата, но это и не важно — Вычитали множество логов, распарсили. Создали мапу, как ключ положили Field_A, значение — лог. Проитерировались по коллекции логов, проверили вхождение в мапе Field_X — если нашли, положили в аутпут.

Если миллион записей — ~500мб на диске, в памяти это займет ~1ГБ. Алгоритму нужно вдвое больше. Вам надо 2 ГБ оперативы. Простой джарник запроцесит такой объем за несколько десятков секунд, а то и меньше в зависимости от железа. В то время как на поднятие хадуп нод уйдет от 5 мин.

Look

Вам не нужен Hadoop — у вас просто нет столько данных

doom369 Sep 20 2013 at 04:10

Было бы не плохо, если бы Вы подкрепили свое высказывание реальным примером. Ну например, вот кусок данных и с ними надо сделать то-то.

Look

Вам не нужен Hadoop — у вас просто нет столько данных

doom369 Sep 20 2013 at 04:07

Хорошо, можете привести пример этого маленького кусочка и задачу по обработке, которая ставилась?

Look

Вам не нужен Hadoop — у вас просто нет столько данных

doom369 Sep 19 2013 at 18:37

Давно ждал эту статью. Особенно после спора на форуме что 10-ки ГБ в день это много данных и как раз для хадупа =).

Look

Оптимизируем, оптимизируем и еще раз оптимизируем

doom369 Sep 4 2013 at 20:48

Никак. Я профайлил отдельно мап и редюс методы в юнит тестах с продакшн логами. По ним смог определить узкие места нашего кода. Что касается более сложных задач — например, распределения ключей по редюсам, то для этого использовалась мониторилка самого хадупа. По ней четко можно понять где именно проблема и туда уже копать в каждом конкретном случае.

Look

1 2 ...

16 17

19 20 ...

25 26