catap Sep 12 2014 at 09:28

Data Mining Hub, глазами ученых

4 min

3.6K

Comments 12

grinCo Sep 12 2014 at 09:57

Я так понимаю, на один заказ могут 10 разработчиков предложить свое решение, и только один из них получит оплату. А 9 потратили кучу времени просто так. Мне кажется, что работать без оплаты согласятся только новички для получения опыта.

catap Sep 12 2014 at 10:01

В этом плане опыт Kaggle показывает что люди готовы :)

Мы подошли к вопросу баланса прав между учеными и заказчиками с позиции защиты прав ученых.

OLS Sep 12 2014 at 10:39

Какие преимущества над тем же kaggle-ом Вы пытаетесь получить, установив такое жесткое ограничение на архитектуру?
Из описания неясно, можно или нет получить анализируемые данные для локального анализа?

catap Sep 12 2014 at 10:40

Да, вы можете зайти в набор данных задачи и все-все-все скачать.

boombick Sep 12 2014 at 12:13

Дизайн и навигацию, конечно, делали программисты для программистов :)
По функционалу — круто очень, по-моему.

catap Sep 12 2014 at 12:16

Спасибо!

Дизайн и навигация, как и весь UI, будет перерабатываться.

ffriend Sep 12 2014 at 18:27

Честно говоря, звучит не особо аппетитно. По пунктам:

1. Непонятно, является ли это соревнованием или работой. Если работой, то почему я должен делать что-то без малейшего понятия, заплатят ли мне. Если соревнованием, то кто будет контролировать качество наборов данных, объективность выбора алгоритма-победителя и т.д.? А без этого, какое же это соревнование.
2. Выбор инструментов очень странный. Даже если в итоге алгоритм будет работать на инфраструктуре Hadoop-а (причём далеко не обязательно построен на MR Job-ах), то прототипируется он всё равно на R, Python, Matlab, LuaJIT, etc., но только не на Java/Scala. В любом случае, диктовать инженерам, какие инструменты им использовать — очень неблагодарное дело.
3. Необходимость заводить аккаунт AWS, за который через год ещё придётся и платить, — это вообще за пределами допустимого.

Ну и много прочих косяков, таких как необходимость регистрироваться, чтобы увидеть задачи (!), необходимость получить инвайт, чтобы зарегистрироваться (!!), необходимость иметь целый парк знаний, не связанных напрямую с анализом данных (Java/Scala, Hadoop, AWS, etc.), со стороны заказчика — необходимость подготовки качественных данных (а это уже значительная часть работы инженера по ML), открытость данных для конкурентов и т.д. Так что пока что точно нет.

boombick Sep 13 2014 at 09:03

Ну так регистрация по инвайтам на стадии бета-тестирования — это вообще нормальная практика

> необходимость иметь целый парк знаний, не связанных напрямую с анализом данных

Это уже вообще за гранью, по-моему. No comments.

StarMarine Sep 15 2014 at 09:11

Браво, Кирилл!

BelBES Sep 15 2014 at 11:59

Хм, насколько я заметил, на kaggle побеждают не оригинальные алгоритмы, а стеки из кучи кое-как натренированных экспертов, т.е. в конечном счете соревнуются в мощност железа для тренировки и количестве рук в команде для перебора различных алгоритмов. Значит ли это, что на вашем ресурсе, как и в случае например с биткоинами, деньги будут иметь только те, у кого есть хороший кластер для тренировки, и много рук для одновременного обучения многих экспертов?

catap Sep 15 2014 at 20:38

В случае Data Mining Hub команде не раскрываются все данные и затачиваться она сможет только под известный ей dataset.

Второй dataset схожего размера будет использоваться для оценки качества алгоритма, т.к. в отличии от kaggle код не раскрывается и остается вашей интеллектуальной собственностью.

BelBES Sep 16 2014 at 06:15

В случае Data Mining Hub команде не раскрываются все данные и затачиваться она сможет только под известный ей dataset.

На каглях вроде как аналогично. Рейтинг считается на небольшой части всего датасета, а итоговые результаты на всех данных только в конце контеста.

Второй dataset схожего размера будет использоваться для оценки качества алгоритма, т.к. в отличии от kaggle код не раскрывается и остается вашей интеллектуальной собственностью.

На kaggle тоже не обязательно код раскрывать. Зависит от контеста. Как правило, обязательно раскрывать подробности алгоритма только для исследовательских контестов.

А исходный вопрос, увы, так и остался откртым…