Comments 12
Я так понимаю, на один заказ могут 10 разработчиков предложить свое решение, и только один из них получит оплату. А 9 потратили кучу времени просто так. Мне кажется, что работать без оплаты согласятся только новички для получения опыта.
Какие преимущества над тем же kaggle-ом Вы пытаетесь получить, установив такое жесткое ограничение на архитектуру?
Из описания неясно, можно или нет получить анализируемые данные для локального анализа?
Из описания неясно, можно или нет получить анализируемые данные для локального анализа?
Дизайн и навигацию, конечно, делали программисты для программистов :)
По функционалу — круто очень, по-моему.
По функционалу — круто очень, по-моему.
Честно говоря, звучит не особо аппетитно. По пунктам:
1. Непонятно, является ли это соревнованием или работой. Если работой, то почему я должен делать что-то без малейшего понятия, заплатят ли мне. Если соревнованием, то кто будет контролировать качество наборов данных, объективность выбора алгоритма-победителя и т.д.? А без этого, какое же это соревнование.
2. Выбор инструментов очень странный. Даже если в итоге алгоритм будет работать на инфраструктуре Hadoop-а (причём далеко не обязательно построен на MR Job-ах), то прототипируется он всё равно на R, Python, Matlab, LuaJIT, etc., но только не на Java/Scala. В любом случае, диктовать инженерам, какие инструменты им использовать — очень неблагодарное дело.
3. Необходимость заводить аккаунт AWS, за который через год ещё придётся и платить, — это вообще за пределами допустимого.
Ну и много прочих косяков, таких как необходимость регистрироваться, чтобы увидеть задачи (!), необходимость получить инвайт, чтобы зарегистрироваться (!!), необходимость иметь целый парк знаний, не связанных напрямую с анализом данных (Java/Scala, Hadoop, AWS, etc.), со стороны заказчика — необходимость подготовки качественных данных (а это уже значительная часть работы инженера по ML), открытость данных для конкурентов и т.д. Так что пока что точно нет.
1. Непонятно, является ли это соревнованием или работой. Если работой, то почему я должен делать что-то без малейшего понятия, заплатят ли мне. Если соревнованием, то кто будет контролировать качество наборов данных, объективность выбора алгоритма-победителя и т.д.? А без этого, какое же это соревнование.
2. Выбор инструментов очень странный. Даже если в итоге алгоритм будет работать на инфраструктуре Hadoop-а (причём далеко не обязательно построен на MR Job-ах), то прототипируется он всё равно на R, Python, Matlab, LuaJIT, etc., но только не на Java/Scala. В любом случае, диктовать инженерам, какие инструменты им использовать — очень неблагодарное дело.
3. Необходимость заводить аккаунт AWS, за который через год ещё придётся и платить, — это вообще за пределами допустимого.
Ну и много прочих косяков, таких как необходимость регистрироваться, чтобы увидеть задачи (!), необходимость получить инвайт, чтобы зарегистрироваться (!!), необходимость иметь целый парк знаний, не связанных напрямую с анализом данных (Java/Scala, Hadoop, AWS, etc.), со стороны заказчика — необходимость подготовки качественных данных (а это уже значительная часть работы инженера по ML), открытость данных для конкурентов и т.д. Так что пока что точно нет.
Браво, Кирилл!
Хм, насколько я заметил, на kaggle побеждают не оригинальные алгоритмы, а стеки из кучи кое-как натренированных экспертов, т.е. в конечном счете соревнуются в мощност железа для тренировки и количестве рук в команде для перебора различных алгоритмов. Значит ли это, что на вашем ресурсе, как и в случае например с биткоинами, деньги будут иметь только те, у кого есть хороший кластер для тренировки, и много рук для одновременного обучения многих экспертов?
В случае Data Mining Hub команде не раскрываются все данные и затачиваться она сможет только под известный ей dataset.
Второй dataset схожего размера будет использоваться для оценки качества алгоритма, т.к. в отличии от kaggle код не раскрывается и остается вашей интеллектуальной собственностью.
Второй dataset схожего размера будет использоваться для оценки качества алгоритма, т.к. в отличии от kaggle код не раскрывается и остается вашей интеллектуальной собственностью.
В случае Data Mining Hub команде не раскрываются все данные и затачиваться она сможет только под известный ей dataset.
На каглях вроде как аналогично. Рейтинг считается на небольшой части всего датасета, а итоговые результаты на всех данных только в конце контеста.
Второй dataset схожего размера будет использоваться для оценки качества алгоритма, т.к. в отличии от kaggle код не раскрывается и остается вашей интеллектуальной собственностью.
На kaggle тоже не обязательно код раскрывать. Зависит от контеста. Как правило, обязательно раскрывать подробности алгоритма только для исследовательских контестов.
А исходный вопрос, увы, так и остался откртым…
Sign up to leave a comment.
Data Mining Hub, глазами ученых