donjenya Jul 28 2014 at 16:33

10 заповедей Больших Данных

2 min

4.3K

Big Data*

-5

Comments 11

Nelex Jul 28 2014 at 16:49

Не стоит IT сфере хоть сколько-то пересекаться с религией в трактовке. IT сфера это инструмент, который может и должен использоваться для облегчения жизни человека в любой области где это возможно. А с такой формулировкой у людей верующих может возникнуть резонанс в восприятии IT как набора инструментов, в пользу утверждения что любая автоматизация — зло. ИМХО.

kamaikin Jul 28 2014 at 17:10

Полностью согласен, не стоит воспринимать IT как религию.
А у людей верующих, уже есть установка, что любая автоматизация зло…

McLay Jul 28 2014 at 17:48

А мне понравилась такая ироничная форма. Кому надо — суть поймут.

donjenya Jul 29 2014 at 13:47

Господи дай разума этим людям, чтобы они смогли отличить иронию от религиозной литературы.

>>любая автоматизация — зло.
Патриарх с вами несогласен — newsland.com/news/detail/id/730969/
РПЦ тоже — www.mpda.ru/cit/

Автоматизация и религия очень далеки друг от друга, также как религиозные подвижники от луддитов.

Nelex Jul 29 2014 at 13:59

Ага, уже дал. Во множестве примеров.
И всё-таки она вертится!
Сжигание ведьм
Инквизиция против науки

Думаете что человечество на столько далеко отошло от тех времен? Если вы уж говорите об Иронии… Если упираться на википедию:
«Ирония — употребление слов в отрицательном смысле, прямо противоположном буквальному. Пример: «Ну ты храбрец!», «Умён-умён…» Здесь положительные высказывания имеют отрицательный подтекст.»

Где здесь ирония? Печаль…

kamaikin Jul 29 2014 at 16:36

Ну Патриарх, может быть не согласен с чем угодно… Это его право, но даже он не может запретить священникам в религии которая проповедует, бедность и смирение ездить на джипах за миллионы рублей, освящать за деньги… да все подряд… Не буду приводить примеры, их море…
А отличить иронию от религиозной литературы… Как некогда сказал известный создатель «Дианетики» Хаббардт «Хочешь стать богатым — создай свою религию». И ведь создают… И далеко не всегда отличишь, где ирония, а где… не ирония.

alexeykuzmin0 Jul 28 2014 at 17:46

Первая же заповедь противоречит тому, чему нас учит машинное обучение

donjenya Jul 29 2014 at 13:38

Не увидел противоречия — почему полный набор данных вместо ограниченный выборки должен препятствовать работе алгоритмов машинного обучения? Для тех же задач классификации и кластеризации довольно сложно подобрать репрезентативную ограниченную выборку данных…

alexeykuzmin0 Jul 29 2014 at 13:46

В машинно обучении есть такое понятие, как отбор признаков — мы сознательно выкидываем часть данных для уменьшения шума и лучшего распознавания закономерностей. Пусть мы потеряем часть информации, зато за счет уменьшения шума сможем гораздо лучше обработать то, что осталось.
Да, это нужно не всегда, но достаточно часто. Здесь же нам говорят, что так делать вообще никогда нельзя

donjenya Jul 29 2014 at 14:48

Уменьшение шума — это следствие того, что мы не можем правильно проанализировать данные, т.е. наши гипотезы расходятся с полученными результатами, следственно, мы допускам, что часть исходных данных неверна. Вполне возможно, что так оно и есть, но в то же время мы можем проанализировать полный набор данных и вычислить, что больший процент данных из этого набора дает одни результаты, а остальная часть — другой результат. И оба они имеют право на существование.

Если на конкретных примерах: стоит ли выкидывать поисковые запросы с орфографическими ошибками при попытке анализа тех или иных поисковых запросов(например, на Google)? Или, стоит ли при опросе об ОС Windows принимать мнение домохозяек, или опрашивать только мнение ИТ-специалистов, или даже только системных администраторов Windows?

alexeykuzmin0 Jul 29 2014 at 14:57

Не обязательно неверна. Попробуйте взять любую задачу машинного обучения, решить ее без фильтрации признаков, а потом добавить признак «белый шум» — скорее всего, Ваши результаты ощутимо ухудшатся. Да, наверное, если обладать огромными вычислительными мощностями, можно обучиться и так, но, насколько я понял автора статьи, имелось в виду, что эти заповеди нельзя нарушать на практике.

Ну сами подумайте — если бы данные нельзя было бы выкидывать, откуда взялось бы такое направление машинного обучения, как отбор признаков?

Show the best of all time