Comments 16
В статье концепция преобразования сырых данных в ценные подаётся как нечто новое, хотя это просто один из этапов ETL. Наука о данных и весь процесс задуман ради получения этих данных. Может, я не так понял понятие SmartData, но для меня это просто продукт ETL.
Т.е. мы собираем условные BigData и получаем ценные для бизнеса SmartData - так всегда и было, разве нет?
Очередной виток спирали развития мысли и технологий. Идеи, приведшие к появлению Хранилищ Данных, просто теперь поверх BigData (назовем это Big Data Warehouse)
PS ну а ради хайпа и марктинга это можно и Smart Data назвать)
Когда бигдата перестала продаваться - они придумали новый баззворд.
Изображение демонстрирует результаты сегментации временных рядов на основе двух главных компонент, полученных методом PCA. Данные разделены на 5 однородных сегментов разного цвета, границы которых находятся в точках 1, 263, 512, 878 и 1222 по оси времени, что указывает на изменение поведения системы примерно каждые 5 часов. Сегментация позволяет сжать исходные наблюдения до небольшого числа информативных отрезков, упрощая анализ данных и выделяя ключевые паттерны изменения системы во времени, что является примером преобразования больших данных в Smart Data
Конечно, пусть цветут все цветы... но разбиение на фрагменты выглядит очень странным. Я много лет занимаюсь анализом временных рядов, и пришел к твердому убеждению, что выбор конкретного метода - это второе или даже десятое по важности дело. Причина в том, что вся классическая теория (которая предлагает нам немеряное множество оптимальных в том или ином отношении процедур) на практике разбивается о прозу жизни: оптимальность и строгость подавляющего числа алгоритмов и методов обусловлена весьма жесткими требованиями к статистическим свойствам сигналов. Которые на практике удовлетворяются чуть реже, чем никогда (специально выделил жирным, чтоб Вы не подумали, будто я опечатался ;-)
Поэтому 90% задачек по анализу реальных временных рядов (резко нестационарных, с выбросами, аномалиями и пропусками) формализовать невозможно. У них просто нет объективно правильного решения. Потому что, как сказано выше, строгость любого формального метода почти всегда упирается в невыполнение условий его применимости. В частности, судя по Вашим графикам, сигналы очевидно не стационарны. А тогда какие случайные величины, какой PCA? Ведь если мы выходим за рамки постулированных условий, то прощай, математическая модель. Любой самый распрекрасный, оптимальный и строгий метод в этом случае по сути превращается в более или менее полезный эмпирический трюк. Как сказал один классик, все модели неверны, но некоторые полезны. Это и про Ваш случай тоже. То есть, нельзя исключить, что и для ваших рядов разложение на главные компоненты будет полезно... только вот в ошибочности этой модели нет никаких сомнений. Вот и живите теперь с этим ;-)
Поэтому лично для меня не бывает "хороших", "продвинутых", "современных" и т.п. методов. В конечном счете у нас нет никакого иного способа сравнить эти методы между собой, кроме "парадигмы прищуренного взгляда". Когда эксперт сначала разглядывает данные в разных разрезах, постоянно при этом имея в виду конечную цель анализа, потом его осеняет мысль "я так вижу!", и лишь после этого можно выбрать или разработать статистический инструмент, который формализует его видение в формате некоторых алгебраических процедур. Позволяющих уже чуть формальнее проверять: верна ли гипотеза? Значимы ли коэффициенты? И т.д. и т.п. Однако все эти формальности абсолютно ничего не скажут нам о массе альтернативных гипотез/моделей, которые эксперт не смог или не захотел проверить (или просто о них не знал). В самом лучшем случае можно лишь убедиться, что наша гипотеза пока что не противоречит имеющимся эмпирическим данным.
Конечно, во многих предметных областях уже есть такие готовые "шаблоны прищуренных глаз", то есть наработанные алгоритмы, которые часто позволяют приблизиться к полезному результату. Только вот новомодное слово SmartData ничего к ним имхо не добавляет. Так как концепции очистки и нормализации данных, сжатия и преобразования информации известны еще со времен ЦГ. Главная (и чаще всего единственная) цель всех этих подготовительных процедур - это обеспечить максимально комфортные условия для эксперта, который затем бросит на все это великолепие свой "прищуренный взгляд". Если чуть-чуть формальнее, это называется визуально-ориентированная среда анализа данных. Необходимость перехода к которой в нашей предметной области (геофизический мониторинг) мы осознали лет 40 назад, а спустя небольшое время и реализовали в своей программе. Которая с тех пор живет, развивается и успешно
применяется в своей области
несмотря на постепенно устаревающий интерфейс в стиле Norton Commander ;-)
Кому интересно чуть-чуть подробнее, вот описание заложенных в программу идей. А если у Вас поэтический склад ума, то оду визуально-ориентированному подходу к анализу данных можно найти в преамбуле к ее help-у (раздел 3.2).
Короче говоря: в вопросе:
"Каким должен быть data scientist для работы со Smart Data?"
вторая часть совершенно излишняя. Он должен быть точно таким же, как и "data scientist просто". Ибо никакие магические силы не превратят его бесчисленные таблицы в "Smart Data". Наоборот, с этого "превращения" (часто весьма трудо- и интеллектоемкого) как раз и начинается обычно любая работа с данными. И только если она сделана хорошо (и сами данные неплохие), то все остальное уже вполне может стать "делом техники".
Я то представил, что пособирали данные, обрабатывали всё, потом поняли какие данные представляют интерес и начали собирать только их, экономя ресурсы.
А тут просто цепочка обработки всех данных
Так не делают. Потому что завтра появится новая задачка, для которой внезапно отброшенные ранее данные окажутся полезными. Или кто-то придумает метод, как эти данные приспособить для старых задач. И что - собирать данные заново? А если их вообще не сохранилось, на чём тренировать модели, на какой истории? Поэтому обычно собирают и хранят всё, что только могут. Потом когда-нибудь может пригодиться. Хранилища стоят дешевле, чем сбор и обработка данных.
1) бигдата в основном это не про задачи. Если у вас есть задача, то это просто статистика. Анализ больших данных приводит к появлению новой информации и новых задач. И под эти задачи и можно и нужно модифицировать сбор данных.
А у вас вся та же бигдата.
ну вообще-то собрать ВСЕ данные невозможно в приципе, поэтому тут всегда есть разумный компромис между скоростью выдачи результата и количеством этих результатов
Улыбнула BigData: "За месяц непрерывной работы накопился массив из 43200 наблюдений — типичный пример производственных больших данных." (С)
На АЭС, где я работал, за секунду собирается примерно 10 000 аналоговых и 50 000 дискретных наблюдений. Это не считая еще и "медленных" данных, собираемых вспомогательными подразделениями.
Мне кажется, в Вашем случае телега стоит впереди лошади.
Вместо того, чтобы провести анализ производственных процессов, определить критические места и критические данные, и только их и собирать, постепенно расширяя модель, собирается все подряд :(
Возможно, я не совсем не прав...
Big Data мертвы, да здравствуют Smart Data