С нашей точки зрения такой «устойчивый тренд» как раз и работает в уже довольно изученных областях. Для всех остальных процесс выглядит так:
1) Целевую переменную нужно определить — она часто не очевидна
2) Данные описывают различные участки процесса (не всегда сразу понятно какие) и свойства объектов вовлекаемых в процесс (степень участия которых в процессе не очевидна) — уже не говоря о том, что все лежит в разных системах, имеет разную нормировку итд
3) Из данных нужно собрать признаки, которые характеризуют поведение процесса: самый-самый простой пример: из времени отправления и прибытия нужно собрать время в пути и таких моментов могут быть сотни.
На подумать: пусть нужно спрогнозировать время в пути на машине от Москвы до любого заданного города России. Какие признаки будете использовать и где они лежать в готовом виде, чтобы на них «натравить» автоматический алгоритм? Что возьмете (кроме, например, времени года и времени дня): наличие скоростных/платных дорог между? Или процент от всего пути платных дорог? Среднее время в пути за какой то промежуток в прошлом? Количество промежуточных городов? Регион, где находится город? А вдруг это закрытый город и туда вообще нельзя просто так доехать? А если дорога проходит через паромную переправу и нужно закладывать расписание парома? итд…
Скорее наоборот: Big Data слишком широкой (но удобный для понимания) термин также включающий в себя машинное обучение, анализ данных. Большое количество кейсов даже когда данных реально много рождаются из Small Data
Добрый день! В этом как раз и суть, что дело часто не только в количестве данных. В данном примере с заводом нужно учитывать не количество клиентов (которое действительно измеряется десятками), а количество данных позволяющих предсказывать остатки материалов. Бизнес-кейс в том, что если на стройке заканчиваются материалы, то закупки часто осуществляются у доступного на тот момент поставщика, что означает потери бизнеса для клиента
Наверное, просто нет «золотой пули» и используется совокупность методов. Какие-то существовали давно, а какие-то, вроде тех, которые описаны в публикации, появились относительно недавно
Наверное, просто нет «золотой пули» и используется совокупность методов. Какие-то существовали давно, а какие-то, вроде тех, которые описаны в публикации, появились относительно недавно
Мы не вводили понятия именованной сущности и вели рассказ на вводном уровне. Вопрос “что такое именованная сущность?” заслуживает отдельного обсуждения. Заметим, что бывают примеры вложенных друг в друга именованных сущностей, которые приводит grossws, а бывают довольно понятные однозначные именованные сущности, например “Российская федерация”, которые, все-таки, хочется обрабатывать так же, как индивидуальные токены. Однако, это уже предмет обсуждения на занятиях.
Дело в том, что в рекомендательных системах под SVD, к сожалению для устоявшейся в линейной алгебре терминологии, понимают целый класс моделей со скрытыми переменными (профилями пользователей и объектов рекомендации). Например, такой корифей как Корен называет свою модель SVD. Подробнее можно прочитать здесь: www.quora.com/Whats-the-difference-between-SVD-and-SVD++
1) Целевую переменную нужно определить — она часто не очевидна
2) Данные описывают различные участки процесса (не всегда сразу понятно какие) и свойства объектов вовлекаемых в процесс (степень участия которых в процессе не очевидна) — уже не говоря о том, что все лежит в разных системах, имеет разную нормировку итд
3) Из данных нужно собрать признаки, которые характеризуют поведение процесса: самый-самый простой пример: из времени отправления и прибытия нужно собрать время в пути и таких моментов могут быть сотни.
На подумать: пусть нужно спрогнозировать время в пути на машине от Москвы до любого заданного города России. Какие признаки будете использовать и где они лежать в готовом виде, чтобы на них «натравить» автоматический алгоритм? Что возьмете (кроме, например, времени года и времени дня): наличие скоростных/платных дорог между? Или процент от всего пути платных дорог? Среднее время в пути за какой то промежуток в прошлом? Количество промежуточных городов? Регион, где находится город? А вдруг это закрытый город и туда вообще нельзя просто так доехать? А если дорога проходит через паромную переправу и нужно закладывать расписание парома? итд…