Pull to refresh
6
0
Сергей Марин @SergeyMarin

Пользователь

Send message
С нашей точки зрения такой «устойчивый тренд» как раз и работает в уже довольно изученных областях. Для всех остальных процесс выглядит так:

1) Целевую переменную нужно определить — она часто не очевидна
2) Данные описывают различные участки процесса (не всегда сразу понятно какие) и свойства объектов вовлекаемых в процесс (степень участия которых в процессе не очевидна) — уже не говоря о том, что все лежит в разных системах, имеет разную нормировку итд
3) Из данных нужно собрать признаки, которые характеризуют поведение процесса: самый-самый простой пример: из времени отправления и прибытия нужно собрать время в пути и таких моментов могут быть сотни.

На подумать: пусть нужно спрогнозировать время в пути на машине от Москвы до любого заданного города России. Какие признаки будете использовать и где они лежать в готовом виде, чтобы на них «натравить» автоматический алгоритм? Что возьмете (кроме, например, времени года и времени дня): наличие скоростных/платных дорог между? Или процент от всего пути платных дорог? Среднее время в пути за какой то промежуток в прошлом? Количество промежуточных городов? Регион, где находится город? А вдруг это закрытый город и туда вообще нельзя просто так доехать? А если дорога проходит через паромную переправу и нужно закладывать расписание парома? итд…
О, круто, если это обеспечивает стабильное качество картинки… Я про стандарт выше
Скорее наоборот: Big Data слишком широкой (но удобный для понимания) термин также включающий в себя машинное обучение, анализ данных. Большое количество кейсов даже когда данных реально много рождаются из Small Data
Добрый день! В этом как раз и суть, что дело часто не только в количестве данных. В данном примере с заводом нужно учитывать не количество клиентов (которое действительно измеряется десятками), а количество данных позволяющих предсказывать остатки материалов. Бизнес-кейс в том, что если на стройке заканчиваются материалы, то закупки часто осуществляются у доступного на тот момент поставщика, что означает потери бизнеса для клиента
Добрый день, спасибо за комментарий. Начало следующего курса для менеджеров 28 августа. На сайте поправим
Добрый день! Дистанционно доступны два курса: основной аналитический и вводный.
Наверное, просто нет «золотой пули» и используется совокупность методов. Какие-то существовали давно, а какие-то, вроде тех, которые описаны в публикации, появились относительно недавно
Наверное, просто нет «золотой пули» и используется совокупность методов. Какие-то существовали давно, а какие-то, вроде тех, которые описаны в публикации, появились относительно недавно
Алексей, спасибо, очень приятно!
Ссылки на впечатления о курсе от одного из участников указаны в публикации
Мы не вводили понятия именованной сущности и вели рассказ на вводном уровне. Вопрос “что такое именованная сущность?” заслуживает отдельного обсуждения. Заметим, что бывают примеры вложенных друг в друга именованных сущностей, которые приводит grossws, а бывают довольно понятные однозначные именованные сущности, например “Российская федерация”, которые, все-таки, хочется обрабатывать так же, как индивидуальные токены. Однако, это уже предмет обсуждения на занятиях.
Мы запустили второй курс и сейчас набираем третий. Начало занятий 25 января. Подробности, как обычно, на bigdata.beeline.digital
Дело в том, что в рекомендательных системах под SVD, к сожалению для устоявшейся в линейной алгебре терминологии, понимают целый класс моделей со скрытыми переменными (профилями пользователей и объектов рекомендации). Например, такой корифей как Корен называет свою модель SVD. Подробнее можно прочитать здесь: www.quora.com/Whats-the-difference-between-SVD-and-SVD++

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity