Вел дан! Для полноты картины можно было бы добавить код отрисовки графиков, а для того графика с параллельными линиями ещё пририсовать внизу график с остатками, для усиления видимости эффекта.
Хочу поддержать — статья очень понравилась, не смотря на то, что раньше уже писали на эту тему.
Особенно впечатлила визуализация — не думаю, что она информативна, зато очень красивая.
Идея для улучшения:
Поставить фильтр на друзей — считать друзьями только тех, кто достаточно часто взаимно лайкает посты друг друга.
Прочитал и топик и комментарии и не увидел самого главного — понимания и принятия рыночных законов.
Опять ситуация с начала.
Есть компания А такая вся замечательная, пишет масштабируемый беспроблемный софт, всё у низ 24/7/365 и т.д. средний ценник 80 т. И есть Вася Пупкин — пишет что-то похожее левой пяткой за 20 тыс.
В этой ситуации компании А и (и её сотрудникам) нет никаких причин для сетований возмущений. Ведь это 2 разных продукта:
1) Мейд бай кампани А:
Сайт + поддержка 24/7 на 3 года (+разумный ценник на поддержку) + консультации по продвижению + красиво, быстро, удобно
Цена 80 тыр
2) Мейд бай Вася Пупкин:
Сайт шевелящийся, типа рабочий. Ценник 20 тыр.
И у этих 2-х продуктов 2 разные целевые аудитории.
Никто не мешает компании А дополнить своё предложение эконом вариантом за 20 тыс и этим продуктом конкурировать с Васей Пупкиным. Это будет гораздо продуктивнее, чем сетовать, что «не тот нынче клиент пошёл».
PS
Хотя, по человечески людей понятно, конкуренция штука неудобная, неприятная и старым игрокам рынка совершенно не нужная.
имеется в виду выборки in samle и out sample. причём неявно предполагается, что обе выборки как бы принадлежат одной генеральной совокупности, если можно так сказать. В случае с монеткой это верно, в реальной жизни — далеко не всегда. Например та же игра в орлянку, но с профи-игроком, который этим зарабатывает на жизнь )))
когда есть нестационарность и процесс периодически «ломается» в числовом виде, но при этом базовые «уравнения» остаются теми-же. Из конкретики сейчас вспоминается только корреляция цен, например нефти Brent и WTI, больше с ходу примеров не вспомню… А, вот ещё — продажи товаров на динамичном рынке, тоже out of sample плохо работает
я понимаю вашу мысль, но я бы не делал такую большую ставку на критей аут оф сэмпл, вы, видимо ещё не сталкивались с ситуациями, когда out of sample совсем не помогает
Потому что неизвестно, что это за характеристики, соответственно, могут они в принципе влиять на конечный результат или нет.
Формально, я не не спорю, можно обойтись и таким полностью обфусцированным набором. Но тогда это превратится в соревнование по фитингу y=f(x1, x1...xn), не более, без претензий на моделирование чего-то.
Пусть есть набор данных (x,y) 100 точек.
Требуется найти взаимосвязь y=f(x), при этом в задаче не говорится о характере взаимосвязи.
Задачу решают 2 участника.
Первый знает, что фундаментально взаимосвязь линейная и строит модель y=ax+b
При этом из-за большой ошибки в исходных данных y=ax+b + N(m,s) точность модели получается очень плохой, скажем 20% ошибки.
Второй участник не знает о фундаментальной взаимосвязи и строит полином 100-й степени y=a100* x^100+ a99* x^99 +…
Модель получается изумительной, ошибка 0,00001%
Допустим устраивается конкурс о игре в орлянку.
Собралось 100 человек, каждый участник подбрасывает монетку 100 раз, и считается рейтинг участника как процент выпадения орла. Что будет в результате? В топе будут игроки с результатами и 60 и 70 и 80%.
Но значит ли это, что они умеют управлять монеткой?
Пример утрирован, но суть понятна.
Я видел довольно много примеров, как ищутся и успешно находится взаимосвязи между тёплым и мягким или между бузиной в огороде и характером дядьки в Киеве. С доверительными интервалами, высоким попаданием и т.д. Понятно, чего это стоит в реальной жизни. Основа — это модель, а только потом идут всякие нейросети, машин-лёнин и т.д. А в основе модели — понимание процесса. А с настолько обфусцированными данными, как в этих конкурсах, ничего хорошего не может получиться в принципе.
С такими данными, когда большинство полей в виде хешей не-пойми-чего — это какая-то угадайка, игра типа «Код Да Винчи» в самом плохом смысле.
Хеши нельзя читать нормальными данными.
Нет данных — нет модели.
Нет модели — нет ничего, копать бессмысленно.
я тоже так думаю, но ребята делают интересную штуку — взгляд с другой точки зрения, не важно какой, важно, что другой и имеющей право быть, а это всегда и полезно и интересно
Вы пропустили стадию составления модели (включая её валидацию), вернее проскочили её так быстро, что даже не понадобилась нормальная нотация. А модель — это минимум 90% (!) всего анализа, остальное — чистая рутина.
Особенно впечатлила визуализация — не думаю, что она информативна, зато очень красивая.
Идея для улучшения:
Поставить фильтр на друзей — считать друзьями только тех, кто достаточно часто взаимно лайкает посты друг друга.
Опять ситуация с начала.
Есть компания А такая вся замечательная, пишет масштабируемый беспроблемный софт, всё у низ 24/7/365 и т.д. средний ценник 80 т. И есть Вася Пупкин — пишет что-то похожее левой пяткой за 20 тыс.
В этой ситуации компании А и (и её сотрудникам) нет никаких причин для сетований возмущений. Ведь это 2 разных продукта:
1) Мейд бай кампани А:
Сайт + поддержка 24/7 на 3 года (+разумный ценник на поддержку) + консультации по продвижению + красиво, быстро, удобно
Цена 80 тыр
2) Мейд бай Вася Пупкин:
Сайт шевелящийся, типа рабочий. Ценник 20 тыр.
И у этих 2-х продуктов 2 разные целевые аудитории.
Никто не мешает компании А дополнить своё предложение эконом вариантом за 20 тыс и этим продуктом конкурировать с Васей Пупкиным. Это будет гораздо продуктивнее, чем сетовать, что «не тот нынче клиент пошёл».
PS
Хотя, по человечески людей понятно, конкуренция штука неудобная, неприятная и старым игрокам рынка совершенно не нужная.
А чем построены картинки с полосочками?
Формально, я не не спорю, можно обойтись и таким полностью обфусцированным набором. Но тогда это превратится в соревнование по фитингу y=f(x1, x1...xn), не более, без претензий на моделирование чего-то.
Пусть есть набор данных (x,y) 100 точек.
Требуется найти взаимосвязь y=f(x), при этом в задаче не говорится о характере взаимосвязи.
Задачу решают 2 участника.
Первый знает, что фундаментально взаимосвязь линейная и строит модель y=ax+b
При этом из-за большой ошибки в исходных данных y=ax+b + N(m,s) точность модели получается очень плохой, скажем 20% ошибки.
Второй участник не знает о фундаментальной взаимосвязи и строит полином 100-й степени y=a100* x^100+ a99* x^99 +…
Модель получается изумительной, ошибка 0,00001%
Вопрос — кто построил лучшую регрессию?
Поясню свою мысль:
Допустим устраивается конкурс о игре в орлянку.
Собралось 100 человек, каждый участник подбрасывает монетку 100 раз, и считается рейтинг участника как процент выпадения орла. Что будет в результате? В топе будут игроки с результатами и 60 и 70 и 80%.
Но значит ли это, что они умеют управлять монеткой?
Пример утрирован, но суть понятна.
Я видел довольно много примеров, как ищутся и успешно находится взаимосвязи между тёплым и мягким или между бузиной в огороде и характером дядьки в Киеве. С доверительными интервалами, высоким попаданием и т.д. Понятно, чего это стоит в реальной жизни. Основа — это модель, а только потом идут всякие нейросети, машин-лёнин и т.д. А в основе модели — понимание процесса. А с настолько обфусцированными данными, как в этих конкурсах, ничего хорошего не может получиться в принципе.
Хеши нельзя читать нормальными данными.
Нет данных — нет модели.
Нет модели — нет ничего, копать бессмысленно.