Добавлю ещё одно, крайне на мой взгляд, важное правило (получилось в стиле zen):
Лучшая документация — ненужная документация
Смысл в том, что с большинстве случаев пользователь должен получать решения без обращения к документации, в идеале просто нажимать кнопку «сделать хорошо».
Конечно, это требование не столько к документации, сколько к самому продукту, но здесь документация играет роль своеобразного индикатора — чем чаще она требуется, тем сложнее приложение (в смысле «усложнено»).
Причём особенно играет этот фактор на этапе вхождения нового пользователя.
Вел дан! Для полноты картины можно было бы добавить код отрисовки графиков, а для того графика с параллельными линиями ещё пририсовать внизу график с остатками, для усиления видимости эффекта.
Хочу поддержать — статья очень понравилась, не смотря на то, что раньше уже писали на эту тему.
Особенно впечатлила визуализация — не думаю, что она информативна, зато очень красивая.
Идея для улучшения:
Поставить фильтр на друзей — считать друзьями только тех, кто достаточно часто взаимно лайкает посты друг друга.
Прочитал и топик и комментарии и не увидел самого главного — понимания и принятия рыночных законов.
Опять ситуация с начала.
Есть компания А такая вся замечательная, пишет масштабируемый беспроблемный софт, всё у низ 24/7/365 и т.д. средний ценник 80 т. И есть Вася Пупкин — пишет что-то похожее левой пяткой за 20 тыс.
В этой ситуации компании А и (и её сотрудникам) нет никаких причин для сетований возмущений. Ведь это 2 разных продукта:
1) Мейд бай кампани А:
Сайт + поддержка 24/7 на 3 года (+разумный ценник на поддержку) + консультации по продвижению + красиво, быстро, удобно
Цена 80 тыр
2) Мейд бай Вася Пупкин:
Сайт шевелящийся, типа рабочий. Ценник 20 тыр.
И у этих 2-х продуктов 2 разные целевые аудитории.
Никто не мешает компании А дополнить своё предложение эконом вариантом за 20 тыс и этим продуктом конкурировать с Васей Пупкиным. Это будет гораздо продуктивнее, чем сетовать, что «не тот нынче клиент пошёл».
PS
Хотя, по человечески людей понятно, конкуренция штука неудобная, неприятная и старым игрокам рынка совершенно не нужная.
имеется в виду выборки in samle и out sample. причём неявно предполагается, что обе выборки как бы принадлежат одной генеральной совокупности, если можно так сказать. В случае с монеткой это верно, в реальной жизни — далеко не всегда. Например та же игра в орлянку, но с профи-игроком, который этим зарабатывает на жизнь )))
когда есть нестационарность и процесс периодически «ломается» в числовом виде, но при этом базовые «уравнения» остаются теми-же. Из конкретики сейчас вспоминается только корреляция цен, например нефти Brent и WTI, больше с ходу примеров не вспомню… А, вот ещё — продажи товаров на динамичном рынке, тоже out of sample плохо работает
я понимаю вашу мысль, но я бы не делал такую большую ставку на критей аут оф сэмпл, вы, видимо ещё не сталкивались с ситуациями, когда out of sample совсем не помогает
Потому что неизвестно, что это за характеристики, соответственно, могут они в принципе влиять на конечный результат или нет.
Формально, я не не спорю, можно обойтись и таким полностью обфусцированным набором. Но тогда это превратится в соревнование по фитингу y=f(x1, x1...xn), не более, без претензий на моделирование чего-то.
Пусть есть набор данных (x,y) 100 точек.
Требуется найти взаимосвязь y=f(x), при этом в задаче не говорится о характере взаимосвязи.
Задачу решают 2 участника.
Первый знает, что фундаментально взаимосвязь линейная и строит модель y=ax+b
При этом из-за большой ошибки в исходных данных y=ax+b + N(m,s) точность модели получается очень плохой, скажем 20% ошибки.
Второй участник не знает о фундаментальной взаимосвязи и строит полином 100-й степени y=a100* x^100+ a99* x^99 +…
Модель получается изумительной, ошибка 0,00001%
Допустим устраивается конкурс о игре в орлянку.
Собралось 100 человек, каждый участник подбрасывает монетку 100 раз, и считается рейтинг участника как процент выпадения орла. Что будет в результате? В топе будут игроки с результатами и 60 и 70 и 80%.
Но значит ли это, что они умеют управлять монеткой?
Пример утрирован, но суть понятна.
Я видел довольно много примеров, как ищутся и успешно находится взаимосвязи между тёплым и мягким или между бузиной в огороде и характером дядьки в Киеве. С доверительными интервалами, высоким попаданием и т.д. Понятно, чего это стоит в реальной жизни. Основа — это модель, а только потом идут всякие нейросети, машин-лёнин и т.д. А в основе модели — понимание процесса. А с настолько обфусцированными данными, как в этих конкурсах, ничего хорошего не может получиться в принципе.
С такими данными, когда большинство полей в виде хешей не-пойми-чего — это какая-то угадайка, игра типа «Код Да Винчи» в самом плохом смысле.
Хеши нельзя читать нормальными данными.
Нет данных — нет модели.
Нет модели — нет ничего, копать бессмысленно.
Лучшая документация — ненужная документация
Смысл в том, что с большинстве случаев пользователь должен получать решения без обращения к документации, в идеале просто нажимать кнопку «сделать хорошо».
Конечно, это требование не столько к документации, сколько к самому продукту, но здесь документация играет роль своеобразного индикатора — чем чаще она требуется, тем сложнее приложение (в смысле «усложнено»).
Причём особенно играет этот фактор на этапе вхождения нового пользователя.
Казалось бы, для вашей задаче это самое естественное решение.
Особенно впечатлила визуализация — не думаю, что она информативна, зато очень красивая.
Идея для улучшения:
Поставить фильтр на друзей — считать друзьями только тех, кто достаточно часто взаимно лайкает посты друг друга.
Опять ситуация с начала.
Есть компания А такая вся замечательная, пишет масштабируемый беспроблемный софт, всё у низ 24/7/365 и т.д. средний ценник 80 т. И есть Вася Пупкин — пишет что-то похожее левой пяткой за 20 тыс.
В этой ситуации компании А и (и её сотрудникам) нет никаких причин для сетований возмущений. Ведь это 2 разных продукта:
1) Мейд бай кампани А:
Сайт + поддержка 24/7 на 3 года (+разумный ценник на поддержку) + консультации по продвижению + красиво, быстро, удобно
Цена 80 тыр
2) Мейд бай Вася Пупкин:
Сайт шевелящийся, типа рабочий. Ценник 20 тыр.
И у этих 2-х продуктов 2 разные целевые аудитории.
Никто не мешает компании А дополнить своё предложение эконом вариантом за 20 тыс и этим продуктом конкурировать с Васей Пупкиным. Это будет гораздо продуктивнее, чем сетовать, что «не тот нынче клиент пошёл».
PS
Хотя, по человечески людей понятно, конкуренция штука неудобная, неприятная и старым игрокам рынка совершенно не нужная.
А чем построены картинки с полосочками?
Формально, я не не спорю, можно обойтись и таким полностью обфусцированным набором. Но тогда это превратится в соревнование по фитингу y=f(x1, x1...xn), не более, без претензий на моделирование чего-то.
Пусть есть набор данных (x,y) 100 точек.
Требуется найти взаимосвязь y=f(x), при этом в задаче не говорится о характере взаимосвязи.
Задачу решают 2 участника.
Первый знает, что фундаментально взаимосвязь линейная и строит модель y=ax+b
При этом из-за большой ошибки в исходных данных y=ax+b + N(m,s) точность модели получается очень плохой, скажем 20% ошибки.
Второй участник не знает о фундаментальной взаимосвязи и строит полином 100-й степени y=a100* x^100+ a99* x^99 +…
Модель получается изумительной, ошибка 0,00001%
Вопрос — кто построил лучшую регрессию?
Поясню свою мысль:
Допустим устраивается конкурс о игре в орлянку.
Собралось 100 человек, каждый участник подбрасывает монетку 100 раз, и считается рейтинг участника как процент выпадения орла. Что будет в результате? В топе будут игроки с результатами и 60 и 70 и 80%.
Но значит ли это, что они умеют управлять монеткой?
Пример утрирован, но суть понятна.
Я видел довольно много примеров, как ищутся и успешно находится взаимосвязи между тёплым и мягким или между бузиной в огороде и характером дядьки в Киеве. С доверительными интервалами, высоким попаданием и т.д. Понятно, чего это стоит в реальной жизни. Основа — это модель, а только потом идут всякие нейросети, машин-лёнин и т.д. А в основе модели — понимание процесса. А с настолько обфусцированными данными, как в этих конкурсах, ничего хорошего не может получиться в принципе.
Хеши нельзя читать нормальными данными.
Нет данных — нет модели.
Нет модели — нет ничего, копать бессмысленно.