Pull to refresh
9
0
Иван Комаров @ivankomarov

Исследователь

Send message

А какие подписи у шкал в графике "Оценка распределения p-value"?

Neo4j достаточно резко начинает требовать коммерческую лицензию. Про Nebula не увидел. А кроме описания, есть опыт внедрения? Скажем для 0,5 млрд вершин и более млрд ребер?

А какие базы (опенсорс / платные) хорошо масштабируется, кто что использует для больших графов?

Очень интересно, инновационно, надеюсь работает. Вот как раз про последнее и хочется узнать - есть ли какие-то А/Б эксперименты, которые бы показали успешность метода? Ну или на худой конец исторические сравнения, что "после" стало лучше?

В этом смысле больше всего хотелось бы поговорить, да, об этом предположении: "обобщать информацию из естественных движений цен и продаж в прошлом." Почему происходят эти "естественные" движения? Это естественные движения по оптимизации оборота и прибыли? Или берете данные до оптимизации? Как работает ценообразование вообще?

Например, вполне естественно предположить (и у вас есть направленность не только на прибыль), что если спрос упал (кризис), то цены стоит опустить. Если в экономике бум (много денег), то цены стоит поднять. Тогда мало продаж и низкие цены и много продаж и высокие цены, т.е. кривая спроса меняет наклон.

Следующее соображение, эластичность - имеет отложенный эффект (как вы правильно сказали), т.е. цены опустили, а продажи выросли только через какое-то время (если ничего не случилось, скажем с доходами за это время). Другими словами, искать оптимум в вечно движущейся системе - задача динамическая, требующая учета кучи разновременных параметров.

Однако, что немного удивило - это то, что вы можете назначать цены, но не делаете экспериментов. Ссылаетесь на "бандитов", но не делаете какой-то простой инструмент типа "уменьши цену, если продажи выросли на больший процент за месяц, какой бы не был per unit cost, ты поступил правильно, уменьши еще". Что-то типа семплирования Томпсона эффективно бы гналось за оптимальной ценой для каждого из сотни тысяч товаров. ОК, возможно нужно было бы посчитать вдолгую, как вы сделали, чтобы была какая-то долгосрочная, более стабильная стратегия. Но для локальной оптимизации разве не выгоднее делать exploration?

А если учитывать возраст и сопутствующие (это сделать легко, если есть данные)?

И как бы вы предложили на общедоступных данных показать, что вакцина как-то влияет на смертность (вы могли бы)? Т.к. кажется на заразность она влиять слабо, да и к новым штаммам она малопригодна.

Не уверен что эффект от вакцинации в целом по России вообще возможно как-то четко увидеть

Вот это и расстраивает. Т.к. 1) Антиваксеры на коне, 2) Собственно автор это и показал ).

Т.е. критики кроме критики ничего не могут на данных показать, только рассказать "как надо"?

Другими словами, если (не дай бог) вакцина не работает, по стране увидим то же самое?

Почему статья не работает сказали. Но и в комментах и создатели вакцин говорят о том, что при вакцине не умрешь.

Т.е. вакцина -> не умрешь. Т.е. если взять две одинаковые страны (области), в одной вакцину поставить (30-60-90% населения), в другой не делать (0%), то какую смертность можно ожидать в обоих странах? Хотелось бы разную, причем в первой стране меньшую.

Или все настолько запутано (статистически и эпидемиологически), что при вакцинации как раз и наблюдаем, что делаем вакцины, а народ мрет пуще прежнего так же как и без вакцин?

Конечно, особенно поиграв в https://ncase.me/covid-19/, можно видеть, что заразность естественно всегда сильнее мер по вакцинации (да и вакцина начнет работать через 4 недели, кроме прочего). Так что видеть рост смертей среди непривитого и заболевшего населения на фоне роста вакцинации - понятный тренд. Это контр-аргумент автору.

Однако возникает вопрос, на который попытался найти ответ автор - а как можно увидеть в стране эффект от вакцинации? Отличное предложение - среди умерших смотреть % вакцинированных и смотреть на долю вакцинированного населения. Где-то есть такая статистика по Спутнику? По идее у государства есть (Госуслуги и Свидетельство о смерти).

Исправил, думаю стало понятнее.
Возможно, здесь сложности перевода, думаю с разностями все ОК. Собственно AutoRegressive Integrated Moving Average оттуда же, во и по-русски говорят также: ru.wikipedia.org/wiki/Интегрированный_временной_ряд
Именно так и ставили задачу — подобрать такие данные и фиттинг, которые дают максимальную точность (как определил выше). В статье — отчет победителя, что зашло («доля городского населения + временной ряд») и какую функцию строил (деревья на градиентном бустинге).
Регионов 85 штук, коэффициенты функций надо вычислять, я сам примерно так и делал, чтобы оценить параметры распространения во времени, а не просто распространение на неделю вперед. Это про некоторые сложности. С другой стороны, фитинг — это смысл машинного обучения. Фитится функция наиболее подходящая. Если делать «просто», прогноз будет хуже. В конкурсе «логарифмическая точность, т.е. точность в разах» (вернее MALE) прогноза на неделю была критерием победы. И нужно было постараться с фиттингом, чтобы победить (и забрать 300 000 руб.). Кстати, некоторые подозревают манипуляции с цифрами, когда предсказывать можно простым приростом («не более 10,000 в день, ± 500!»).

Все же не хочется сдаваться ;) Ковид даёт кучу вопросов для дата саентистов: несколько опасно выходить на улицу, затихает ли все, какова вероятность заразиться? Хочется иметь понимание (по всем самым большим данным, которые есть) — когда это все закончится? Умру ли я или родственники? Вроде кейсов — миллионы, а ответов маловато. Понятно, что есть разные интересы, однако, похожие вопросы волнуют всех, с данными вроде саенисты работают, но что-то не выходит ничего, что-то всем мешает. Летом казалось, что победа, ну какая-то там может волна будет. Зимой стали умирать люди уже достаточно близкие. Будем ли мы что-то делать, чтобы снизить неизвестность? После конкурса Сбера особо никто не данными не занимался, хотя не сказать, что конец пандемии… Например, какая будет третья волна весной? Неужели мы будем только "ну, мне кажется..."

Предполагалось, что данные соответствуют простой модели развития заболеваемости. Такая модель простая, и было бы классно напрямую учесть карантинные меры, контакты между людьми, природные факторы… Но это еще один подход, помимо того, как учиться по историческим данным, которые есть по России и по другим странам.

Николай во втором раунде занял 13 из 76 мест. Да, модель точна до предположений. Параметры модели были подобраны по данным.

Не знаю. Скорее нет, т.к. только частью является.

Собственно "на калькуляторе" и считается основной объем вычислений для машинного обучения. Здесь смысл, который я хотел донести, идет от Мински — совокупность неразумных агентов вместе составляют ИИ.
В том то и суть парадигмы машинного обучения, что программа меняется в зависимости от внешних условий. Сама.

Действительно, пока даже ребёнок бьёт машину в примитивном распознавании. Но, может быть, это потому, что алгоритм плох? Прогресс алгоритмов показывает, что это, по видимому, так.

Чтобы сравнивать искусственный интеллект с биологическим, хорошо бы определиться, что значит последний. Но это тяжело. Самое простое, устоявшееся, определение — это когда машина не отличима от человека в его делах. Думаю, что все больше областей человеческой деятельности попадает под "неотличимо" (а часто просто хуже).
Для модели всегда важно при каких условиях она работает. Вы заостряете на этом моменте внимание, говоря о распределении Коши, чтобы кто-то не увлекся излишне МНК.

Было бы полезно очень четко прописать предпосылки, чего мне не хватило в статье.

Предлагаю такие слайды (много информации на англ., из Википедии и схожих источников, однако их также можно найти и в учебниках по эконометрике, напр., Greene):

Слайд 1

Слайд 2

Слайд 3

Еще, конечно, хорошо бы рассказать про тестирование параметров модели (а далеко ли ушли коэффициенты от нуля при ошибке их вычисления) и самой модели (хорошо ли модель объясняет у). Кое-что есть здесь. Но для нас важно как это работает с регуляризацией.

Кстати, про тестирование параметров, есть Monte Carlo тесты, имеющие вполне хороший смысл.
Ах, как хорошо, что решили пересчитать все. Взяли все матчи гранд-финала, все данные, которые отдала использовавшаяся во время хакатона система, посчитали все вероятности моделью. Потом посчитали score. Потом по score посчитали sum((1/2) х (duration(t+1)-duration(t)) х (score(t+1)+score(t))) (формула). Если формула правильная, то получили бы такие оценки: Match 51 = 1260, Match 50 = 1991, Match 49 = 2121, Match 48 = 1913 и заняли бы 3, 2, 3, 5 места в порядке матчей с конца… Ох да ах. Все же надо было больше доверять модели.
Мы тоже поудивлялись найденным связям, но модель молодцом реагировала на матч, подобно комментатору и консультанту, так что работала правильно, и это — самое главное!
1

Information

Rating
Does not participate
Location
Новосибирск, Новосибирская обл., Россия
Date of birth
Registered
Activity

Specialization

Chief Product Officer (CPO), Data Scientist
Lead
People management
Building a team
Startup management