Comments / Profile of ivankomarov / Habr

Иван Комаров @ivankomarov

Данные, люди, деньги.

ProfileArticles5PostsNews1Comments29

Как вкатиться в машинное обучение?

ivankomarov Feb 10 at 16:24

Будут записанные лекции + домашки, потом конкурс

Look

А/Б тестирование на маленьких выборках. Построение собственного критерия

ivankomarov Apr 5 2024 at 09:50

А какие подписи у шкал в графике "Оценка распределения p-value"?

Look

Охота на недостающий тип данных

ivankomarov Mar 18 2024 at 04:33

Neo4j достаточно резко начинает требовать коммерческую лицензию. Про Nebula не увидел. А кроме описания, есть опыт внедрения? Скажем для 0,5 млрд вершин и более млрд ребер?

Look

Охота на недостающий тип данных

ivankomarov Mar 16 2024 at 04:16

А какие базы (опенсорс / платные) хорошо масштабируется, кто что использует для больших графов?

Look

ML для оптимизации цен на основе эластичности по цене

ivankomarov Apr 13 2023 at 15:57

Очень интересно, инновационно, надеюсь работает. Вот как раз про последнее и хочется узнать - есть ли какие-то А/Б эксперименты, которые бы показали успешность метода? Ну или на худой конец исторические сравнения, что "после" стало лучше?

В этом смысле больше всего хотелось бы поговорить, да, об этом предположении: "обобщать информацию из естественных движений цен и продаж в прошлом." Почему происходят эти "естественные" движения? Это естественные движения по оптимизации оборота и прибыли? Или берете данные до оптимизации? Как работает ценообразование вообще?

Например, вполне естественно предположить (и у вас есть направленность не только на прибыль), что если спрос упал (кризис), то цены стоит опустить. Если в экономике бум (много денег), то цены стоит поднять. Тогда мало продаж и низкие цены и много продаж и высокие цены, т.е. кривая спроса меняет наклон.

Следующее соображение, эластичность - имеет отложенный эффект (как вы правильно сказали), т.е. цены опустили, а продажи выросли только через какое-то время (если ничего не случилось, скажем с доходами за это время). Другими словами, искать оптимум в вечно движущейся системе - задача динамическая, требующая учета кучи разновременных параметров.

Однако, что немного удивило - это то, что вы можете назначать цены, но не делаете экспериментов. Ссылаетесь на "бандитов", но не делаете какой-то простой инструмент типа "уменьши цену, если продажи выросли на больший процент за месяц, какой бы не был per unit cost, ты поступил правильно, уменьши еще". Что-то типа семплирования Томпсона эффективно бы гналось за оптимальной ценой для каждого из сотни тысяч товаров. ОК, возможно нужно было бы посчитать вдолгую, как вы сделали, чтобы была какая-то долгосрочная, более стабильная стратегия. Но для локальной оптимизации разве не выгоднее делать exploration?

Look

Анализ эффективности вакцинации в России и США

ivankomarov Feb 1 2022 at 01:30

А если учитывать возраст и сопутствующие (это сделать легко, если есть данные)?

И как бы вы предложили на общедоступных данных показать, что вакцина как-то влияет на смертность (вы могли бы)? Т.к. кажется на заразность она влиять слабо, да и к новым штаммам она малопригодна.

Look

Анализ эффективности вакцинации в России и США

ivankomarov Feb 1 2022 at 01:24

Не уверен что эффект от вакцинации в целом по России вообще возможно как-то четко увидеть

Вот это и расстраивает. Т.к. 1) Антиваксеры на коне, 2) Собственно автор это и показал ).

Т.е. критики кроме критики ничего не могут на данных показать, только рассказать "как надо"?

Другими словами, если (не дай бог) вакцина не работает, по стране увидим то же самое?

Look

Анализ эффективности вакцинации в России и США

ivankomarov Jan 31 2022 at 17:32

Почему статья не работает сказали. Но и в комментах и создатели вакцин говорят о том, что при вакцине не умрешь.

Т.е. вакцина -> не умрешь. Т.е. если взять две одинаковые страны (области), в одной вакцину поставить (30-60-90% населения), в другой не делать (0%), то какую смертность можно ожидать в обоих странах? Хотелось бы разную, причем в первой стране меньшую.

Или все настолько запутано (статистически и эпидемиологически), что при вакцинации как раз и наблюдаем, что делаем вакцины, а народ мрет ~~пуще прежнего~~ так же как и без вакцин?

Конечно, особенно поиграв в https://ncase.me/covid-19/, можно видеть, что заразность естественно всегда сильнее мер по вакцинации (да и вакцина начнет работать через 4 недели, кроме прочего). Так что видеть рост смертей среди непривитого и заболевшего населения на фоне роста вакцинации - понятный тренд. Это контр-аргумент автору.

Однако возникает вопрос, на который попытался найти ответ автор - а как можно увидеть в стране эффект от вакцинации? Отличное предложение - среди умерших смотреть % вакцинированных и смотреть на долю вакцинированного населения. Где-то есть такая статистика по Спутнику? По идее у государства есть (Госуслуги и Свидетельство о смерти).

Look

Data science vs COVID-19_Часть 1

ivankomarov May 11 2021 at 08:08

Исправил, думаю стало понятнее.

Look

Data science vs COVID-19_Часть 1

ivankomarov May 10 2021 at 15:46

Возможно, здесь сложности перевода, думаю с разностями все ОК. Собственно AutoRegressive Integrated Moving Average оттуда же, во и по-русски говорят также: ru.wikipedia.org/wiki/Интегрированный_временной_ряд

Look

Data Science vs COVID-19_Часть 3

ivankomarov Mar 15 2021 at 05:50

Именно так и ставили задачу — подобрать такие данные и фиттинг, которые дают максимальную точность (как определил выше). В статье — отчет победителя, что зашло («доля городского населения + временной ряд») и какую функцию строил (деревья на градиентном бустинге).

Look

Data Science vs COVID-19_Часть 3

ivankomarov Mar 11 2021 at 13:30

Регионов 85 штук, коэффициенты функций надо вычислять, я сам примерно так и делал, чтобы оценить параметры распространения во времени, а не просто распространение на неделю вперед. Это про некоторые сложности. С другой стороны, фитинг — это смысл машинного обучения. Фитится функция наиболее подходящая. Если делать «просто», прогноз будет хуже. В конкурсе «логарифмическая точность, т.е. точность в разах» (вернее MALE) прогноза на неделю была критерием победы. И нужно было постараться с фиттингом, чтобы победить (и забрать 300 000 руб.). Кстати, некоторые подозревают манипуляции с цифрами, когда предсказывать можно простым приростом («не более 10,000 в день, ± 500!»).

Look

Data science vs COVID-19_Часть 2

ivankomarov Feb 28 2021 at 15:39

Все же не хочется сдаваться ;) Ковид даёт кучу вопросов для дата саентистов: несколько опасно выходить на улицу, затихает ли все, какова вероятность заразиться? Хочется иметь понимание (по всем самым большим данным, которые есть) — когда это все закончится? Умру ли я или родственники? Вроде кейсов — миллионы, а ответов маловато. Понятно, что есть разные интересы, однако, похожие вопросы волнуют всех, с данными вроде саенисты работают, но что-то не выходит ничего, что-то всем мешает. Летом казалось, что победа, ну какая-то там может волна будет. Зимой стали умирать люди уже достаточно близкие. Будем ли мы что-то делать, чтобы снизить неизвестность? После конкурса Сбера особо никто не данными не занимался, хотя не сказать, что конец пандемии… Например, какая будет третья волна весной? Неужели мы будем только "ну, мне кажется..."

Look

Data science vs COVID-19_Часть 2

ivankomarov Feb 28 2021 at 11:42

Предполагалось, что данные соответствуют простой модели развития заболеваемости. Такая модель простая, и было бы классно напрямую учесть карантинные меры, контакты между людьми, природные факторы… Но это еще один подход, помимо того, как учиться по историческим данным, которые есть по России и по другим странам.

Look

Data science vs COVID-19_Часть 2

ivankomarov Feb 27 2021 at 13:06

Николай во втором раунде занял 13 из 76 мест. Да, модель точна до предположений. Параметры модели были подобраны по данным.

Look

Data science vs COVID-19_Часть 1

ivankomarov Feb 16 2021 at 13:30

ods.ai/competitions/sberbank-covid19-forecast/data

Look

Учимся у машинного обучения (субботнее, философское)

ivankomarov Mar 14 2016 at 09:23

Не знаю. Скорее нет, т.к. только частью является.

Собственно "на калькуляторе" и считается основной объем вычислений для машинного обучения. Здесь смысл, который я хотел донести, идет от Мински — совокупность неразумных агентов вместе составляют ИИ.

Look

Учимся у машинного обучения (субботнее, философское)

ivankomarov Mar 14 2016 at 05:57

В том то и суть парадигмы машинного обучения, что программа меняется в зависимости от внешних условий. Сама.

Действительно, пока даже ребёнок бьёт машину в примитивном распознавании. Но, может быть, это потому, что алгоритм плох? Прогресс алгоритмов показывает, что это, по видимому, так.

Чтобы сравнивать искусственный интеллект с биологическим, хорошо бы определиться, что значит последний. Но это тяжело. Самое простое, устоявшееся, определение — это когда машина не отличима от человека в его делах. Думаю, что все больше областей человеческой деятельности попадает под "неотличимо" (а часто просто хуже).

Look

Знакомьтесь, линейные модели

ivankomarov Mar 13 2016 at 17:33

Для модели всегда важно при каких условиях она работает. Вы заостряете на этом моменте внимание, говоря о распределении Коши, чтобы кто-то не увлекся излишне МНК.

Было бы полезно очень четко прописать предпосылки, чего мне не хватило в статье.

Предлагаю такие слайды (много информации на англ., из Википедии и схожих источников, однако их также можно найти и в учебниках по эконометрике, напр., Greene):

Слайд 1

Слайд 2

Слайд 3

Еще, конечно, хорошо бы рассказать про тестирование параметров модели (а далеко ли ушли коэффициенты от нуля при ошибке их вычисления) и самой модели (хорошо ли модель объясняет у). Кое-что есть здесь. Но для нас важно как это работает с регуляризацией.

Кстати, про тестирование параметров, есть Monte Carlo тесты, имеющие вполне хороший смысл.

Look

Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2»

ivankomarov Mar 12 2016 at 22:09

Ах, как хорошо, что решили пересчитать все. Взяли все матчи гранд-финала, все данные, которые отдала использовавшаяся во время хакатона система, посчитали все вероятности моделью. Потом посчитали score. Потом по score посчитали sum((1/2) х (duration(t+1)-duration(t)) х (score(t+1)+score(t))) (формула). Если формула правильная, то получили бы такие оценки: Match 51 = 1260, Match 50 = 1991, Match 49 = 2121, Match 48 = 1913 и заняли бы 3, 2, 3, 5 места в порядке матчей с конца… Ох да ах. Все же надо было больше доверять модели.

Look

Information

Specialization