Комментарии / Профиль Ka

Пользователь

Профиль Публикации Комментарии 50Закладки 2

Почему нельзя сделать прогноз CLTV с помощью одной модели

Спасибо, очень хорошая статья. (Как старый дед побрюзжу - это случается все реже и реже - не только на Хабре, но и на других ресурсах тоже)

Посмотреть

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

Ka_Wabanga 20 июл 2023 в 10:33

Спасибо. хорошая статья.

Сложно говорить просто "спасибо" - вроде поставил плюсик и иди дальше. Вот критиковать "легче" и даже не легче, а кажется более нужным, полезным.

Тут критиковать не хочется, не нужно и статья хорошая - и хотелось бы чтобы МЛ читатели обратили на материал внимание - может комментарий хоть немного да поможет.

Посмотреть

Единая нейросетевая модель кредитного скоринга

Ka_Wabanga 19 июл 2023 в 12:43

Наверно стоит пояснить немного:
При первом подходе проблема контроля данных никуда не исчезает, но можно теоретически проигнорировать контроль входных данных и смотреть распределения предсказаний индивидуальных моделей. Если что-то "поехало" можно просто убрать модель из "стекинга" линейной модели и продолжать выдавать "скоринги".

В случае нового варианта единой модели, уже не получится так легко манипулировать "ансамблем" и нужно будет уделять гораздо больше внимания тому, что подается на вход модели. И понятное дело, что у вас были "мониторинги" и до перехода на новую схему, но интересно посмотреть и почитать какая степень контроля данных считается вами достаточной и как это организовано (стек/инструменты/итд).

Посмотреть

Единая нейросетевая модель кредитного скоринга

Ka_Wabanga 19 июл 2023 в 12:21

И там и там есть свои плюсы и минусы (что очевидно)), но приятно видеть реальное развитие МЛ и "продакшен" МЛ).

Я бы с радостью почитал, как вы решали проблему жесткого "оверфитинга" "стеккинга" прошлого решения.

А по новому решению я бы с такой же радостью почитал про контроль качества данных, трансформации , "фичер стор" итд.

Посмотреть

Фантастические pandas

Ka_Wabanga 17 июл 2023 в 18:47

Дорогой дневничок, на улице лето, жарко. Прочитал дневник какого-то чувака - смысла мало, эмоций много - не понравилось.

Пошел есть мороженое. Завтра отпишусь как увеличение клетчатки и холодная лактоза влияют на стул - возможно будет много восклицательных знаков…

Посмотреть

Как из психолога вырасти в ML-специалиста

Ka_Wabanga 11 июл 2023 в 13:09

https://habr.com/ru/companies/aitalenthub/articles/747066/
https://habr.com/ru/companies/spbifmo/articles/745598/
https://habr.com/ru/companies/aitalenthub/articles/745516/
https://habr.com/ru/companies/spbifmo/news/745458/
https://habr.com/ru/companies/T1Holding/articles/741780/
https://habr.com/ru/companies/aitalenthub/articles/739832/

"инициатива абитуриента и студента нашей программы" - я с трудом могу представить 5-6 разных человек, которые по своей воле и независимо друг от друга "прониклись желанием" писать в одинаковой тематике.

---
Я прошу простить меня, но я не буду участвовать в дальнейшем обсуждении. Спор/дискуссия ради спора с придирками к словам и формулировкам тут совершенно бессмысленны - я не поменяю своего ощущения лицемерия, а вы до последнего будете держать позицию "правильности".

Удачи вам, вашим учащимся, выпускникам.

Посмотреть

Как из психолога вырасти в ML-специалиста

Ka_Wabanga 10 июл 2023 в 16:28

Любое образование это хорошо, удачи вам.

НО вы ещё не стали специалистом, даже «джуном» ещё не стали.

Меня очень смущает агрессивная реклама ИТМО - только за последнюю неделю на хабре вышло 4-5 материала этой «магистратуры», расписанных в «розовых тональностях».

«Популярный» курс не нуждается в таком активном «пиаре», но если цель забить бюджетные места и «оприходовать» деньги, то все сходится.

Мне больно видеть огромное количество посредственных курсов и программ, которые плодят такое огромное количество посредственных выпускников с завышенными ожиданиями. К сожалению, это тренд МЛ, с которым остаётся только смериться.

Посмотреть

Kaggle — практическое изучение Big Data. Что это за платформа, и как она работает

Ka_Wabanga 8 июл 2023 в 14:05

Причём здесь «биг дата»?

Бигдаты на каггле нет и нет возможность учиться работать с большим объемом данных - 15-200гб датасеты это не бигдата, хотя резюме все стерпит.

Посмотреть

Зарплатные вилки весной 2023: языки программирования и фреймворки

Ka_Wabanga 5 июл 2023 в 13:44

Удивительно, как потерялся питон

—

Правка: и нет, речь не про ДС и МЛ.

Мне всегда казалось, что python django и backend это «синонимы»)))

Посмотреть

Interpretability versus explainability: Интерпретируемость или объяснимость?

Ka_Wabanga 30 июн 2023 в 05:43

“Разница должна быть зафиксирована текстом» - точная цитата (время редактирования прошло)

Посмотреть

Interpretability versus explainability: Интерпретируемость или объяснимость?

Ka_Wabanga 30 июн 2023 в 04:48

Соглашусь с «критикой» предыдущих комментаторов - тема очень интересная и «богатая», но само объяснение хромает.

Я зашёл в канал и посмотрел, о чем пишет автор - мне понравилась фраза «должно быть зафиксировано в статье» - жаль, что это самоцель (написать статью) - лучше бы было «должно быть зафиксировано в мозгу», но, к сожалению, в статье нет ничего, что в мозгу останется после прочтения.

Посмотреть

Решение задачи определения RUL трансформаторов с помощью машинного обучения на python

Ka_Wabanga 25 июн 2023 в 11:07

«Ваша модель, со всеми регрессиями, градиентами, возможно прекрасна среди программистов»

К сожалению, с этой стороны тоже нечем восхищаться - подход очень базовый и больше похож на «Титаник».

Выбор метрики и Лосс функции (стремящейся к среднему), «брутфорс» генерация признаков без нормальной «селекции», не показана работа с пропусками и грязными данными, нет разбора дрифта значений и разбросов от типа оборудования.

Это бейзлайн «студента», которому два года до продакшена.

Реклама канала сомнительна, если «это» подаётся за МЛ прорыв и экспертизу.

Посмотреть

Гендиректор Twitter Линда Яккарино попросила сотрудников работать во благо Twitter 2.0

Ka_Wabanga 14 июн 2023 в 10:19

Можно работать ради денег, а можно работать ради идеи (и денег).

То что вы описали - это первый вариант, а им нужны вторые - те, которые поверят, что их строчки кода меняют мир к лучшему, которые будут ночевать на работе, которые будут «креативить» по зову сердца, вот именно для таких и было написано письмо.

Посмотреть

ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене

Ka_Wabanga 4 июн 2023 в 15:28

В тексте все хорошо, может слишком обобщенно, но это мелочи. Я бы рекомендовал прочитать книгу, которую вы упоминали в статье «designing ml systems».

Я не критикую переведённые утверждения - они настолько «базовые» что сложно накосячить, а про детали он не пишет так как сам не умеет и не пробовал.

Я критикую самого автора оригинала и пытаюсь «предупредить» не доверять слепое всему тому, что он пишет.

По мелочам -

«не начинай разрабатывать пока не продумаете как деплоить»

Красиво звучит, но если придираться, то ещё надо добавить «не начинайте пока с юристами не договоритесь, какие признаки можно использовать», «не начинаете пока не утвердите метрику успеха». «Не начинайте пока не подготовите а/б Фреймворк» итд…

Конечно можно строить модель в любой момент времени - главное понимать, чем это грозит, в чем цель и какой «тех долг» плодят разные подходы.

Посмотреть

ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене

Ka_Wabanga 4 июн 2023 в 14:28

Дамиен не работает в Мета. Дамиен «плывет» в формулировках и терминах и часто пишет «отсебятину» - это сложно увидеть по переработанным перепечаткам материалов, но когда он «вываливает» свои мысли - такие пробелы очень сильно заметны.

Человек поставил самопиар и «стезю инфлюенсера» выше систематических знаний и DS/ml развития. Удачи ему, конечно, но я бы 5 раз перепроверял за ним, даже если тексты выглядят «разумными».

Посмотреть

Быстро, точно, градиентно: как наш подход к градиентному бустингу повышает эффективность моделей

Ka_Wabanga 30 мая 2023 в 23:06

Ребята все хорошо написали. Я рекомендую вам прочитать про permutation importance - очень правильный подход с стд на разных сидах.

Нельзя просто выкидывать признаки - точнее можно, конечно, если понимать очень глубоко связи между ними. В реальной жизни часто бывают «связанные» признаки с нелинейными зависимостями / признаки с высокой корреляцией / сид сплита / другие варианты - при удалении одного из признаков часто сложно понять точное влияние на метрику - снижение или повышение метрики может быть просто рандомным фактором.

Посмотреть

Структурирование кредитного портфеля методами машинного обучения

Ka_Wabanga 24 мая 2023 в 08:25

ДатаСаенс, который мы заслужили.

Стань саентологом за 3 дня, Чатгпт напишет код за меня, будешь сидеть на работе без дела полгода, а получать денег много.

Посмотреть

Развитие ситуации с долларом и госдолгом США, а также новые налоговые вопросы к блогерам

Ka_Wabanga 8 мая 2023 в 14:45

К сожалению (или к счастью) я не читаю VC, но это конечно же не повод тащить на Хабр весь новостной шум.

«Мемчики» разбавлены причинно следственным анализом, который хоть и подаётся в юморизированной форме, но вполне интересен.

Я вижу много материалов из одного параграфа, материалы-курсовые, «ментальные высеры» (простите другого слова не нашёл), поверхностные и неточные статьи, тысячи «смотрите чатгпт». И мне приятнее читать финансовый анализ с юмором, чем то, что я привёл в качестве примера плохого контента.

Хабы/теги в статье выбраны корректно и люди, которым тематики не интересна могут просто проигнорировать материал.

Посмотреть

Развитие ситуации с долларом и госдолгом США, а также новые налоговые вопросы к блогерам

Ka_Wabanga 8 мая 2023 в 10:59

Позвольте с вами не согласиться. Да, это не тех. статьи и подача с «мемчиками» многих отталкивает, но есть и те кому нравится.

Например мне, хотя я сам двумя руками за сложные, развёрнутые технические материалы.

У автора данной еженедельной подборки очень своеобразный стиль на грани, и пожалуй чуть за гранью, приличия. Но стиль сдобренный большой долей личного мнения (и кажется основанном на большом опыте в фин. сфере?). Это мнение за всеми «гагами» интересно читать и читать не ежедневно, а именно в недельном формате, когда шуточная часть не вызывает сильного отторжения.

Чужое, качественное, обоснованное мнение вообще всегда интересно читать/слушать - можно не соглашаться с ним и с подачей, но своё мнение становится таким редким событием сейчас, что можно смириться с небольшими негативными нюансами.

Посмотреть

ЦБ РФ запустит пилот по операциям с цифровым рублём 1 апреля

Ka_Wabanga 17 фев 2023 в 17:26

Выбор даты говорит о хорошем чувстве юмора в ЦБ.

Посмотреть

2 3