Комментарии / Профиль 381222 / Хабр

Robert @381222

Senior Data Scientist

ПрофильСтатьиПостыНовостиКомментарии56

Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту

381222 23 ноя 2022 в 19:05

Не работает модель на HuggingFace

Посмотреть

История одного собеседования

381222 12 мар 2021 в 17:50

«Оверквалифайд» необязательно по требуемым знаниям, возможно по софт скиллам и вашему потенциальному начальнику ~~боязно~~ некомфортно будет с вами работать.

Посмотреть

Создание системы антифрода в такси с нуля

381222 29 июл 2020 в 16:16

Почему вы просто модель не сделали? Какой-нибудь бустинг максимизировал бы ваши показатели на текущих фичах и разметке данных.

Посмотреть

ИИ от Google обучил дочерний ИИ, который превосходит все ИИ, созданные человеком

381222 4 дек 2017 в 17:11

Научная статья опубликована 1 декабря 2018 года

Новость из будущего?

Посмотреть

RAIF-Challenge 2017: онлайн-чемпионат по искусственному интеллекту. Применяем ML/AI на практике

381222 21 сен 2017 в 17:52

Данные то как скачать? Пароль требует)

Посмотреть

Антиспам в Mail.Ru: как машине распознать взломщика по его поведению

381222 26 апр 2016 в 12:47

Устройство то же, сессия та же. Странно, что вообще просит ввести пароль)

Посмотреть

Антиспам в Mail.Ru: как машине распознать взломщика по его поведению

381222 25 апр 2016 в 20:49

Это нежелательные письма вроде только что пришедшего письма с заголовком «Buy Cheap Meds. Save up to 88%. New 21 products. Deliver to your home.»
Похоже, что анализ взломанности аккаунта у вас работает гораздо лучше, чем спам фильтры.

Посмотреть

Антиспам в Mail.Ru: как машине распознать взломщика по его поведению

381222 25 апр 2016 в 16:42

И какая в итоге точность получилась? Что то подобное еще в эпоху байесовских спам фильтров использовали. Кстати на gmail мне спам не приходит, в отличие от mail.ru.

Посмотреть

Empty

381222 15 апр 2016 в 17:35

Посмотрел документацию по OpenCV, очень самобытный пакет, по крайней мере в части ML :) Попробуйте не decision trees, а что то из random forest или xgboost с настройкой под бустинг random forest. Тем более, что у вас переменных много, а данных мало.
Про аномальную функцию разобрался :) Это Logloss или кросс-энтропия. Правда, в оригинальном исполнении с регуляризатором. В регрессии регуляризатором штрафуют большие коэффициенты весов, а здесь мы что штрафуем? Я бы еще понял, если бы он был от -1 до 1, чтобы смещать деление по классам. Но он от 0 до 1, т.е. смещает только в одну сторону.
Низкие значения полученной точности алгоритмов подозрительны. На картинках глазом видны отличия, а алгоритм выдает 55%, такого не может быть.

Посмотреть

Empty

381222 14 апр 2016 в 23:42

По количеству данных посмотрел, но вопросов не убавилось) Как вам удалось считать, используя 0.01% от 48 штук? Или для GBT кросс-валидация не использовалась? Но все равно почему не 0.5 или 0.8, почему 0.0001??

Посмотреть

Empty

381222 14 апр 2016 в 23:26

Затронутая тема очень интересна, но статья мягко говоря странная. Вроде бы собирались оценивать действия летчиков на этапе посадки, но пишите вы о классификации классов летчиков. Метрика странная, почему не матрица определения классов, точность, полнота, f-мера и т.п.? Количество ошибок по классам само по себе мало о чем говорит.
Параметры GBT меня поразили :) Можете пояснить?:
— Никогда не слышал о такой функции потерь:) Может быть я ее знаю под другим именем?
— Зачем в GBT регуляризация? В принципе можно ее сделать, но у вас еще и классификация, а не регрессия.
— Порция подвыборки это в смысле sabsample? 0.01% от выборки за раз?? А зачем так? Сколько у вас вообще данных?
— Максимальная глубина деревьев 1, при рекомендуемых 6 и обычно используемых 10+. Чем продиктован такой выбор?
— Что такое суррогаты? Вы увеличивали количество данных с помощью synthetic data generation?

И отдельно — всегда интересовало почему не сделают автоматическую посадку? Робот посадит самолет гораздо точнее, быстрее среагирует на порывы ветра и скольжение, быстрее поймет, что посадку надо прерывать и идти на повторную.

Посмотреть

Deep Reinforcement Learning (или за что купили DeepMind)

381222 21 мар 2016 в 13:54

Никто не пробовал с этой технологией бота для какой-нибудь большой игры написать?

Посмотреть

Линейные модели: простая регрессия

381222 17 мар 2016 в 11:59

Спасибо за статью.
Лучше все таки сразу использовать метрику, оценка на глаз может промахнуться :)
В R после добавления переменной x2*x3 переменные x2 и x3 можно в модели не указывать, т.е. будет y~x1+x2*x3.
Переменная X имеет какой то физический смысл? Из за неравномерного распределения x3 от X, модель с X будет лучше, т.е. y~X+x1+x2*x3
x1 больше похож на шум, надо чистить/преобразовывать или убирать. Т.е. для glm будет лучше y~x2*x3

Посмотреть

Знакомьтесь, линейные модели

381222 10 мар 2016 в 18:32

Отлично смотрелся бы еще код на R и примеры из наборов данных и соответствующих графиков)

Посмотреть

Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2»

381222 9 мар 2016 в 09:23

В чем считали? Неужели в Excel? Почему выбрали SVM? Какой алгоритм был бы лучше? Код?)

Посмотреть

Azure Machine Learning: разработка сервисов машинного обучения и их использование в мобильном приложении

381222 20 янв 2016 в 19:25

Почему же, можно использовать. Если загружать уже почищенные и обработанные данные, то достаточно удобно перебирать и сравнивать модели. Хотя громоздкость и негибкость, конечно, убивают.
Забавно, что посмотреть предсказание уже натренированной модели можно только через веб сервис. Результатом эксперимента получается такой black box, который вроде бы выдавал на тесте хороший результат. Крайне забавно, что посмотреть саму модель невозможно.
Визуализация переменных вроде бы удобна, но посмотреть что то кроме того, что оно показывает невозможно. Это не считая того, что если у вас много переменных, то вы их вообще не увидите, показывает только первые 100. Работа со скриптами на R крайне не удобна по сравнению с Rstudio. Разгадка полученной ошибки превращается в увлекательный квест, хелп предельно краток, поиск по форуму выдает пару тройку тем с маловразумительными ответами. Но может быть не те вопросы искал)
Предсказать, кстати, можно только 1 переменную. И забудьте про циклы, их не существует.
Вывод: для исследовательской работы инструмент бесполезен. Что с ним делать новичку тоже не очень представляю. Единственный способ использования — создание веб сервиса.

Посмотреть

Обзор наиболее интересных материалов по анализу данных и машинному обучению №33 (26 января — 1 февраля 2015)

381222 2 фев 2015 в 15:31

Ух какая активность в комментариях :) Спасибо за обзоры, сорри, что комментарии обычно не пишу.

Посмотреть

R reference manual

381222 22 дек 2014 в 16:24

help RStudio вполне себе удобен, проблема в том, что информации там не так чтобы много. Не уверен, что голый R без packages вообще кто то использует :)

Посмотреть

R reference manual

381222 22 дек 2014 в 15:27

Если это не скопировано из help Rstudio, то очень полезная штука. Особенно, если включает в себя хотя бы 20 top CRAN packages.

Посмотреть

Почему трава зеленая, а программисты крутые

381222 17 сен 2014 в 16:09

«Почему трава зеленая?» — в этой статье наиболее полный и понятный ответ на этот вопрос из всех статей почемучек, что я видел :)

Посмотреть

2 3