Yury Kashnitsky @yorko
Staff GenAI Field Solution Architect, Google Cloud
Information
- Rating
- Does not participate
- Location
- Den Haag, Zuid-Holland, Нидерланды
- Works in
- Date of birth
- Registered
- Activity
Staff GenAI Field Solution Architect, Google Cloud
Лучше поздно чем никогда: поправил описание в англоязычной статье курса, русскоязычная версия уже не поддерживается, и тут хабр тоже не дает править. Спасибо!
Спасибо за статью!
Вопрос: почему мы стандартное отклонение в самом начале поделили на sqrt(n)? Как-то слишком низким получается стандартное отклонение. В формуле несмещенной оценки под корнем в знаменателе должно быть просто (n-1), а не n(n-1)?
В numpy –
np.std(ddof=1)
для несмещенной оценкиЯ проверил самую простую и быстро проверяемую гипотезу. То что в прогнозах тональности не хватает сигнала, чтоб только на них одних предсказывать движение курса, не значит, что признак бесполезен. Он может использоваться в более сложных моделях как дополнительный признак.
Я делал дисклеймер, что в трейдинг не хочу лезть. То есть оно вроде и должно заработать, но если ещё 20x времени вложить.
Из любопытства, конечно, был эксперимент, где по сентиментам предсказывал, пойдёт ли биток вверх или вниз. Уверенный ROC=50% на валидации. Not so easy.
Зарабатывать проще было бы, продавая прогнозы тональности. Но это уже прод надо поддерживать, с клиентами общаться - выходит за рамки душевного пет-проджекта.
Спасибо!
У нас не самый показательный случай, поскольку получили две машинки бесплатно - с GPU от Hostkey и без - от dstack.ai.
Машина от Hostkey была космос: Xeon E-2288G 3.7GHz (8 cores)/64Gb/1Tb NVMe SSD/RTX 3090, карта A5000 на борту. Эта тачка покрывала все нужды.
Дев и прод мы разделили физически - машинка от dstack- это один из скромных EC2 инстансов. За счёт ONNX, мы справились без GPU во время инференса.
Если б бесплатных машин не было, мы бы использовали Kaggle Notebooks / Google Colab для экспериментов и мелкую машинку для деплоя. Я на время брал Hetzner CX31 – 8 Gb RAM, 2 vCPU, 80 GB disk, 10.77 евро/мес.
Не критично, 11 евро/мес. командой осилили бы. Но если есть возможность, советую получать ресурсы за бесплатно :)
да и задор есть, речь бодрая, я часто лыбу давил на встречах, вроде тимлид, надо серьезность сохранять
Это sampling with replacement (с возвращением), не понятно, к чему комментарий, что мы разные объекты берем. При сэмплировнии с возвращением как раз разные объекты и берутся, в каждом вытаскивании независимо, поэтому возможны дубликаты. Bootstrapping.
Нигде не говорится, что модель бэггинга "обучается на 63% данных". Каждая базовая модель обучается на выборке с возвращением из исходной выборки, в которой в среднем 63% уникальных объектов.
Про OOB error действительно неточность. Спасибо, поправим.
daleraliyorov
Я не в мэйле уже. И если что-то буду писать, то скорее в блог OpenDataScience. Но мой коллега вроде неплохо справляется.
Можно и mlcourse.ai добавить — в том числе в мэйле курс создавался, до сих пор лекции у вас проходят. И кстати, заберите у меня права автора в хабе Mail.ru :)
Вот этот курс «Deep Learning на пальцах» скорее можно назвать знакомством с нейросетями, недавно стартовал — топчик, на русском, бесплатно.
Функция правдоподобия как раз через плотность вероятности определяется.
А чем не устраивает план, обозначенный в предыдущей статье автора, на которую он тут ссылается?
Кину еще раз комент к предыдущей статье Семена — про подготовку по математике и Python
daleraliyorov у Медиума ущербное редактирование — ни латеха, ни маркдауна, просто боль. Куча около математических статей на Медиуме — с убогими скриншотами формул.
Там есть импортер из маркдауна, но для больших статей он отрабатывал с (n+1)-го раза.
"Публикации" на Медиуме — некий мутный термин для блога. Постоянно какие-то падальщики хотят к тебе добавиться в соавторы, причем надо вникать, что это значит.
Далее список замечаний товарища, каждый пункт он отдельным фейспалмом сопровождал (обсценная лексика опущена).
Для меня главный минус — что далее по подписке. Это прямо дизлайк, отписка!
Triggered! Ewin Tang так-то девушка!
Хотел прочитать статью, после этого передумал
ЖЖ тут https://www.livejournal.com.
Вот теперь упомянут. Тобой :)
Это и так можно в статье прочитать, и смысла в этом как-то не видно. На схеме обыкновенный LeNet для классификации рукописных цифр. Если выборка неразмеченная, то можно что-то интересное придумать только с автокодировщиками или подобными архитектурами, но никак не с той, что представлена.
По сути, детали исследования в статье обфусцированы, как и в большинстве научных статей.