Pull to refresh
147
0
Yury Kashnitsky @yorko

Staff GenAI Field Solution Architect, Google Cloud

Send message

Лучше поздно чем никогда: поправил описание в англоязычной статье курса, русскоязычная версия уже не поддерживается, и тут хабр тоже не дает править. Спасибо!

Спасибо за статью!

Вопрос: почему мы стандартное отклонение в самом начале поделили на sqrt(n)? Как-то слишком низким получается стандартное отклонение. В формуле несмещенной оценки под корнем в знаменателе должно быть просто (n-1), а не n(n-1)?

В numpy – np.std(ddof=1) для несмещенной оценки

Я проверил самую простую и быстро проверяемую гипотезу. То что в прогнозах тональности не хватает сигнала, чтоб только на них одних предсказывать движение курса, не значит, что признак бесполезен. Он может использоваться в более сложных моделях как дополнительный признак.

Я делал дисклеймер, что в трейдинг не хочу лезть. То есть оно вроде и должно заработать, но если ещё 20x времени вложить.

Из любопытства, конечно, был эксперимент, где по сентиментам предсказывал, пойдёт ли биток вверх или вниз. Уверенный ROC=50% на валидации. Not so easy.

Зарабатывать проще было бы, продавая прогнозы тональности. Но это уже прод надо поддерживать, с клиентами общаться - выходит за рамки душевного пет-проджекта.

Спасибо!

У нас не самый показательный случай, поскольку получили две машинки бесплатно - с GPU от Hostkey и без - от dstack.ai.

Машина от Hostkey была космос: Xeon E-2288G 3.7GHz (8 cores)/64Gb/1Tb NVMe SSD/RTX 3090, карта A5000 на борту. Эта тачка покрывала все нужды.

Дев и прод мы разделили физически - машинка от dstack- это один из скромных EC2 инстансов. За счёт ONNX, мы справились без GPU во время инференса.

Если б бесплатных машин не было, мы бы использовали Kaggle Notebooks / Google Colab для экспериментов и мелкую машинку для деплоя. Я на время брал Hetzner CX31 – 8 Gb RAM, 2 vCPU, 80 GB disk, 10.77 евро/мес.

Не критично, 11 евро/мес. командой осилили бы. Но если есть возможность, советую получать ресурсы за бесплатно :)

да и задор есть, речь бодрая, я часто лыбу давил на встречах, вроде тимлид, надо серьезность сохранять

Это sampling with replacement (с возвращением), не понятно, к чему комментарий, что мы разные объекты берем. При сэмплировнии с возвращением как раз разные объекты и берутся, в каждом вытаскивании независимо, поэтому возможны дубликаты. Bootstrapping.


Нигде не говорится, что модель бэггинга "обучается на 63% данных". Каждая базовая модель обучается на выборке с возвращением из исходной выборки, в которой в среднем 63% уникальных объектов.


Про OOB error действительно неточность. Спасибо, поправим.

Я не в мэйле уже. И если что-то буду писать, то скорее в блог OpenDataScience. Но мой коллега вроде неплохо справляется.

Можно и mlcourse.ai добавить — в том числе в мэйле курс создавался, до сих пор лекции у вас проходят. И кстати, заберите у меня права автора в хабе Mail.ru :)

Вот этот курс «Deep Learning на пальцах» скорее можно назвать знакомством с нейросетями, недавно стартовал — топчик, на русском, бесплатно.

Функция правдоподобия как раз через плотность вероятности определяется.

А чем не устраивает план, обозначенный в предыдущей статье автора, на которую он тут ссылается?

Кину еще раз комент к предыдущей статье Семена — про подготовку по математике и Python

daleraliyorov у Медиума ущербное редактирование — ни латеха, ни маркдауна, просто боль. Куча около математических статей на Медиуме — с убогими скриншотами формул.


Там есть импортер из маркдауна, но для больших статей он отрабатывал с (n+1)-го раза.


"Публикации" на Медиуме — некий мутный термин для блога. Постоянно какие-то падальщики хотят к тебе добавиться в соавторы, причем надо вникать, что это значит.


Далее список замечаний товарища, каждый пункт он отдельным фейспалмом сопровождал (обсценная лексика опущена).


Функционал данной платформы с точки зрения автора поражает даже больше, чем с точки зрения читателя.
  • Чтобы адекватно вставить код, нужно запостить его на gist.github.com и заембедить.
  • Внутри списка нельзя вставлять картинки, код, preformatted block, вообще ничего. Нужно делать новый параграф, который заканчивает список.
  • Кстати, продолжать список с произвольного числа нельзя — списки только численные и начинаются с 1.
  • Указывать размер картинки относительно текста нельзя.
  • Комментарии и посты скидываются в одну помойку в профиле, так что их визуально не отличить.
  • При выборе юзернейма тебе прямым текстом говорят, что если ты 6 месяцев не будешь "активен", твой юзернейм могут забрать.
  • Он постоянно просит у меня деньги.

Для меня главный минус — что далее по подписке. Это прямо дизлайк, отписка!

«хороший немец — мёртвый немец».

Хотел прочитать статью, после этого передумал

Вот теперь упомянут. Тобой :)

Это и так можно в статье прочитать, и смысла в этом как-то не видно. На схеме обыкновенный LeNet для классификации рукописных цифр. Если выборка неразмеченная, то можно что-то интересное придумать только с автокодировщиками или подобными архитектурами, но никак не с той, что представлена.
По сути, детали исследования в статье обфусцированы, как и в большинстве научных статей.

Information

Rating
Does not participate
Location
Den Haag, Zuid-Holland, Нидерланды
Works in
Date of birth
Registered
Activity