Невероятно, что для таких сложных асинхронных мультидевайсных оптимизаций требуется так мало кода без низкоуровневого программирования и всё на python! Отличная работа!
Тоже ввёл в заблуждение данный параграф из начала статьи, я бы его переформулировал следующим образом: t-SNE сохраняет локальную структуру (не путать с расстояниями), а PCA глобальную структуру
Добавьте, пожалуйста, в статью чуть больше информации по параметрам обучения, такие как кол-ву данных на обучении, дистиляции, кол-во шагов дистиляции, коэффициены у KL лоса и тд
Невероятно, что для таких сложных асинхронных мультидевайсных оптимизаций требуется так мало кода без низкоуровневого программирования и всё на python! Отличная работа!
Тоже ввёл в заблуждение данный параграф из начала статьи, я бы его переформулировал следующим образом: t-SNE сохраняет локальную структуру (не путать с расстояниями), а PCA глобальную структуру
Добавьте, пожалуйста, в статью чуть больше информации по параметрам обучения, такие как кол-ву данных на обучении, дистиляции, кол-во шагов дистиляции, коэффициены у KL лоса и тд
Интересно было бы также в тексте указать ники ребят с кодфорсес - какой рейтинг у победителей олимпиад такого уровня?
Спасибо за статью!
Было интересно услышать чуть больше деталей конкретно про Diffusion Model
Как обстаят дела с
ssrу веб компонентов? Они в него могут?