Pull to refresh

Comments 3

Модель ваша?
Пробовали ли применить дистилляцию например к Whisper?
Для него тоже есть дистиллированные модели работающие с WhisperKit, но "выжимка" не такая впечатляющая.

Да, это наша модель. Изначально её и брали в качесте базовой модели, но возможно те метрики, которые описаны в статье были достигнуты на одной из её дообученных версий.
Виспер дистиллировать не пробовали, т.к. с ним было бы сильно больше сложностей. Поправте меня, если я не прав, но whisperkit же работает только на устройствах от apple, а мы бы не хотели, чтобы модель была привязана к определенной ОС.

Добавьте, пожалуйста, в статью чуть больше информации по параметрам обучения, такие как кол-ву данных на обучении, дистиляции, кол-во шагов дистиляции, коэффициены у KL лоса и тд

Sign up to leave a comment.

Articles