Руководство по созданию датасета для машинного обучения / Комментарии / Хабр

Вода без конкретики. Например, аудио данные для обучения. Написание фреймворка для работы с аудио, который позволит мне правильно подготовить данные заняло полгода-год. Чтобы он мог выделять только голоса, откидывать шумные, определять громкость речи (крик, шёпот, тихая, громкая речь), определять уровень дикции (равномерно ли распределяет воздух в лёгких говорящий, чтобы не оказалось что в конце он уже заряжается и говорит тише), определение нет ли на записи посторонних голосов, функции правильного выравнивания речи по громкости (простая нормализация не учитывает, что кто то говорит немного громче или тише, микрофон по разному стоит), разбиение по эмоциональным признакам (чтобы оне мешать все в кучу) и так далее. Написание функций и этапов подготовки всех этих данных.

Вот согласно вашему описанию, вы написали , возьмите карандаш и нарисуйте сову. Вот без конкретных деталей, на конкретном примере данных для ллм к примеру, это просто набор текста.

Опишите конкретный пример. Дообучаем ллм, возьмём данные из Википедии или из документов компании и как вы решали эту задачу. Польза статьи сразу значительно вырастет.

Комментарии 3

kneaded 1 апр в 05:53

Руководство не полное, всё в общих чертах "хорошо делай, плохо не делай". Скорее не руководство а какой-то вводный урок из какого-то онлайн курса

punhin 16 июн в 18:16

Обёъм даных (датасет) - до десяти тысяч маленький, от ста тысяч - большой. Но вот вопрос: а что считать записью? Отдельно записанное в аудиофайл слово - это запись? А аудиокнига, которую десять часов слушать будешь, - это тоже одна запись?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий