igrishaev Feb 6 2011 at 11:05

Рисуем волну .wav-файла

5 min

84K

Python*

+65

Comments 39

ArtemSmirnov Feb 6 2011 at 11:06

нарисовать фолну

Поправьте в первом предложении.

Lachezis Feb 6 2011 at 11:35

Почему вы не пользуетесь ПМ?

Sannis Feb 6 2011 at 11:37

Потому что автор не пользуется проверкой орфографии в браузере.

equand Feb 6 2011 at 11:50

Почему struct.unpack не пользовали, а нампи?

igrishaev Feb 6 2011 at 13:22

Да, можно парсить через struct, не спорю. Но я где-то читал (к сожалению, не помню, где), что mathplotlib заточена под numpy, выше производительность по сравнению со стандартными списками. И кроме того, если со звуком будут выполняться какие-либо манипуляции (нормализация, фильтры, компрессия, преобразования Фурье), то лучше numpy-массивов ничего лучше быть не может.

LeoMat Feb 6 2011 at 13:31

Да, в том и дело, что в numpy массивы, а не списки. А массивы и существуют для обработки больших данных однородной информации. Кстати, вы повторяете ошибку и в статье, и в этом комментарии: Matplotlib пишется без h.

coxx Feb 6 2011 at 12:04

Меня топик чем-то зацепил, наверное я бессознательно тоже хочу waveform-ы на python рисовать :)
Интересно, что-то из готового пробовали приспособить?
С ходу гуглится такое и вот такое.
А еще scipy.io.wavfile.read.

LeoMat Feb 6 2011 at 13:14

Да, тем более что scipy.io.wavfile как раз возвращает numpy array.

igrishaev Feb 6 2011 at 13:24

Пробывал scipy.io.wavfile, у меня почему-то выдавало ошибку на некоторых файлах. Решил отложить scipy на потом.

xman Feb 6 2011 at 12:21

Спасибо!
P.S: В скрипте удалите «r» в первом param:

wav = wave.open(r«music.wav», mode=«r»)

webknjaz Feb 6 2011 at 13:13

и в четвертом абзаце
а xe3\xfа — второго (правого).

hx0 Feb 6 2011 at 12:31

Хороший выбор средств.

А вообще мне очень нравится, что с wave работать легко и просто, например нормально (для любых wav) повернуть звук задом наперёд занимает всего примерно 10 строк.

UFO landed and left these words here

igrishaev Feb 6 2011 at 13:29

В модуле wave есть класс для записи wav-файла. В гугле можно найти примеры, как генерируют вейвы с шумом на основе random. А как читать звук с девайсов, к сожалению, не знаю.

LeoMat Feb 6 2011 at 13:40

Читать можно, например, с помощью pymedia.audio.sound. В tutorial есть пример voice recoder.

equand Feb 6 2011 at 13:33

440 гц :) = до, вроде так, не помню уже
там кучу гармоник еще делать, звучание струны + отражения других струн ну и реверберация внутри коробки.
Забейте, в наше время хиты делаются коктейлем white trash poser + autotune

orybak Feb 6 2011 at 15:16

вроде 440гц — это ля первой октавы.

stryaponoff Feb 6 2011 at 13:11

Интересно, а звук в питоне получать со звуковухи можно? То есть, реально ли написать, например, тюнер с помощью каких-то уже реально существующих библиотек, как это сделано тут?

LeoMat Feb 6 2011 at 13:28

Конечно, можно. Например, с помощью pymedia.

stryaponoff Feb 6 2011 at 15:45

Спасибо, попробую поковыряться, всегда было интересно что-нибудь такое написать

seriyPS Feb 6 2011 at 16:56

Можно вроде GStreamer pygst модуль зовется. Правда под win вроде не очень работает.

UFO landed and left these words here

igrishaev Feb 6 2011 at 23:22

Конечно, я сверял график с другими программами.
Изображение с программы SoundBooth:

Мой график:

Видимо, меня подвел коэфициент k для прореживания графика. Чем он больше (ближе к числу сэмплов), тем лучше график.

igrishaev Feb 6 2011 at 23:40

Обновил код с новым коэффициентом.

seriyPS Feb 7 2011 at 02:21

ток акуратнее, на коротеньких файлах коэффициент может стать 0 а это вызовет ValueError: slice step cannot be zero

seriyPS Feb 6 2011 at 16:59

Слушайте, в этом скрипте нужно загружать весь файл в память… Соответственно очень большие файлы так не обработаешь ибо память закончится.

Можно-ли как то переделать на потоковую обработку? Считывать и обрабатывать пофреймово допустим...?

equand Feb 6 2011 at 18:44

content = wav.readframes(nframes)
прочтите сколько надо фреймов, меняйте переменную nframes под количество байт в нем, читайте, принудительно удаляйте объекты или перезаписывайте буфер content.

seriyPS Feb 6 2011 at 19:22

Это я заметил, но мне кажется что будут проблемы с калибровкой высоты графика, ведь нужно макс. амплитуду знать чтобы разрешение по Y оси задать…
Можно в 2 прохода сделать конечно, но не очень приятная перспектива.

UFO landed and left these words here

seriyPS Feb 6 2011 at 20:27

256^sampwidth чтоль? Переменная peak?
Если да, то ок, принимается. (Что за магическая константа 256?)

Хотя исходный скрипт довольно сильно переделывать придется. Надо будет заняться на досуге.

А matplotlib умеет данные по кусочкам принимать? (хотя после разрежения channel = channel[0::k] там объем данных очень сильно сократится, так что главное ДО процедуры разрежения все потоково проделать)

Да, надо будет заняться на досуге…

igrishaev Feb 6 2011 at 23:32

peak — это пиковое значение амплитуды. Зная, сколько байт выделяется под один сэмпл, можно высчитать ее максимальное значение: 256 (макс. амплитуда для 1 байта) возвести в степень числа байт на сэмпл и разделить пополам.
А по поводу чтения по кусочкам — совершенно верно, но это уже дальнейшая оптимизация.

dos Feb 7 2011 at 15:24

А есть возможность получить громкость в дб в определённый момент времени? Грубо говоря сделать цикл от 0 сек до 60 сек?

igrishaev Feb 7 2011 at 23:59

Функция format_db, приведенная в коде, возвращает громкость в децибелах по амплитуде.

mrShadow Feb 10 2011 at 06:58

По коду похоже, что внутри конкретного фрейма и канала цифры обозначают только амплитуду. Как (и где) тогда в wav-файле хранится распределение по частотам?

igrishaev Feb 10 2011 at 08:01

Распределение по частотам нигде не хранится, эти данные извлекаются аналитически. Сейчас работаю над этим.
Гуглите по словам «wave frequency analyze»

mrShadow Feb 10 2011 at 08:26

Не гуглил, но кажется понял. У нас распределение по частотам образуется изменением амплитуды во времени (по фреймам). То есть, если нам нужна скажем одна волна частотой 1КГц, мы можем завести по 2000 фреймов в секунду и в каждом фрейме менять знак амплитуды. Так можно задать произвольную комбинацию волн, складывая амплитуды, соответствующие каждой волне, в каждом фрейме (а получить волны «обратно» можно каким-нибудь преобразованием Фурье).

ckald Aug 31 2012 at 07:51

А вы пробовали работать с 24-битными файлами? python.wave ведет себя странно — sample width == 3, но len(sample.readframes(1)) == 6

Похоже на баг библиотеки