Как стать автором
Обновить
74
0
Алексеев Сергей @Tontu

Пользователь

Отправить сообщение

Я отправил образец Михаилу R7GE Грекову с тем, чтобы он посравнивал и замерил на хорошем стенде, но у него со временем большая напряженка, не знаю когда он будет их замерять и слушать. Остановилось всё на том, что он просто проверил их работоспособность после доставки недели три-четыре назад где-то.

Это хобби по большей части, никаких массовый серий нет и им неоткуда взяться. А если собирать штучно самому, то мне это не выгодно, потому что у меня хорошая фуллтайм работа, на которую грех жаловаться. Оставшийся вариант собирать по цене крыла от боинга, но едва ли это кому-то надо будет, кроме полутора землекопов.

Ну я бы сказал, что нет дыма без огня. В статье описана половинчатая субъективная методология. Я бы перешел на шкалу из покера сложности в виде чисел фибоначчи или геометрической, кому как больше нравится. То есть привести эту задачу к agile методологии, таким образов подход унифицируется с самим процессом разработки, что очень хорошо. Такого рода оценку можно производить по параметру сложности работы с соискателем. Мы имеем несколько специалистов, способных дать свою оценку, так что покер сложности тут вполне применим, это даже почти не натягивание совы на глобус. Удобно в команде оценки наличие 3-х, имхо не больше 4-х человек (в зависимости от структуры команды).

Такой подход в первую очередь позволит оценить соискателя именно со стороны тех, кому это нужно больше всех. Руководитель на основе своих текущих задач может лучше всяких даже самых передовых методик оценить потенциал соискателя. Такой подход кстати работает и с работниками для оценки их производительности.

Сам параметр сложности работы с соискателем строится на основе личных субъективных оценок. Каждый участник такого покера сложности имеет свою шкалу (например такую, как описана в статье), но в сумме из всех субъективных шкал строится одна более-менее объективная. Только такое усреднение, как в покере сложности, придаёт ценность таким субъективным шкалам. Сами по себе такие шкалы мало ценны и описывать их мало толка, потому что, как видно из дискуссии, у каждого своё видение. Тот случай, когда среднее по больнице работает почти идеально.

Это прям нирвана в области управления кадрами.

По моему собственному опыту за огромными сложными технически собесами маскировались негативные процессы внутри команд, где за формальностями прятались проблемы взаимодействия между разработчиками (в меньшей степени) и между исполнителями и руководством (в большей). За формальностями (а формальнее кода в принципе не придумать) пытались защитить свои личные позиции в жестокой конкурентной среде руководители. Это, по сути, последнее средство защиты у тех, кто имеет не иллюзорный риск слететь с позиции. Ведь сами подумайте, если тимлид принимает собес и очень активно гоняет по коду, то сложно сказать, что он некомпетентен как руководитель. Вон же он как активно работает, наверно что-то умеет. На моей памяти все хорошие тимлиды, у которых команда укладывалась в назначенные сроки и поддержка кодовой базы без критичных проблем шла годами при постоянном расширении функциональности, могли без проблем за десяток-другой минут составить достаточно полное представление о кандидате, а если кандидат был не из самых сильных, то эффективно помогали расти, если видели потенциал.

Есть, конечно, исключения, где, например, тестовое задание просто необходимо, потому что принимают много джунов и нужно прям реально каждому его давать, дабы не тратить время на откровенно некомпетентные кадры. Или специфика области такая, что без кода ну никак не понять квалификацию. Может быть что-то академическое-математическое, где словами сложнее описывать, чем символами.

Разумеется, субъективный взгляд на полноту не претендующий.

В литературе по ML аббревиатура NLP носит строго определённый характер и никак иначе, кроме как Natural Language Processing не интерпретируется. В статье расписывается весьма сложная высокоуровневая проблема, имеющая практическое значение для очень серьезных дядек, занимающихся актуальными языковыми моделями, не только предобученными, но и даже обучаемыми с нуля, что вообще может себе позволить далеко не каждая контора. Так что такой наезд сродни наезду на статью по квантовой физике за непонятные буковки в формулах. Ну не будут в таких статьях каждый раз расписывать обозначения постоянной Планка

Голую модель всё равно в прикладных задачах никто использовать не будет, скорее всего GPT-4 можно будет оперативно и эффективно файнтюнить. Очень грубо говоря, можно добавить новую связь любому контексту с положительным, либо с отрицательным окрасом. 10 раз скормить ей на вход фразу "Гуманизм - хорошо", пока выход не согласуется с этим утверждением. Ну это прям донельзя грубо. Тут бы ещё скормить большое количество данных с рассуждениями до гуманизму, а то решит ещё что гуманнее всего уничтожить этих ваших человеков.

Я из их статьи ссылку на датасет и нашёл. Посмотрим. В принципе для голосового ассистента все подобные модели дают хорошее качество. Ещё надо STT прикрутить, но там предобученная модель на русском есть, так что проблем не должно быть. Ну кроме размера, не факт что TTS и STT смогут одновременно крутиться в памяти. STT можно прямо сейчас подключать и пробовать, но это легко и не спортивно :) так что я начал с TTS.

Не так давно попробовал на ассистента накатить NeMo от Nvidia. В первую очередь попробовал добавить TTS, но оказалось что предобученных моделей на русском просто нет. По-английски зато на предобученной модели FastSpeech2 говорит прекрасно. Но вот только один этот TTS модуль у меня на ноутбучной 3060 едва ли может обработать предложение из 25 слов. Памяти не хватает. Зато качество отличное. Пробую ещё обучить на датасете Ruslan модель GlowTTS, по идее она даже легче чем FastSpeech2. Если получится, оформлю подключаемый модуль с ним.

Вы можете без простого скидывания ссылок самостоятельно попробовать обосновать выводы, которые Sean Olive получил в своих опытах? У меня кстати к самой методике огромные вопросы. Это, конечно, влияние промежуточного звена, точно такого же нелинейного. Я вам объясняю, что промежуточное звено точно также за счет своей нелинейности не даст обыкновенную сумму искажений, принцип суперпозиции в нелинейных системах в принципе не работает. Поэтому нельзя сложить искажения от наушников А и от наушников Б и сказать, что при суммировании графиков искажений получится то, что будет при пропускании записи сигнала с наушников А на наушниках Б.

При чем здесь нелинейные искажения? Вы вообще в курсе что такое линейная и нелинейная система? Нелинейные искажения это лишь частный случай эффектов, возникающих в нелинейных системах. Для справки - неизохронность, зависимость периода колебаний от амплитуды. А также бифуркации, мультистабильность и гистерезис и прочее. Вы же учитываете лишь кривую передаточной характеристики.

В любом случае в нелинейной системе выход сигнала зависит либо от амплитуды (а вы меряете на постоянной амплитуде), либо от фазы (а эквалайзер фазу крутит, особенно это заметно будет на низах), а что наиболее вероятно всё вместе. И после этого вы всё ещё будете утверждать, что однократный замер АЧХ и его компенсация может помочь на сигнале, отличном от ровной синусоиды?

Замечательно, ответ достойный современного хабра.

Я хочу все-таки когда-нибудь получить прямой ответ на вопрос - как вы собрались скомпенсировать воздействие на сигнал нелинейной системы (а наушники именно нелинейная система) с помощью линейного фильтра, в нашем случае БИХ фильтра? Я вас хочу вывести на разговор не про картиночки (которые , несомненно, интересны, но как-нибудь в другой раз), а хочу наконец услышать грамотную аргументацию про то, насколько наушники можно считать линейной системой, чтобы делать такое. Мой тезис - наушники нелинейная система и нельзя скомпенсировать их влияние с помощью линейного фильтра. Любая такая попытка обернётся ни чем иным, как значительным возрастанием соотношения сигнал/шум.

Как вы со сглаживание 1/6 октавы собрались рассматривать пики на АЧХ? Вы в курсе что все графики АЧХ имею сглаживание, да в добавок довольно сильное 1/3 октавы, 1/6 октавы и т.д. Серьёзных проблем со звуком вы на таких графиках не увидите, потому что самые опасные резонансы обладают высокой добротность и очень узкую полосу на этой самой АЧХ, а любое сглаживание этот пик просто замаскирует. Это одновременно самые опасные и самые не заметные на среднестатистическогом графике АЧХ проблемы.

ИХ и АЧХ вещи взаимозаменяемые благодаря преобразования Фурье. Если я на ваше предложение применяю это преобразование, то получится буквально

"Это никак не отменяет факт бессмысленности гаданий о звуке по виду ступеньки или АЧХ. "

Вы по факту так сами себе противоречите. И все-таки самый важный комментарий от меня ниже, там самая суть критики. Про степень нелинейности в первую очередь.

А вот ту надо уточнить. Я говорю про типичный алгоритм эквализации. Как он сделан в программных средствах. Любая эквализация дискретного сигнала по сути свёртка входного сигнала с импульсной характеристикой. Эквализация осуществляется именно с помощью ИХ, благо благодаря преобразованию Фурье эквализация что по ИХ, что по АЧХ эквивалентны. А алгоритмы работают почти всегда с ИХ, потому что при попытке работать с АЧХ напрямую придётся сначала перевести сигнал в спектрограмму, применить эквализацию, получить этим самым новую спектрограмму и уже эту новую спектрограмму как-то превратить обратно в сигнал. А так никто не делает, потому что превращение спектрограммы сигнала в исходный сигнал задача нетривиальная. А операция сверки хорошо оптимизируется, любой DSP имеет специальные команды для проведения быстрой свертки. Поэтому любой графический эквалайзер по сути генерирует по АЧХ соответствующую ему ИХ. Исключение - параметрические эквалайзеры. Они по сути уже заранее имеют внутри себя заранее заготовленную функцию, описывающую импульсную характеристику, в которую просто подставляют параметры. Но они тут не интересны, они по ИХ рисуют АЧХ, для удобства использования.

Полностью согласен, даже на таком чисто математическом уровне в статье промах, не говоря за общую логику построения модели. Для нелинейной системы предложенный метод корректировки ни на что не годится. Ну кроме разве что синусоиду на постоянной амплитуде слушать. Интересное, наверно, занятие.

Ну и в догонку, а вы уверены, что АЧХ на всех амплитудах одинаковая? Я вот нет, как минимум есть механические ограничения подвижной системы и в какой-то момент случится клиппинг. Клиппинг может быть резким, а может и нет (тогда это механическая компрессия), это даже не важно. Это значит, что КНИ зависит от амплитуды подаваемого сигнала. А у нас АЧХ в 99% случаев замеряется на сигнале одинаковой амплитуды, в то время как музыка есть сигнал с очень разной амплитудой (это к тому, что музыка, якобы, плохой материал для тестирования). Это и есть нелинейная природа всей системы. То есть мало того, что замерить импульсную характеристику (далее - ИХ) с удовлетворительной точностью крайне сложно, так ещё и эта ИХ будет разная для разной амплитуды сигнала. В итоге для более-менее точной компенсации нужно снять семейство ИХ. Но и этого мало, нужно придумать ещё и хитрый алгоритм интерполяции в промежуточных значениях амплитуды (не будете же вы снимать 65к штук ИХ). А это тоже задача нетривиальная - нужно знать порядок нелинейности, а с этим вообще я вам могут пожелать только удачи. Решить такое можно только численно путём очень долгих расчетов.

Но с другой стороны сейчас весь звуковой продакшн стремится к тому, чтобы сделать крест-фактор поменьше, например, на 6 dB. В итоге график амплитуды во времени выглядит как ровненькая линия за редкими пинками от барабанов. В таком случае такой корректировки при максимальной подгонке уровня сигнала может и хватить. Но радоваться рано, потому что есть много материала, который не закомпрессирован так сильно. Но это уже на ценителей, попсу всё же можно слушать хоть на чем, она для этого и подвергается мастерингу.

Общий вывод - если вы слушаете попсу, то такая корректировка относительно работоспособна. А если вы слушаете что-то чуть более комплексное с изменениями громкости, да хотя бы тихим вступлением, то такая корректировка бесполезна и сделает только хуже.

Вы забываете про очень важный момент. Почему я в самом первом комментарии отдельно написал именно про импульсную характеристику системы.

Вот в чем магия. Искры от свежей зажигания слышно прекрасно, хотя там время пробоя длится 10-20 микросекунд. Это что, человек умеет слышать частоту в сотни килогерц? Нет, конечно, человек слышит как раз практически идеальную импульсную характеристику всей окружающей среды в чистом виде, как сигнал.

Так вот в музыкальном сигнале присутствуют подобные импульсы, во время которых может случиться так, что фронт сигнала нарастёт достаточно быстро (а потом также быстро затихает). В итоге импульсная характеристика заметно наложится на выходной сигнал. Здесь всё очень зависит от материала, в этом то и загвоздка. Такие события относительно редки. Проблема то как раз в том, что в общем случае в таком импульсе есть стремящееся к бесконечности количество гармоник высшего порядка, хоть и убывающих по амплитуде. В итоге когда строится график АЧХ, на него применяется сглаживание, хорошо если 1/12 октавы, плюс график обрезается между 20-20кГц, в итоге он становится достаточно бесполезен. Так что музыка, особенно правильная, отлично подходит для оценки качества звучания.

Просто если в материале есть моменты, в которых слышно импульсную характеристику, то на нём плохие наушники будут играть однозначно ужасно, как бы вы их не исправляли эквалайзером. Этот эффект достаточно силён, чтобы слышать его. По факту ведь выравнивание АЧХ - наложение обратной импульсной характеристики. Но если эта импульсная характеристика не идеально совпадает с реальной - вы гарантированно породите новые колебания, огромное их количество за счет эффекта обратной связи.

Проверить в теории можно на ступеньке, но проблема в том, что собственная импульсная характеристика промежуточного звена перекроет по амплитуде результат компенсации. Тут может сыграть простой эффект маскировки частоты (см. Алдошину). Так что такой эксперимент вообще бесполезен.

Любая такая компенсация как попытка собрать ПИД регулятор без обратной связи, примерно такой же градус парадоксальности.

Как в этой методике учитывается влияние промежуточного звена? Ну того, на чем слушали две эти записи? Вероятность того, что промежуточное звено не влияет примерно 0. Промежуточное звено обладает собственной нелинейной передаточной характеристикой, и в таком случае толку не особо много, можно сказать лишь то, что ничего нельзя сказать.

Речь то про массовую музыку, материал, который крутят по MTV. Никогда там речь не шла про качественное воспроизведение. От того, что эти две сферы смешивают зачем-то образуется много споров и недопонимания. А надо просто разделить всю сферу на два сегмента и проблемы уйдут. Многим людям просто не нужно качественное воспроизведение, им нужно какое-то звуковое сопровождение. А так чтобы наслаждаться музыкой это уже совсем другая вселенная и там надо реально разбираться. Но в этой статье смешались кони и люди, в итоге в комментах народ просто говорит про разные явления, думая что говорят об одном и том же. Но ничего тут хорошего нет - в итоге создаётся картина совершенно непонятная стороннему наблюдателю и то, что истинно для массового сегмента, будут приписывать элитарному сегменту и да будет хаос.

Что вы собрались компенсировать без полной HRTF конкретного слушателя в конкретном положении наушников на небольшом промежутке времени? Для полной компенсации нужно снять HRTF для конкретного образца наушников в надетом состоянии, при этом не повлиять на неё измерительным оборудованием. Что практически невозможно, так как снимать эту передаточную функцию надо прямо в ушном канале, а там влияние даже самого маленького в мире микрофона будет весьма ощутимо в довольно широкой области частот. Это только начало.

То что снимается на стенде это средняя температура по больнице и никакой повторяемости не даёт. Даёт лишь статистическую вероятность попасть в среднего слушателя, а это не то чтобы грамотный подход. По крайней мере так категорично утверждать при имеющихся фактах уже нельзя. А если идти дальше, то у звука могут появиться под 40 параметров, которые даже в академической среде не могут до конца сформировать полноценную удовлетворительную модель слуха человека, потому что существует ещё такое понятие как психоакустика и банальная физиология, где даже то, в какой последовательности и какие тесты проводятся влияет на результат. Давление там меняется, напряжение на мышцах среднего уха и прочее. Упрощённые модели здесь не работают ввиду слишком большого количества очень разнородных факторов, которые, однако, имеют значительное влияние на результат. У меня источник - статьи Алдошиной и "Психоакустика".

Информация

В рейтинге
Не участвует
Откуда
Балашов, Саратовская обл., Россия
Дата рождения
Зарегистрирован
Активность