[userpic]

Re: Калибровка да/нет звуковыми различалками 

retif в посте Openmeta (оригинал в ЖЖ)

Они особенно хорошо заметны на выделенном центральном участке изображения сонограммы рис. 1 в виде светлых линий, проходящих по центру серых и черных полосок одного цвета.
Могу предположить, что эти/подобные характеристики простым способом пойдут в дело в задаче (1). А в задаче (2) как их использовать?

В программе Хигинс, насколькоя помню изображается только частоты. А по картинкам частоты научится выделять значимые признаки у меня не получалось.
Сонограмма позволяет посмотреть еще и фазовые характеристики сигнала.
Даже визуально позволяет отделить женский голос от мужского.
Т.е. больше информации для анализа и сравнения.
Если по сонограме можно научится калибровке достоверности высказываний(1), то обучение имитации(2)-
подгонка своего голоса под видимые значимые (выделенные при калибровке(1)) параметры картинки.
Заметим, что сонограмма на этом рисунке, очень похожа на те узкополосные сонограммы, так называемые отпечатки "видимой речи" Ну да для анализа (1). А для обучения имитации (2) множество этих ~"узкополосых признаков" не образуют/не замыкают петлю информационной обратной связи - их слишком много!
Сперва посмотреть какие параметры речи критичны для имитации и можно ли их увидеть на сонограмме.
Если можно увидеть, можно показать другому.
Используются подобные сонограммы с "видимой речью" для этих целей и сейчас, но только благодаря описанному подходу к речевой обработке стало возможным по специально рассчитанным и построенным сонограммам, действительно очень похожим на изображения "видимой речи", восстанавливать аудиосигнал прямо сразу по выявленным следам фонообъектов, присутствующим на изображениях этих сонограмм.
Ммм... что-то я совсем запутался... Как бы со всем этим разобраться помедленнее-пообстоятельнее? М.б. поможете?

Насколько я понял в данном абзаце идет речь о (восстановлении)синтезе звука по картинке.
Например если можно выделить в отдельную картинку признаки(следам фонообъектов) того что человек не врет, а потом наложить на картинку
где человек врет, а картинку преобразовать в звук то получится очень интересно.
Но возможно что я тоже не все понял, т.к. сам с этой статьей не все понимаю.....

8 комментариев

сначала старые сначала новые