[userpic]

Re: Калибровка да/нет звуковыми различалками 

metanymous в посте Openmeta (оригинал в ЖЖ)

В левый канал подаем эталонный звук, в правый голос тренирующегося.
Картинки http://websound.ru/index.cgi?tst_smpl_r
Можно плюгин к Винампу приладить.

Понятно.
По поводу Эйдоса, кроме краткой информации на сайте от 2003 года,
http://eidos.kiam.ru/group/eidos.html не нашел.
А звук яблока понравился!!!

Хм.
Из статьи http://www.bnti.ru/scripts/showart.asp?lvl=02.&tbl=&aid=496
Вверху - следы разговора мужчины и женщины;
В центре - следы акустозаграждающей аппаратуры и речи;
Внизу - пример компьютерного монтажа речи заданным голосом диктора.

Не очень-то понял, для меня надо разъяснять на более примитивном уровне :)
Так в верхней панели
рис. 1 на узкополосной спектрограмме принятого из канала телефонной связи аудио сигнала представлен фрагмент разговора двух абонентов, одним из которых является мужчина, а другим - женщина.
Следы фонообъектов трех типов:
обертонов речи мужского и
женского голосов на вокализованных не паузных участках сонограммы и
вкраплений шумов в паузах - отчетливо видны на представленном изображении верхней панели рис. 1.

Угм.
Траектории (контура) максимальной контрастности или цепочки (треки) локальных максимумов уровней серого и являются теми самыми следами узкополосных составляющих фонообъектов, которые нами и исследуются.
Исследуются...
Нам надо вернуться к двум разным идеям, с которых стартовало это наше ассоциирование:
--калибровка достоверности высказваний (1)
--обучение "имитации" речи (2)
Они особенно хорошо заметны на выделенном центральном участке изображения сонограммы рис. 1 в виде светлых линий, проходящих по центру серых и черных полосок одного цвета.
Могу предположить, что эти/подобные характеристики простым способом пойдут в дело в задаче (1). А в задаче (2) как их использовать?
Заметим, что сонограмма на этом рисунке, очень похожа на те узкополосные сонограммы, так называемые отпечатки "видимой речи", которые ранее широко использовались для анализа речевых сигналов, и, прежде всего, для идентификации голоса говорящего.
Ну да для анализа (1). А для обучения имитации (2) множество этих ~"узкополосых признаков" не образуют/не замыкают петлю информационной обратной связи - их слишком много!
Используются подобные сонограммы с "видимой речью" для этих целей и сейчас, но только благодаря описанному подходу к речевой обработке стало возможным по специально рассчитанным и построенным сонограммам, действительно очень похожим на изображения "видимой речи", восстанавливать аудиосигнал прямо сразу по выявленным следам фонообъектов, присутствующим на изображениях этих сонограмм.
Ммм... что-то я совсем запутался... Как бы со всем этим разобраться помедленнее-пообстоятельнее? М.б. поможете?

9 комментариев

сначала старые сначала новые