Re: Калибровка да/нет звуковыми различалками ↑

metanymous 06 июля 2004, 22:31 в посте Openmeta (оригинал в ЖЖ)

bnti.ru
	http://www.bnti.ru/scripts/showart.asp?lvl=02.&tbl=&aid=496
kiam.ru
	http://eidos.kiam.ru/group/eidos.html
websound.ru
	http://websound.ru/index.cgi?tst_smpl_r

В левый канал подаем эталонный звук, в правый голос тренирующегося.
Картинки http://websound.ru/index.cgi?tst_smpl_r
Можно плюгин к Винампу приладить.

Понятно.

По поводу Эйдоса, кроме краткой информации на сайте от 2003 года,
http://eidos.kiam.ru/group/eidos.html не нашел.
А звук яблока понравился!!!

Хм.

Из статьи http://www.bnti.ru/scripts/showart.asp?lvl=02.&tbl=&aid=496
Вверху - следы разговора мужчины и женщины;
В центре - следы акустозаграждающей аппаратуры и речи;
Внизу - пример компьютерного монтажа речи заданным голосом диктора.

Не очень-то понял, для меня надо разъяснять на более примитивном уровне :)

Так в верхней панели
рис. 1 на узкополосной спектрограмме принятого из канала телефонной связи аудио сигнала представлен фрагмент разговора двух абонентов, одним из которых является мужчина, а другим - женщина.
Следы фонообъектов трех типов:
обертонов речи мужского и
женского голосов на вокализованных не паузных участках сонограммы и
вкраплений шумов в паузах - отчетливо видны на представленном изображении верхней панели рис. 1.

Угм.

Траектории (контура) максимальной контрастности или цепочки (треки) локальных максимумов уровней серого и являются теми самыми следами узкополосных составляющих фонообъектов, которые нами и исследуются.

Исследуются...

Нам надо вернуться к двум разным идеям, с которых стартовало это наше ассоциирование:

--калибровка достоверности высказваний (1)

--обучение "имитации" речи (2)

Они особенно хорошо заметны на выделенном центральном участке изображения сонограммы рис. 1 в виде светлых линий, проходящих по центру серых и черных полосок одного цвета.

Могу предположить, что эти/подобные характеристики простым способом пойдут в дело в задаче (1). А в задаче (2) как их использовать?

Заметим, что сонограмма на этом рисунке, очень похожа на те узкополосные сонограммы, так называемые отпечатки "видимой речи", которые ранее широко использовались для анализа речевых сигналов, и, прежде всего, для идентификации голоса говорящего.

Ну да для анализа (1). А для обучения имитации (2) множество этих ~"узкополосых признаков" не образуют/не замыкают петлю информационной обратной связи - их слишком много!

Используются подобные сонограммы с "видимой речью" для этих целей и сейчас, но только благодаря описанному подходу к речевой обработке стало возможным по специально рассчитанным и построенным сонограммам, действительно очень похожим на изображения "видимой речи", восстанавливать аудиосигнал прямо сразу по выявленным следам фонообъектов, присутствующим на изображениях этих сонограмм.

Ммм... что-то я совсем запутался... Как бы со всем этим разобраться помедленнее-пообстоятельнее? М.б. поможете?

9 комментариев

сначала старые сначала новые

</>

Re: Калибровка да/нет звуковыми различалками

retif 07 июля 2004, 00:14 (оригинал в ЖЖ)

Они особенно хорошо заметны на выделенном центральном участке изображения сонограммы рис. 1 в виде светлых линий, проходящих по центру серых и черных полосок одного цвета.
Могу предположить, что эти/подобные характеристики простым способом пойдут в дело в задаче (1). А в задаче (2) как их использовать?

В программе Хигинс, насколькоя помню изображается только частоты. А по картинкам частоты научится выделять значимые признаки у меня не получалось.

Сонограмма позволяет посмотреть еще и фазовые характеристики сигнала.

Даже визуально позволяет отделить женский голос от мужского.

Т.е. больше информации для анализа и сравнения.

Если по сонограме можно научится калибровке достоверности высказываний(1), то обучение имитации(2)-

подгонка своего голоса под видимые значимые (выделенные при калибровке(1)) параметры картинки.

Заметим, что сонограмма на этом рисунке, очень похожа на те узкополосные сонограммы, так называемые отпечатки "видимой речи" Ну да для анализа (1). А для обучения имитации (2) множество этих ~"узкополосых признаков" не образуют/не замыкают петлю информационной обратной связи - их слишком много!

Сперва посмотреть какие параметры речи критичны для имитации и можно ли их увидеть на сонограмме.

Если можно увидеть, можно показать другому.

Насколько я понял в данном абзаце идет речь о (восстановлении)синтезе звука по картинке.

Например если можно выделить в отдельную картинку признаки(следам фонообъектов) того что человек не врет, а потом наложить на картинку

где человек врет, а картинку преобразовать в звук то получится очень интересно.

Но возможно что я тоже не все понял, т.к. сам с этой статьей не все понимаю.....

</>

Re: Калибровка да/нет звуковыми различалками

metanymous 07 июля 2004, 04:34 (оригинал в ЖЖ)

Угм. В этом-то и дело.

Сонограмма позволяет посмотреть еще и фазовые характеристики сигнала.
Даже визуально позволяет отделить женский голос от мужского.
Т.е. больше информации для анализа и сравнения.

Да, вот в этом месте и возникает соблазн.

Если по сонограме можно научится калибровке достоверности высказываний(1),

Ааа, а ведь точно, это можно не только программе доверять, а использовать в открытую, как инфо для проверки сенсорной калибровки :)

то обучение имитации(2)-подгонка своего голоса под видимые значимые (выделенные при калибровке(1)) параметры картинки.

Ну вот это очень интересно.

Сперва посмотреть какие параметры речи критичны для имитации и можно ли их увидеть на сонограмме.
Если можно увидеть, можно показать другому.

Ага, т.е. паттернирование вначале надо будет провести на глаз/на слух. Ну, если все работает нормально с технической стороны - то можно и так :)

Насколько я понял в данном абзаце идет речь о (восстановлении)синтезе звука по картинке.
Например если можно выделить в отдельную картинку признаки(следам фонообъектов) того что человек не врет, а потом наложить на картинку где человек врет, а картинку преобразовать в звук то получится очень интересно.

Ага, вот эта интересная функция обратного преобразования...

Но возможно что я тоже не все понял, т.к. сам с этой статьей не все понимаю.....

будем продолжать тему?

</>

Re: Калибровка да/нет звуковыми различалками

retif 08 июля 2004, 05:41 (оригинал в ЖЖ)

Будем.

Старая статья в Компьютерре про сонограммы.

http://www.computerra.ru/offline/1999/293/3577/

</>

Вот "оно" - практически, готовое?

metanymous 11 июля 2004, 06:50 (оригинал в ЖЖ)

Будем.
Старая статья в Компьютерре про сонограммы.
http://www.computerra.ru/offline/1999/293/3577/

Изучаю.

Вот под первой же картинкой (это наверное мне наказание за плохое описание моделей - так никто и не возмет на себя труд внятно объяснить на уровне манипулиций, что надо делать, чтобы, например, размещать картинки по "урл" (?):) так вот под первой же картинокой можно сделать комментарий:

Рис. 1
Трехмерная сонограмма слова "терра" (диктор №1). Хорошо видно развитие во времени спектральных составляющих. Сечение сонограммы плоскостью, перпендикулярной оси времени, образует мгновенные спектры.

Вот если некая штука показывает такое трехмерное отображение слова-эталона и, на ЭТОЙ же картинке отражает варианты произнесения тренирующимся этого же слова, + и слово-эталон, и собственное признесение можно СЛЫШАТЬ, то я утверждаю:

--при всяких ньюансаХ и дополнениях несущественныХ, мы получаем ТРЕНАЖЕР, систему обратной связи, которая ускоряет процесс обучения во много раз.

</>

Re: Вот "оно" - практически, готовое?

retif 11 июля 2004, 23:47 (оригинал в ЖЖ)

Картинки можно разместить на http://www.imageshack.us/

img src="http://img21.exs.cx/my.php?loc=img21&image=28-2.jpg"

</>

Re: Вот "оно" - практически, готовое?

retif 11 июля 2004, 23:51 (оригинал в ЖЖ)

Картинка размещенная на http://www.imageshack.us/

</>

ЧЁртовы картинки :) ТупАя голова :)

metanymous 12 июля 2004, 01:50 (оригинал в ЖЖ)

Т.е. я

1 вот это:

http://img21.exs.cx/my.php?loc=img21&image=28-2.jpg

2 Помещая в кокшко вот этого:

http://www.imageshack.us/

и кликаю...

А как "оно" узнает КУДА потом адресовать картинку?

3 А что такое - "img src="?

</>

Re: Вот "оно" - практически, готовое?

metanymous 12 июля 2004, 01:53 (оригинал в ЖЖ)

1 Вот Вы взяли адрес этой картинки:

http://img21.exs.cx/img21/2337/28-4.jpg

2 Поместили в окошечко:

http://www.imageshack.us/

3 А как вы это потом "воткнули в браузер (?) жж?

или вы это "втыкали" в симажик?

</>

Re: Вот "оно" - практически, готовое?

retif 12 июля 2004, 07:16 (оригинал в ЖЖ)

VisibleVoice - демоверсия программы 3-мерного графического отображения спектра звукового сигнала в реальном времени

http://www.speechpro.ru/rus/products/visvoice.html#t

Программа VisibleVoice может быть использована для тестирования и постановки слуха и голоса, при изучении иностранных языков, музыке, для настройки музыкальных инструментов, в качестве программы, демонстрирующей динамические характеристики звука в музыкальном центре, в выставочном павильоне, на дискотеке, на большом экране.