В программе Хигинс, насколькоя помню изображается только частоты. А по картинкам частоты научится выделять значимые признаки у меня не получалось.Угм. В этом-то и дело.Сонограмма позволяет посмотреть еще и фазовые характеристики сигнала.Даже визуально позволяет отделить женский голос от мужского.Т.е. больше информации для анализа и сравнения.Да, вот в этом месте и возникает соблазн.Если по сонограме можно научится калибровке достоверности высказываний(1),Ааа, а ведь точно, это можно не только программе доверять, а использовать в открытую, как инфо для проверки сенсорной калибровки :)то обучение имитации(2)-подгонка своего голоса под видимые значимые (выделенные при калибровке(1)) параметры картинки.Ну вот это очень интересно.Заметим, что сонограмма на этом рисунке, очень похожа на те узкополосные сонограммы, так называемые отпечатки "видимой речи" Ну да для анализа (1). А для обучения имитации (2) множество этих ~"узкополосых признаков" не образуют/не замыкают петлю информационной обратной связи - их слишком много!Сперва посмотреть какие параметры речи критичны для имитации и можно ли их увидеть на сонограмме.Если можно увидеть, можно показать другому.Ага, т.е. паттернирование вначале надо будет провести на глаз/на слух. Ну, если все работает нормально с технической стороны - то можно и так :)Насколько я понял в данном абзаце идет речь о (восстановлении)синтезе звука по картинке.Например если можно выделить в отдельную картинку признаки(следам фонообъектов) того что человек не врет, а потом наложить на картинку где человек врет, а картинку преобразовать в звук то получится очень интересно.Ага, вот эта интересная функция обратного преобразования...Но возможно что я тоже не все понял, т.к. сам с этой статьей не все понимаю.....будем продолжать тему?
Будем.Старая статья в Компьютерре про сонограммы.http://www.computerra.ru/offline/1999/293/3577/Изучаю.Вот под первой же картинкой (это наверное мне наказание за плохое описание моделей - так никто и не возмет на себя труд внятно объяснить на уровне манипулиций, что надо делать, чтобы, например, размещать картинки по "урл" (?):) так вот под первой же картинокой можно сделать комментарий:Рис. 1Трехмерная сонограмма слова "терра" (диктор №1). Хорошо видно развитие во времени спектральных составляющих. Сечение сонограммы плоскостью, перпендикулярной оси времени, образует мгновенные спектры.Вот если некая штука показывает такое трехмерное отображение слова-эталона и, на ЭТОЙ же картинке отражает варианты произнесения тренирующимся этого же слова, + и слово-эталон, и собственное признесение можно СЛЫШАТЬ, то я утверждаю:--при всяких ньюансаХ и дополнениях несущественныХ, мы получаем ТРЕНАЖЕР, систему обратной связи, которая ускоряет процесс обучения во много раз.
VisibleVoice - демоверсия программы 3-мерного графического отображения спектра звукового сигнала в реальном времениhttp://www.speechpro.ru/rus/products/visvoice.html#tПрограмма VisibleVoice может быть использована для тестирования и постановки слуха и голоса, при изучении иностранных языков, музыке, для настройки музыкальных инструментов, в качестве программы, демонстрирующей динамические характеристики звука в музыкальном центре, в выставочном павильоне, на дискотеке, на большом экране.