Вот есть такая программа Доктор Хигинс, для обучения анг. произношению.Там повторяешь за диктором, и тебе спектры голоса твоего и диктора предъявляются для сравнения. Визуализация типа. И обучение с ОС через визуальную реп.систему._________________________________Великолепно.Давно есть желание из этой проги для использования блок построения спектра речи выкрутить.1. В обучении калибровке.2. В обучении подстройке.Собственно, и для созданмя трастера такого можно было бы использовать.__________________________________1 Ты выкручиваешь прогу2 Я/мы делаем модель обучения голосам великих коммуникаторов.3 + ТрастерНо не торопись :)
Задача решается покупкой www.dictor.ru и его настройкой.Или скачкой какого нибудь нейросетевого (или другой системы распознавания образов) пакета и обучением его на примерах, экспертно рассортированных.
Задача решается покупкой www.dictor.ru и его настройкой.______________________1 Сколько место надо на компе?2 Какие-то еще особые "карты"?Или скачкой какого нибудь нейросетевого (или другой системы распознавания образов) пакета и обучением его на примерах, экспертно рассортированных._______________________Кто бы сделал :)
Может попробовать визуализацию сделать рисованием сонограм http://cooler.irk.ru/cl250502.html__________________________________Ну вот смотрел-смотрел на этот сайт - просто визуализации явно недостаточно. Нужна визуализация, которая показывала бы существование сходства-различия ДВУХ голосов - эталонного и голоса тренирующегся. Ну как в системах биологической обратной связи - чтобы было просто наглядно видно, что есть разница - тогда тренирующийся ее как-то устраняет "на глазок". :)ИМХО Нейросетевые проги слишком сложно.___________________________Это - да, это понятно.
Можно использовать систему "Эйдос", либо алгоритм, на основе которого она работает, реализовать в другой программе. Он очень простой."Эйдос" в реальном времени не работает, но это можно сделать. Я пробовал на ЭЭГ проверять - хорошо идентифицирует ЭЭГ различных людей и показывает степень сходства. Одновременно, в отличии от нейросетей, показывает, какими параметрами это сходство определяется. Если это делать, например раз в секунду, то это решает поставленную задачу.Тимур
Можно использовать систему "Эйдос", либо алгоритм, на основе которого она работает, реализовать в другой программе. Он очень простой.Вопрос в лоб - ты/Вы будешь это делать? :)"Эйдос" в реальном времени не работает, но это можно сделать. Я пробовал на ЭЭГ проверять - хорошо идентифицирует ЭЭГ различных людей и показывает степень сходства.Очень хорошо!Одновременно, в отличии от нейросетей, показывает, какими параметрами это сходство определяется. Если это делать, например раз в секунду, то это решает поставленную задачу.Раз в секунду... давай прикинем - за секунду могут прозвучать два двухслоговых слова... Нет, получается, что секунда слишком большой интервал. Получается, что с натяжкой минимально приемлемый интервал - 1/2 секунды. 1/4 - еще лучше. :)ТимурУ тебя/Вас до защиты диссера времени фактически не будет?
В левый канал подаем эталонный звук, в правый голос тренирующегося.Картинки http://websound.ru/index.cgi?tst_smpl_rМожно плюгин к Винампу приладить.По поводу Эйдоса, кроме краткой информации на сайте от 2003 года,http://eidos.kiam.ru/group/eidos.html не нашел.А звук яблока понравился!!!Из статьи http://www.bnti.ru/scripts/showart.asp?lvl=02.&tbl=&aid=496Вверху - следы разговора мужчины и женщины;В центре - следы акустозаграждающей аппаратуры и речи;Внизу - пример компьютерного монтажа речи заданным голосом диктора.Так в верхней панели рис. 1 на узкополосной спектрограмме принятого из канала телефонной связи аудио сигнала представлен фрагмент разговора двух абонентов, одним из которых является мужчина, а другим - женщина. Следы фонообъектов трех типов: обертонов речи мужского и женского голосов на вокализованных не паузных участках сонограммы и вкраплений шумов в паузах - отчетливо видны на представленном изображении верхней панели рис. 1. Траектории (контура) максимальной контрастности или цепочки (треки) локальных максимумов уровней серого и являются теми самыми следами узкополосных составляющих фонообъектов, которые нами и исследуются. Они особенно хорошо заметны на выделенном центральном участке изображения сонограммы рис. 1 в виде светлых линий, проходящих по центру серых и черных полосок одного цвета. Заметим, что сонограмма на этом рисунке, очень похожи на те узкополосные сонограммы, так называемые отпечатки "видимой речи", которые ранее широко использовались для анализа речевых сигналов, и, прежде всего, для идентификации голоса говорящего. Используются подобные сонограммы с "видимой речью" для этих целей и сейчас, но только благодаря описанному подходу к речевой обработке стало возможным по специально рассчитанным и построенным сонограммам, действительно очень похожим на изображения "видимой речи", восстанавливать аудиосигнал прямо сразу по выявленным следам фонообъектов, присутствующим на изображениях этих сонограмм.
В левый канал подаем эталонный звук, в правый голос тренирующегося.Картинки http://websound.ru/index.cgi?tst_smpl_rМожно плюгин к Винампу приладить.Понятно.По поводу Эйдоса, кроме краткой информации на сайте от 2003 года,http://eidos.kiam.ru/group/eidos.html не нашел.А звук яблока понравился!!!Хм.Из статьи http://www.bnti.ru/scripts/showart.asp?lvl=02.&tbl=&aid=496Вверху - следы разговора мужчины и женщины;В центре - следы акустозаграждающей аппаратуры и речи;Внизу - пример компьютерного монтажа речи заданным голосом диктора.Не очень-то понял, для меня надо разъяснять на более примитивном уровне :)Так в верхней панелирис. 1 на узкополосной спектрограмме принятого из канала телефонной связи аудио сигнала представлен фрагмент разговора двух абонентов, одним из которых является мужчина, а другим - женщина.Следы фонообъектов трех типов:обертонов речи мужского иженского голосов на вокализованных не паузных участках сонограммы ивкраплений шумов в паузах - отчетливо видны на представленном изображении верхней панели рис. 1.Угм.Траектории (контура) максимальной контрастности или цепочки (треки) локальных максимумов уровней серого и являются теми самыми следами узкополосных составляющих фонообъектов, которые нами и исследуются.Исследуются...Нам надо вернуться к двум разным идеям, с которых стартовало это наше ассоциирование:--калибровка достоверности высказваний (1)--обучение "имитации" речи (2)Они особенно хорошо заметны на выделенном центральном участке изображения сонограммы рис. 1 в виде светлых линий, проходящих по центру серых и черных полосок одного цвета.Могу предположить, что эти/подобные характеристики простым способом пойдут в дело в задаче (1). А в задаче (2) как их использовать?Заметим, что сонограмма на этом рисунке, очень похожа на те узкополосные сонограммы, так называемые отпечатки "видимой речи", которые ранее широко использовались для анализа речевых сигналов, и, прежде всего, для идентификации голоса говорящего. Ну да для анализа (1). А для обучения имитации (2) множество этих ~"узкополосых признаков" не образуют/не замыкают петлю информационной обратной связи - их слишком много!Используются подобные сонограммы с "видимой речью" для этих целей и сейчас, но только благодаря описанному подходу к речевой обработке стало возможным по специально рассчитанным и построенным сонограммам, действительно очень похожим на изображения "видимой речи", восстанавливать аудиосигнал прямо сразу по выявленным следам фонообъектов, присутствующим на изображениях этих сонограмм.Ммм... что-то я совсем запутался... Как бы со всем этим разобраться помедленнее-пообстоятельнее? М.б. поможете?
Они особенно хорошо заметны на выделенном центральном участке изображения сонограммы рис. 1 в виде светлых линий, проходящих по центру серых и черных полосок одного цвета.Могу предположить, что эти/подобные характеристики простым способом пойдут в дело в задаче (1). А в задаче (2) как их использовать?В программе Хигинс, насколькоя помню изображается только частоты. А по картинкам частоты научится выделять значимые признаки у меня не получалось.Сонограмма позволяет посмотреть еще и фазовые характеристики сигнала.Даже визуально позволяет отделить женский голос от мужского.Т.е. больше информации для анализа и сравнения.Если по сонограме можно научится калибровке достоверности высказываний(1), то обучение имитации(2)-подгонка своего голоса под видимые значимые (выделенные при калибровке(1)) параметры картинки.Заметим, что сонограмма на этом рисунке, очень похожа на те узкополосные сонограммы, так называемые отпечатки "видимой речи" Ну да для анализа (1). А для обучения имитации (2) множество этих ~"узкополосых признаков" не образуют/не замыкают петлю информационной обратной связи - их слишком много!Сперва посмотреть какие параметры речи критичны для имитации и можно ли их увидеть на сонограмме.Если можно увидеть, можно показать другому.Используются подобные сонограммы с "видимой речью" для этих целей и сейчас, но только благодаря описанному подходу к речевой обработке стало возможным по специально рассчитанным и построенным сонограммам, действительно очень похожим на изображения "видимой речи", восстанавливать аудиосигнал прямо сразу по выявленным следам фонообъектов, присутствующим на изображениях этих сонограмм.Ммм... что-то я совсем запутался... Как бы со всем этим разобраться помедленнее-пообстоятельнее? М.б. поможете?Насколько я понял в данном абзаце идет речь о (восстановлении)синтезе звука по картинке.Например если можно выделить в отдельную картинку признаки(следам фонообъектов) того что человек не врет, а потом наложить на картинкугде человек врет, а картинку преобразовать в звук то получится очень интересно.Но возможно что я тоже не все понял, т.к. сам с этой статьей не все понимаю.....
Я попользовался системой после всяких статпакетов и был восхищен. И что то подобное собираюсь делать - т.к. систему нужно приводить в презентабельный вид и превращать в коммерческий
Я попользовался системой после всяких статпакетов и был восхищен. И что то подобное собираюсь делать - т.к. систему нужно приводить в презентабельный вид и превращать в коммерческий продукт.Я могу использовать систему для решения описанных задач. Для этого нужно отобрать классы распознавания (можно вложенные друг в друга) и представить их некоторым количеством примеров - аудиозаписей. А потом выделить как можно больше параметров из этих записей (спектры и прочее) и это уже засунуть в "Эйдос". Кстати, сайт, где о системе есть много информации - lc.narod.ru.Можно и пол секунды. Вообще, лучше разработать эксперимент, определить в нем кучу технических деталей - например окна обработки (кусочки аудиозаписи) брать с перекрытием друг друга или последовательно, какие признаки отбирать и т.д.Защита у меня 23 сентября, после 12 июля будет некоторое количество времени.Можно на "ты" :)Тимур
Я попользовался системой после всяких статпакетов и был восхищен.Какой системой, уточни, плиз?И что-то подобное собираюсь делать - т.к. систему нужно приводить в презентабельный вид и превращать в коммерческийКогда, с кем, какую систему, в какой вид? :)
Я попользовался системой после всяких статпакетов и был восхищен. И что то подобное собираюсь делать - т.к. систему нужно приводить в презентабельный вид и превращать в коммерческий продукт.Ага.Я могу использовать систему для решения описанных задач. Для этого нужно отобрать классы распознавания (можно вложенные друг в друга) и представить их некоторым количеством примеров - аудиозаписей.1 Сколько аудиозаписей?2 Какой продолжительности?3 В цифровой форме?А потом выделить как можно больше параметров из этих записей (спектры и прочее) и это уже засунуть в "Эйдос".1 Сколько параметров?2 Как параметризирвать - на глаз/на слух - вручную?3 Сколько все это ориентировочно будет весить?Кстати, сайт, где о системе есть много информации - lc.narod.ru.Ага, спасибо. :)Можно и пол секунды. Вообще, лучше разработать эксперимент, определить в нем кучу технических деталей - например окна обработки (кусочки аудиозаписи) брать с перекрытием друг друга или последовательно, какие признаки отбирать и т.д.Это техническая сторона.Есть и "психологическая". Защита у меня 23 сентября, после 12 июля будет некоторое количество времени. Т.е. если этим заниматься плотно - то лучше ориентироваться на конец сентября. А сейчас лучше только пообсуждать процесс/содержание?Можно на "ты" :)О.К. :)ТимурАнатолий
В программе Хигинс, насколькоя помню изображается только частоты. А по картинкам частоты научится выделять значимые признаки у меня не получалось.Угм. В этом-то и дело.Сонограмма позволяет посмотреть еще и фазовые характеристики сигнала.Даже визуально позволяет отделить женский голос от мужского.Т.е. больше информации для анализа и сравнения.Да, вот в этом месте и возникает соблазн.Если по сонограме можно научится калибровке достоверности высказываний(1),Ааа, а ведь точно, это можно не только программе доверять, а использовать в открытую, как инфо для проверки сенсорной калибровки :)то обучение имитации(2)-подгонка своего голоса под видимые значимые (выделенные при калибровке(1)) параметры картинки.Ну вот это очень интересно.Заметим, что сонограмма на этом рисунке, очень похожа на те узкополосные сонограммы, так называемые отпечатки "видимой речи" Ну да для анализа (1). А для обучения имитации (2) множество этих ~"узкополосых признаков" не образуют/не замыкают петлю информационной обратной связи - их слишком много!Сперва посмотреть какие параметры речи критичны для имитации и можно ли их увидеть на сонограмме.Если можно увидеть, можно показать другому.Ага, т.е. паттернирование вначале надо будет провести на глаз/на слух. Ну, если все работает нормально с технической стороны - то можно и так :)Насколько я понял в данном абзаце идет речь о (восстановлении)синтезе звука по картинке.Например если можно выделить в отдельную картинку признаки(следам фонообъектов) того что человек не врет, а потом наложить на картинку где человек врет, а картинку преобразовать в звук то получится очень интересно.Ага, вот эта интересная функция обратного преобразования...Но возможно что я тоже не все понял, т.к. сам с этой статьей не все понимаю.....будем продолжать тему?
Систему "Эйдос". lc.narod.ruКогда - тогда, когда наработаю опыт правильной подачи продукта.Сейчас интерефейс не очень и вообще - не современно выглядит. Чтобы успешно продавать, нужно контекст создать.
1 Сколько аудиозаписей?Чем больше тем лучше2 Какой продолжительности?Такой, какой достаточно для выделения нужных параметров3 В цифровой форме?они вообще - первичный материал. Работать непосредственно нужно с параметрами этой записи.1 Сколько параметров?чем больше тем лучше2 Как параметризирвать - на глаз/на слух - вручную?лучше объективные параметры - т.е. автоматически. А вручную - решить, какие параметры могут иметь отношение к различению искомых классов.3 Сколько все это ориентировочно будет весить?Неизвестно.Давайте обсудим "психологическую" сторонуТимур
Давайте сначала поставим задачу:_____________________Техническое средство, позволяющее/облегчающее моделировать голосовой/речевой экселенс.Сформулировать, что именно мы хотим различать, причем на всем понятном языке?______________________Есть образцы речи "гениев ~говорения". Техническое средство облегчает моделирование их экселенса.Так я понимаю? :)_________________Ну да :)
Будем.Старая статья в Компьютерре про сонограммы.http://www.computerra.ru/offline/1999/293/3577/Изучаю.Вот под первой же картинкой (это наверное мне наказание за плохое описание моделей - так никто и не возмет на себя труд внятно объяснить на уровне манипулиций, что надо делать, чтобы, например, размещать картинки по "урл" (?):) так вот под первой же картинокой можно сделать комментарий:Рис. 1Трехмерная сонограмма слова "терра" (диктор №1). Хорошо видно развитие во времени спектральных составляющих. Сечение сонограммы плоскостью, перпендикулярной оси времени, образует мгновенные спектры.Вот если некая штука показывает такое трехмерное отображение слова-эталона и, на ЭТОЙ же картинке отражает варианты произнесения тренирующимся этого же слова, + и слово-эталон, и собственное признесение можно СЛЫШАТЬ, то я утверждаю:--при всяких ньюансаХ и дополнениях несущественныХ, мы получаем ТРЕНАЖЕР, систему обратной связи, которая ускоряет процесс обучения во много раз.
Систему "Эйдос". lc.narod.ru_____________________Ага.Когда - тогда, когда наработаю опыт правильной подачи продукта._____________________А почему ты не хочешь начать с опенметы это делать? Через малое время это станет раскрученным ресурсом :)Сейчас интерефейс не очень и вообще - не современно выглядит. Чтобы успешно продавать, нужно контекст создать.______________________Ммм :)
VisibleVoice - демоверсия программы 3-мерного графического отображения спектра звукового сигнала в реальном времениhttp://www.speechpro.ru/rus/products/visvoice.html#tПрограмма VisibleVoice может быть использована для тестирования и постановки слуха и голоса, при изучении иностранных языков, музыке, для настройки музыкальных инструментов, в качестве программы, демонстрирующей динамические характеристики звука в музыкальном центре, в выставочном павильоне, на дискотеке, на большом экране.