Компьютерный синтез голоса с интонациями

ailev 29 ноября 2003, 05:28 в Openmeta (оригинал в ЖЖ)

http://www.vocaloid.com/en/sample.html

Metapractice
Multi-level communication
	1. Формальное начало старой темы		metanymous	07 сентября 2012, 14:15
		Говорить_как_петь	metanymous	07 сентября 2012, 10:32
Языкоиды -- моделируем и тренируем
	5. Языкоиды -- моделируем и тренируем		metanymous	26 января 2006, 15:00
	4. Языкоиды -- моделируем и тренируем		metanymous	03 декабря 2005, 14:12
	3. Языкоиды -- моделируем и тренируем		metanymous	05 ноября 2005, 15:11
	2. Языкоиды -- моделируем и тренируем		metanymous	03 октября 2005, 05:49
"Слова бывают только вместе с жестом, или тоном голоса, или чем-то в этом роде." Бейтсон.
	"Слова бывают только вместе с жестом, или тоном голоса, или чем-то в этом роде." Бейтсон.		metanymous	02 сентября 2005, 21:32
Openmeta
Ранжированный список тем опенметы
	Ранжированный список тем опенметы		metanymous	02 декабря 2004, 15:30
Предварительная опись выявленных моделей ОпенМеты
	Предварительная опись выявленных моделей ОпенМеты		metanymous	03 февраля 2004, 14:44
		МодельРечиКакПения	metanymous	25 февраля 2004, 04:16

Компьютерный синтез голоса стал еще ближе -- послушайте, например, Вокалоид (http://www.vocaloid.com/en/sample.html).

Кто не знает про Вокалоид: это такая фирменная технология от Yamaha, которая на входе берет японский или английский письменный текст и миди, и поет этот текст голосом засэмплированного певца/певицы в соответствии с миди. И все это удовольствие будет стоить каких-нибудь $330 для голосов безвестных вокалистов, которые, думаю, нас вполне удовлетворят. В продаже все эти чудеса с января 2004г.

Нас, конечно, интересует не пение, а речь -- интонационные паттерны (коих metanymous оценивал, насколько я помню, в пару десятков). Петь, оказывается, легче, чем говорить: It is possible to synthesize the spoken word by inputting notes and pitch bend to represent the intonation, but it is not easy to create the complex intonation curve by hand. Please note that VOCALOID is a system for mainly synthesizing songs. Для наших целей, конечно, нужно будет сделать приладу, которая создает сложные интонационные кривые отнюдь не руками. Теперь достаточно взять какой-нибудь кинодвижок, создать аватару с грудью попышнее или торсом помогучей, приделать синхронизацию с голосом -- и вот уже можно генерировать внушения на любую подходящую тему.

Потом начнем разбираться с вербальной/невербальной обратной связью -- эти технологии тоже могут оказаться доступны быстрее, чем мы сейчас думаем.

4 комментария

сначала старые сначала новые

</>

Компьютерный синтез голоса с интонациями

bionycks 01 декабря 2003, 02:53 (оригинал в ЖЖ)

Для наших целей, конечно, нужно будет сделать приладу, которая создает сложные интонационные кривые отнюдь не руками. Теперь достаточно взять какой-нибудь кинодвижок, создать аватару с грудью попышнее или торсом помогучей, приделать синхронизацию с голосом -- и вот уже можно генерировать внушения на любую подходящую тему.

--------

Работа далеко не шуточная, если учесть, что в том же Вокалоиде даже в певчем варианте японца буквально клинит на стыке звучаний.

Легкая смена интонации в длящейся ноте еще вроде куда ни шло, а вот немногим более серьзный переход от звука к звуку - и тот реализовать не удалось. Речь по меньшей мере на порядок сложнее генерировать.

</>

РечьКакПение

metanymous 01 декабря 2003, 09:03 (оригинал в ЖЖ)

МодельРечиКакПения ждет не дождется решения всех этих технических проблем.

</>

Re: РечьКакПение

ailev 01 декабря 2003, 09:27 (оригинал в ЖЖ)

Я думаю, все технические проблемы будут решены уже года за два-три. А РечьКакПение - действительный феномен. Вот у меня ребенок еще не говорит, и не поет, конечно. Но может затулить очень длинную фразу на вя-вя-вя-вя, с четкими интонационными паттернами, весьма выразительными, не хуже, чем у любых мелодекламаторов. Контента еще нет, а все, что "сверху" -- уже пожалуйста, даже калибровать не нужно, все понятно. РечьКакПение.

</>

Re: РечьКакПение

metanymous 02 декабря 2003, 05:30 (оригинал в ЖЖ)

Да, именно так работает РечьКакПение. В сторогом смысле слова это не модель Языкоида. Это скорее модель многоуровневойй коммуникация - multilevel communications

(что-то в этом роде: "...I regard the ethical dimension of reading as an inextricable part of approaching narrative as rhetoric. To approach narrative as rhetoric is to understand narrative as a rhetorical act: somebody telling somebody else on some occasion and for some purpose that something happened. This rhetorical act involves a multi-leveled communication from author to audience, one that involves the audience's intellect, emotions, psyche, and values. ..."):

Первый уровень (группа уровней) задаются сказанным (речью). Среди них могут быть и языкоиды.

Второй уровень - определяется мелодией. Мелодия может быть известна слушателю. Она может быть такой, которая вызывает автоматически соответствующий НастройСознания. Я присутствовал на сеансе, когда надо было ввести в транс умирающего от рака пожилого мужчину. Он сильно мучился, но против официального наведения транса почему-то возражал. Тогда терапевт стал говорить с ним на общие темы "на мелодию" детской колыбельной. Это подействовало минут за двадцать.

Собственно техника нужна для быстрого обучения навыку вписывать текущую речь "с любого места" в определенную мелодию.