Вложенные системы подкреплений ↑

eugzol 18 января 2011, 04:47 в посте Metapractice (оригинал в ЖЖ)

Революция кликера
	10. Karen Pryor «Don't shoot the dog!»		metatheo	13 января 2011, 21:44
		Re: Масштаб действия и время подкрепления	eugzol	18 января 2011, 04:50
		Re: Масштаб действия и время подкрепления	metatheo	18 января 2011, 05:03

Конечно можно искуссно владеть ОФ на одном сигнале подкрепления и тем самым решать поставленную задачу/проблему. Типа не выдавать подкрепления слишком часто. Сложность должна со временем расти. Подкреплять реальное продвижение.

Но может поставленная тобой задача уже решена типа в компьютерных играх за рамками описываемой Карен модели ОФ. Там используются вложенные циклы активности-и-подкреплений. Шаги подкрепляются одним стимулом, а завершение всего действия другим.

[(1* 2* 3*)* (4* 5* 6*)* (7* 8* 9*)*]*

Цифрами обозначены отдельные шаги, разным цветом звёздочек — разные стимулы подкрепления.

3 комментария

сначала старые сначала новые

</>

Re: Вложенные системы подкреплений

klizardin 18 января 2011, 08:15 (оригинал в ЖЖ)

хорошо нейронная сеть реагировала бы следующим образом.

1. она научалась, что есть некий желатеьный исход для каждого из шагов

2. научалось понимать, что некий блок окончен

но 2 не значит, что оно как-то связано с 1 (по заданным условиям) это просто некоторое деление. если по 1 задания лесенкой увеличивают сложность, а по 2 сложность очередного шага будет чуть падать, то 2 будет связан с тем, что следующий шаг будет проще. но по данным условиям 2 никак не определяет подкрепление цепочки шагов 1.

</>

Реальная нейронная сеть

eugzol 18 января 2011, 15:07 (оригинал в ЖЖ)

хорошо нейронная сеть реагировала бы следующим образом

реальные люди реагируют абсолютным вовлечением в такие цепочки. от компьютерных игр до армии.

</>

Re: Реальная нейронная сеть

klizardin 18 января 2011, 15:22 (оригинал в ЖЖ)

хорошо, некие реальные люди отреагировали таким образом, а теперь представьте то подкрепление, которе мы обсуждаем. вопрос в том , что мы конкретно подкрепляем.