Конечно можно искуссно владеть ОФ на одном сигнале подкрепления и тем самым решать поставленную задачу/проблему. Типа не выдавать подкрепления слишком часто. Сложность должна со временем расти. Подкреплять реальное продвижение.Но может поставленная тобой задача уже решена типа в компьютерных играх за рамками описываемой Карен модели ОФ. Там используются вложенные циклы активности-и-подкреплений. Шаги подкрепляются одним стимулом, а завершение всего действия другим.[(1* 2* 3*)* (4* 5* 6*)* (7* 8* 9*)*]*Цифрами обозначены отдельные шаги, разным цветом звёздочек — разные стимулы подкрепления.
хорошо нейронная сеть реагировала бы следующим образом.1. она научалась, что есть некий желатеьный исход для каждого из шагов2. научалось понимать, что некий блок оконченно 2 не значит, что оно как-то связано с 1 (по заданным условиям) это просто некоторое деление. если по 1 задания лесенкой увеличивают сложность, а по 2 сложность очередного шага будет чуть падать, то 2 будет связан с тем, что следующий шаг будет проще. но по данным условиям 2 никак не определяет подкрепление цепочки шагов 1.
хорошо, некие реальные люди отреагировали таким образом, а теперь представьте то подкрепление, которе мы обсуждаем. вопрос в том , что мы конкретно подкрепляем.