--Возможно, при этом мы подкрепляем попытки...--Вот это заставило меня задуматься...опять же можно вспомнить формирование цепочек действий, подкрепление частичного правильного действия. вот здесь возникает вопрос, а что будет это частично правильное действие в комплексных ситуациях(?) (не в ситуациях когда мы, например, подкрепляем голубя подойти к нужной точке, там все просто -- частично правильное действие это: 1 -- поворот головы в нужно направление; 2 -- движение в нужном направлении; 3 -- увеличение скорости движения в нужном направлении; и очень сложный момент получения окончательного вознаграждения при достижении точки (хотя нужно еще подкрепить остановку на нужном месте)).
ОФ — это типа драйвера, который может облегчить (а иногда даже типа — вовлечь при полном отсутствии исходной мотивации/желания) обучение. Но собственно модель конечного поведения должна быть заготовлена заранее.
вопрос по ОФ: как "осваивать" заготовленую заранее модель? т.е. мы имеем некоторое комплексное поведение, но не можем наблюдать некий полный шаг. хотя ответ может быть следующим: разбить требуемый шаг на еще более мелкие, пока не получим возможность наблюдать некоторый мелкий шаг. и таким способом сформировать все цепочку.