Re: Слишкое раннее подкрепление неэффективно ↑

klizardin 18 января 2011, 08:01 в посте Metapractice (оригинал в ЖЖ)

--Возможно, при этом мы подкрепляем попытки...
--Вот это заставило меня задуматься...

опять же можно вспомнить формирование цепочек действий, подкрепление частичного правильного действия. вот здесь возникает вопрос, а что будет это частично правильное действие в комплексных ситуациях(?) (не в ситуациях когда мы, например, подкрепляем голубя подойти к нужной точке, там все просто -- частично правильное действие это: 1 -- поворот головы в нужно направление; 2 -- движение в нужном направлении; 3 -- увеличение скорости движения в нужном направлении; и очень сложный момент получения окончательного вознаграждения при достижении точки (хотя нужно еще подкрепить остановку на нужном месте)).

2 комментария

сначала старые сначала новые

</>

ОФ не снимает необходимости иметь модель

eugzol 18 января 2011, 15:09 (оригинал в ЖЖ)

ОФ — это типа драйвера, который может облегчить (а иногда даже типа — вовлечь при полном отсутствии исходной мотивации/желания) обучение. Но собственно модель конечного поведения должна быть заготовлена заранее.

</>

Re: ОФ не снимает необходимости иметь модель

klizardin 18 января 2011, 15:56 (оригинал в ЖЖ)

вопрос по ОФ: как "осваивать" заготовленую заранее модель? т.е. мы имеем некоторое комплексное поведение, но не можем наблюдать некий полный шаг. хотя ответ может быть следующим: разбить требуемый шаг на еще более мелкие, пока не получим возможность наблюдать некоторый мелкий шаг. и таким способом сформировать все цепочку.