[userpic]

... 

klizardin в посте Metapractice (оригинал в ЖЖ)

если рассматривать обучение с подкреплением, то необходимы некоторые разные периоды запоминания, которые заканчиваются оценкой цепочки действий. с одной стороны, нужно хранить достаточно длинную цепочку, чтобы можно было связать зависимостью события достаточно отлежащие друг от друга, но в то же время и связанные. с другой, нужно хранить достаточно малые цепочки, чтобы определять закономерности и на малых периодах (определять повторяющиеся в каждом достаточно малом периоде события и тем самым определить закономерности и малой величины).
т.е. очевидно, что хранить всю информацию просто невозможно. и значит нужно выделять некоторые события, которые нужно запомнить. это могут быть события для которых не закончился период и ещё не произошла оценка этого события, чтобы генерализировать его важность для организма.
в тоже время, память может быть артефактом генерализации и невозможности хранения всех данных в памяти. рассмотрим следющую систему.
пусть у нас есть некий обучающийся с подкреплением организм, который получает некоторые входы и формирует некоторые действия.
он обучается и формирует некую функцию: вознаграждение = f(текущий_вход, планируемые_действия).
входе планирования в функцию подставляется текущий_вход и далее ищется цепочка действий планируемые_действия, которые максимизируют вознаграждение.
на каждом шаге планирования мы задаём каждый раз новый текущий_вход, тем самым цепочка действий планируемые_действия может координально меняться.
допустим, у нас есть некое действия А1, которое должно приводить к состоянию С1 (наши входы), но оно приводит либо с одного раза выполнения. либо с нескольких раз выполнения. и после достижения состояния С1 (достижения некоторых текущих входов), допустим, возможно действие А2. Получается, что до достижения состояния С1 действие А2 невозможно, а возможно лишь действие А1 (повторяемое N раз).
тогда организм обучаемые с подкреплением может начать искать нужные состояния т.е. нужные входы. при этом интересно, что организм может "вспоминать" возможные состояния для того, чтобы достигнуть состояние и далее уже реализовать нужные действия. т.е. если на входах задано текущий_вход, то организм может вспомнить некий желаемый вход или/и не желаемый вход и искать цепочку действий к данному входу.
т.е. память оказывается нужна и как функция формулирования цели действий. тогда запоминаться будут также и входы, которые желательны или не желательны. т.е. которые ведут или не ведут к вознаграждению.

2 комментария

сначала старые сначала новые