... ↑

klizardin 17 июня 2014, 10:20 в посте Metapractice (оригинал в ЖЖ)

если рассматривать обучение с подкреплением, то необходимы некоторые разные периоды запоминания, которые заканчиваются оценкой цепочки действий. с одной стороны, нужно хранить достаточно длинную цепочку, чтобы можно было связать зависимостью события достаточно отлежащие друг от друга, но в то же время и связанные. с другой, нужно хранить достаточно малые цепочки, чтобы определять закономерности и на малых периодах (определять повторяющиеся в каждом достаточно малом периоде события и тем самым определить закономерности и малой величины).

т.е. очевидно, что хранить всю информацию просто невозможно. и значит нужно выделять некоторые события, которые нужно запомнить. это могут быть события для которых не закончился период и ещё не произошла оценка этого события, чтобы генерализировать его важность для организма.

в тоже время, память может быть артефактом генерализации и невозможности хранения всех данных в памяти. рассмотрим следющую систему.

пусть у нас есть некий обучающийся с подкреплением организм, который получает некоторые входы и формирует некоторые действия.

он обучается и формирует некую функцию: вознаграждение = f(текущий_вход, планируемые_действия).

входе планирования в функцию подставляется текущий_вход и далее ищется цепочка действий планируемые_действия, которые максимизируют вознаграждение.

на каждом шаге планирования мы задаём каждый раз новый текущий_вход, тем самым цепочка действий планируемые_действия может координально меняться.

допустим, у нас есть некое действия А1, которое должно приводить к состоянию С1 (наши входы), но оно приводит либо с одного раза выполнения. либо с нескольких раз выполнения. и после достижения состояния С1 (достижения некоторых текущих входов), допустим, возможно действие А2. Получается, что до достижения состояния С1 действие А2 невозможно, а возможно лишь действие А1 (повторяемое N раз).

тогда организм обучаемые с подкреплением может начать искать нужные состояния т.е. нужные входы. при этом интересно, что организм может "вспоминать" возможные состояния для того, чтобы достигнуть состояние и далее уже реализовать нужные действия. т.е. если на входах задано текущий_вход, то организм может вспомнить некий желаемый вход или/и не желаемый вход и искать цепочку действий к данному входу.

т.е. память оказывается нужна и как функция формулирования цели действий. тогда запоминаться будут также и входы, которые желательны или не желательны. т.е. которые ведут или не ведут к вознаграждению.

2 комментария

сначала старые сначала новые

</>

...

klizardin 17 июня 2014, 10:53 (оригинал в ЖЖ)

Несмотря на потрясающую память я часто теряю ключи.

1. (против модели памяти) но что интересно, в модели памяти организма обучающимся подкреплением, которой нужно помнить всё для последующей оценки событий и генерализации, организму нужно также и запоминать как входы, так и свои действия. а этот человек не очень запоминает свои действия.

2. (за) если запоминание необходимо для обобщения и далее может игнорироваться и забываться, то этот человек демонстрирует несмотря на хорошую память вполне обычный уровень обобщения для ситуации негативного подкрепления рассеянности после забывания ключа. хотя м.б. он часто вполне успешно вспоминает где забыл ключи, а не винит себя в том, что забыл ключи и не подкрепляет себя когда берёт ключи.

</>

...

metanymous 18 июня 2014, 16:07 (оригинал в ЖЖ)

Ну, тут полезно разделить "память" на сознательную и подсознательную. Для реализации ОП достаточно одной второй из двух.

Это дело следует рассматривать только сrвозь призму бинарной модели психики.