ИИ "Скиннер"

metanymous 28 декабря 2016, 11:10 в Metapractice (оригинал в ЖЖ)

Революция кликера, выпуск 23

Революция кликера
	23. ИИ "Скиннер"	1	metanymous	28 декабря 2016, 11:10
	22. Дрессируются через 50 тыс. попыток!	41	metanymous	10 декабря 2015, 18:31
	21. Метод "зеленой ручки"	2	metanymous	27 сентября 2015, 11:36
	20. Оперантное формирование стимулировало Обучение (N?)	1	metanymous	29 августа 2015, 08:12
	19. Режешь скидку — режешь лояльность - режешь клиента	24	metanymous	14 февраля 2015, 20:37
	18. Кнут, пряник и покер	2	metanymous	10 февраля 2015, 15:41
	15. Оперантные грехи Карла Роджерса	14	metanymous	06 июня 2014, 10:22
	14. "Слоновья выездка" от «Ringling Bros.»	1	metanymous	27 января 2014, 18:31
	13. Pavlov Poke - "Тычок от Павлова"	3	metanymous	06 сентября 2013, 07:33
	12. Don't shoot the Cat	17	metanymous	07 ноября 2012, 15:08
	11. «Don't shoot the GAME!»	7	metanymous	14 марта 2012, 18:37
	10. Karen Pryor «Don't shoot the dog!»	110	metatheo	13 января 2011, 21:44
	9. Подготовка крыс-саперов	2	metanymous	12 ноября 2010, 21:25
	8. "собаки для чтения"	2	metanymous	14 октября 2010, 21:40
	7. Игры вызывающие зависимость	79	meta_eugzol	09 августа 2010, 11:31
	6. ОФ "африканская" выездка	9	metanymous	24 июля 2010, 17:53
	5. ОФ подзатыльниками и чем еще похуже	11	metanymous	12 июля 2010, 16:48
	4. Обещают доказать: ОФ = ЯКОРЯ	139	metanymous	25 декабря 2009, 10:18
	3. ОФ всего что шевелится	32	metanymous	20 декабря 2009, 08:45
	2. Революция кликера	17	metanymous	08 сентября 2009, 05:41
	Революция кликера	26	metanymous	23 декабря 2008, 09:45

Революция кликера
	22. Дрессируются через 50 тыс. попыток!			metanymous	10 декабря 2015, 18:31

livejournal.com
	http://ailev.livejournal.com/1322278.html
ljsear.ch
	https://ljsear.ch/
openai.com
	https://openai.com/blog/faulty-reward-functions/.
youtube.com
	https://www.youtube.com/watch?v=tlOIHko8ySg

Скиннеровское моделирование
	24. Наука и человеческое поведение			metanymous	04 марта 2017, 10:55

http://metapractice.livejournal.com/500269.html

http://ailev.livejournal.com/1322278.html
Бихевиоризм, корпоративные KPI и искусственный интеллект
Когда мы обсуждаем "палочную систему" в полиции, ругаем дурацкие корпоративные KPI и хороним бихевиоризм в психологии, мы занимаемся одним и тем же: преодолеваем ограничения обучения с подкреплением. Ибо что ты у этого обучения попросишь, то и получишь: "вы этого хотели -- вот вам!". А хотят-то не этого, не хотят выполнения KPI, хотят "сделайте мне красиво!", просто сформулировать не могут -- принципиально не могут, в этом проблема.
В искусственном интеллекте налетели на ту же проблему: стоит сформулировать, за что компьютерный агент получает подкрепление, и он немедленно научается максимизировать это подкрепление, а не выполнять задуманную задачу. Скажем, решили добавить чуть-чуть очков за попутное поражение целей в ходе гонки. Агент немедленно перестал финишировать гонку, но стал поражать цели, аккуратно дожидаясь их возникновения. Если вы готовы заплатить за каждую дохлую крысу, то в первые три дня люди переловят почти всех крыс, а через полгода вы обнаружите множество крысиных ферм, где будут этих крыс разводить. Неожиданенько, да?

Вот статья исследователей искусственного интеллекта, где обсуждается ровно этот вопрос: что делать с агентами, которые (гады!) максимизируют награду, а не выполняют задачи -- https://openai.com/blog/faulty-reward-functions/. Первым же пунктом там стоит: не нужно прямо специфицировать награду, а нужно имитировать, как закончил бы эту задачу человек. Ха-ха три раза! Человек бы (его так обычно сегодня и учат) сразу предложил бы установить KPI, связанный с решением задачи, так что это не помогает. Нужно сразу же говорить: "как закончил бы эту задачу человек, не испорченный современным менеджментом с засильем KPI -- а тот человек, который действительно хочет решить задачу". Вторым пунктом там стоит, что нужно получить от человека обратную связь, оценивающую качество работы. В компаниях это означает, что есть недочеловеческие подразделения, которые используют максимизацию KPI, и какие-то человеки, которые не связаны KPI, и поэтому могут проверить недочеловеков. Но в современных корпорациях где таких возьмёшь? Там ведь KPI снизу доверху!

Третий ход уже интересней: "It may be possible to use transfer learning to train on many similar games, and infer a “common sense” reward function for this game. Such a reward function might prioritize finishing the race based on the fact that a typical game has such a goal, rather than focusing on the idiosyncrasies of this particular game's reward function. This seems more similar to how a human would play the game" -- в современных компаниях это означает, что неопытные сотрудники будут слепо следовать максимизации достижения своих KPI, а вот опытные будут пытаться следовать здравому смыслу и житейскому опыту. Свежо предание, только кто им это даст? Сначала им нужно будет придумать, как обдурить систему с KPI. Ну, её и дурят повсеместно, чисто из опыта.

В любом случае интересно посмотреть, как машинное обучение будет преодолевать теоретические ограничения тупого бихевиоризма, которым пропитаны сверху донизу крупные компании. Ибо проблемы проблемами, но бихевиоризм работает, и работает хорошо -- даже когда заказ цели неправильный, эта неправильная цель ведь достигается!

Вот видео из текста по ссылке, там хорошо видно, как агент немедленно сходит с маршрута гонки, как только находит способ резкого поднятия своих показателей согласно установленной ему системы KPI

(https://www.youtube.com/watch?v=tlOIHko8ySg):

Ничего не напоминает из корпоративной жизни?

Поиск по архиву жж
https://ljsear.ch/