[userpic]

ИИ "Скиннер"

metanymous в Metapractice (оригинал в ЖЖ)

Революция кликера, выпуск 23

Революция кликера
  23. ИИ "Скиннер" 1 metanymous
  22. Дрессируются через 50 тыс. попыток! 41 metanymous
  21. Метод "зеленой ручки" 2 metanymous
  20. Оперантное формирование стимулировало Обучение (N?) 1 metanymous
  19. Режешь скидку — режешь лояльность - режешь клиента 24 metanymous
  18. Кнут, пряник и покер 2 metanymous
  15. Оперантные грехи Карла Роджерса 14 metanymous
  14. "Слоновья выездка" от «Ringling Bros.» 1 metanymous
  13. Pavlov Poke - "Тычок от Павлова" 3 metanymous
  12. Don't shoot the Cat 17 metanymous
  11. «Don't shoot the GAME!» 7 metanymous
  10. Karen Pryor «Don't shoot the dog!» 110 metatheo
  9. Подготовка крыс-саперов 2 metanymous
  8. "собаки для чтения" 2 metanymous
  7. Игры вызывающие зависимость 79 meta_eugzol
  6. ОФ "африканская" выездка 9 metanymous
  5. ОФ подзатыльниками и чем еще похуже 11 metanymous
  4. Обещают доказать: ОФ = ЯКОРЯ 139 metanymous
  3. ОФ всего что шевелится 32 metanymous
  2. Революция кликера 17 metanymous
  Революция кликера 26 metanymous
Революция кликера
  22. Дрессируются через 50 тыс. попыток! metanymous
Скиннеровское моделирование
  24. Наука и человеческое поведение metanymous
http://metapractice.livejournal.com/500269.html
http://ailev.livejournal.com/1322278.html
Бихевиоризм, корпоративные KPI и искусственный интеллект
Когда мы обсуждаем "палочную систему" в полиции, ругаем дурацкие корпоративные KPI и хороним бихевиоризм в психологии, мы занимаемся одним и тем же: преодолеваем ограничения обучения с подкреплением. Ибо что ты у этого обучения попросишь, то и получишь: "вы этого хотели -- вот вам!". А хотят-то не этого, не хотят выполнения KPI, хотят "сделайте мне красиво!", просто сформулировать не могут -- принципиально не могут, в этом проблема.
В искусственном интеллекте налетели на ту же проблему: стоит сформулировать, за что компьютерный агент получает подкрепление, и он немедленно научается максимизировать это подкрепление, а не выполнять задуманную задачу. Скажем, решили добавить чуть-чуть очков за попутное поражение целей в ходе гонки. Агент немедленно перестал финишировать гонку, но стал поражать цели, аккуратно дожидаясь их возникновения. Если вы готовы заплатить за каждую дохлую крысу, то в первые три дня люди переловят почти всех крыс, а через полгода вы обнаружите множество крысиных ферм, где будут этих крыс разводить. Неожиданенько, да?

Вот статья исследователей искусственного интеллекта, где обсуждается ровно этот вопрос: что делать с агентами, которые (гады!) максимизируют награду, а не выполняют задачи -- https://openai.com/blog/faulty-reward-functions/. Первым же пунктом там стоит: не нужно прямо специфицировать награду, а нужно имитировать, как закончил бы эту задачу человек. Ха-ха три раза! Человек бы (его так обычно сегодня и учат) сразу предложил бы установить KPI, связанный с решением задачи, так что это не помогает. Нужно сразу же говорить: "как закончил бы эту задачу человек, не испорченный современным менеджментом с засильем KPI -- а тот человек, который действительно хочет решить задачу". Вторым пунктом там стоит, что нужно получить от человека обратную связь, оценивающую качество работы. В компаниях это означает, что есть недочеловеческие подразделения, которые используют максимизацию KPI, и какие-то человеки, которые не связаны KPI, и поэтому могут проверить недочеловеков. Но в современных корпорациях где таких возьмёшь? Там ведь KPI снизу доверху!
Третий ход уже интересней: "It may be possible to use transfer learning to train on many similar games, and infer a “common sense” reward function for this game. Such a reward function might prioritize finishing the race based on the fact that a typical game has such a goal, rather than focusing on the idiosyncrasies of this particular game's reward function. This seems more similar to how a human would play the game" -- в современных компаниях это означает, что неопытные сотрудники будут слепо следовать максимизации достижения своих KPI, а вот опытные будут пытаться следовать здравому смыслу и житейскому опыту. Свежо предание, только кто им это даст? Сначала им нужно будет придумать, как обдурить систему с KPI. Ну, её и дурят повсеместно, чисто из опыта.
В любом случае интересно посмотреть, как машинное обучение будет преодолевать теоретические ограничения тупого бихевиоризма, которым пропитаны сверху донизу крупные компании. Ибо проблемы проблемами, но бихевиоризм работает, и работает хорошо -- даже когда заказ цели неправильный, эта неправильная цель ведь достигается!
Вот видео из текста по ссылке, там хорошо видно, как агент немедленно сходит с маршрута гонки, как только находит способ резкого поднятия своих показателей согласно установленной ему системы KPI
(https://www.youtube.com/watch?v=tlOIHko8ySg):
Ничего не напоминает из корпоративной жизни?

Поиск по архиву жж
https://ljsear.ch/