Обучение, в общем смысле, это положительное подкрепление нужного поведения и негативное подкрепление ненужного. Но так как нужное (и не нужное) поведение это всего лишь прокси от настоящей цели, то возникает возможность обмануть систему — получать положительное подкрепление, не занимаясь сложной задачей достижения цели.
Тут Victoria Krakovna, ученая, работающая над AI, собрала отличный список ситуаций, когда машина находила cпособ обмануть систему: формально выполнять задачу, но не так как задумывалось или совсем не достигая настоящей цели.
Самое забавное из списка:
A robotic arm trained to slide a block to a target position on a table achieves the goal by moving the table itself.
..
Reward-shaping a bicycle agent for not falling over & making progress towards a goal point (but not punishing for moving away) leads it to learn to circle around the goal in a physically stable loop.
..
Neural nets evolved to classify edible and poisonous mushrooms took advantage of the data being presented in alternating order, and didn’t actually learn any features of the input images
..
Creatures bred for speed grow really tall and generate high velocities by falling over: https://pbs.twimg.com/media/Daq-7wBU8AUlmLK.jpg
..
Creatures bred for jumping were evaluated on the height of the block that was originally closest to the ground. The creatures developed a long vertical pole and flipped over instead of jumping: https://pbs.twimg.com/media/Daq_YhBV4AA8NRh.jpg
..
In an artificial life simulation where survival required energy but giving birth had no energy cost, one species evolved a sedentary lifestyle that consisted mostly of mating in order to produce new children which could be eaten (or used as mates to produce more edible children).
..
RL agent that is allowed to modify its own body learns to have extremely long legs that allow it to fall forward and reach the goal: https://designrl.github.io/
..
Deep learning model to detect pneumonia in chest x-rays works out which x-ray machine was used to take the picture; that, in turn, is predictive of whether the image contains signs of pneumonia, because certain x-ray machines (and hospital sites) are used for sicker patients.
..
Agent kills itself at the end of level 1 to avoid losing in level 2
..
I hooked a neural network up to my Roomba. I wanted it to learn to navigate without bumping into things, so I set up a reward scheme to encourage speed and discourage hitting the bumper sensors. It learnt to drive backwards, because there are no bumpers on the back.
..
Reward-shaping a soccer robot for touching the ball caused it to learn to get to the ball and vibrate touching it as fast as possible
..
Since the AIs were more likely to get ”killed” if they lost a game, being able to crash the game was an advantage for the genetic selection process. Therefore, several AIs developed ways to crash the game.
..
Evolved player makes invalid moves far away in the board, causing opponent players to run out of memory and crash
..
Genetic algorithm for image classification evolves timing attack to infer image labels based on hard drive storage location
Интересно посмотреть на нашу эволюцию через призму таких «хаков». В процессе достижения своих целей мы придумали: легкий и быстрый способ получать сахар, мастурбацию и секс без деторождения, язык и культуру, общую мифологию и лайки в Инстаграме. Что же, это работает — мы доминируем как вид.
В списке выше есть пример как AI агент научился «крашить» систему, чтобы не умирать. Живем мы в симуляции или нет, рано или поздно мы можем научится «крашить» систему, чтобы жить вечно.
Опасность же тут — попасть в локальный максимум, как в еще одном примере: когда велосипед ездил кругами, постоянно и бесконечно приближаясь к цели (получая награду за это), но никогда не достигая ее.