The work on ensuring the safety of artificial intelligence must begin today, translation


In a recent article on the risks associated with AI, one of the commentators asked me briefly to formulate arguments that prove the seriousness of the situation. I wrote something like this:

1. If humanity does not self-destruct, then in the end we will create AI of the human level.
2. If humanity can create AI of the human level, progress will continue, and in the end we will come to AI level much higher than the human.
3. If such an AI appears, it will eventually become so much stronger than humanity that our existence will depend on whether its goals coincide with ours.
4. It is already possible to conduct useful research that will increase our chances of successfully solving the problem of the coincidence of our goals.
5. Since we can already begin these studies, we probably should do so, since it will be rather short-sighted to leave this problem until it becomes too obvious and urgent.

In the first three paragraphs, I'm more than 95% certain – it's just a discussion on the fact that if the trends of today's movement to a certain goal are maintained, then as a result we will come to it. In the last two statements, I am less certain, about 50%.

Commentators generally agreed with these statements. Nobody seriously tried to argue with pp. 1-3, but many argued that there is no point in worrying about AI now. As a result, we obtained an extended analogy with illegal hacking of computers. This is a big problem that we could never solve completely – but if Alan Turing wanted to solve this problem in 1945, his ideas might be similar to "keep punch cards in a closed box so that they are not read by German spies." Will the attempt to solve problems related to AI in 2015 end with the same nonsense?

Perhaps. But for several reasons, I will allow myself to disagree with this. Some of them are fairly general, so to speak, meta-level, some – more specific and objective. The most important reason for the meta-level is the following: if we accept points 1-3, that is, the possibility of extinction of mankind in the event that we can not solve the problem of the coincidence of our goals with AI's goals, then you really think that our chances of progress in resolving Is this problem small? They are so small that we can say: "Yes, of course, we are moving towards self-destruction, but is the study of the question of whether we can do anything with this will be an effective waste of resources"? And what are those other, amazing ways of using resources that you prefer? You can, of course, give arguments in the style of "betting Pascal," but keep in mind that some professional boxer gets into the fight at times more than we spent on studying the AI-related risks in the history of mankind!

If Would the limitation of AI attracted at least a tenth of that attention or a hundredth of the money that attracted boxing matches involving AI, the world would be much calmer [игра слов: AI boxing – заключение ИИ в ограничивающую его возможности среду; но так можно назвать и вымышленные боксёрские матчи с участием ИИ-роботов – прим. перев.].

But I would like to make an even stronger statement: the risks , Related to AI is not just more important than boxing matches; It is just as important as all other things considered important, for example, finding medicines for diseases, detecting dangerous asteroids and preserving the environment. And so it is necessary to prove that progress on this issue can be achieved even at such an early stage in the development of this area.

And I believe that progress is possible, since this problem lies in the field of philosophy, not technology. Now our goal is not to "write code that controls the future of AI", but "to understand with what category of tasks we will have to face." Let me give some examples of open problems to smoothly jump to a discussion about their current relevance.


Problem 1: Electrodes and the brain

In the brain of some people implanted electrodes – this is done for both therapeutic and research purposes. If the electrode hits certain parts of the brain, for example, in the lateral part of the hypothalamus, a person has an irresistible desire to maximize their stimulation. If you give him a button to stimulate, he will press it a thousand times an hour. If you try to take this button from him, he will desperately and fiercely defend her. Their life and goals are compressed to the point, normal goals like love, money, fame, friendship are forgotten, and all because of the desire to maximize the stimulation of the electrode.

This well coincides with what we know about neurobiology. Rewards in the brain (ATTENTION: EXCESSIVE SIMPLIFICATION) are given out through the electric tension arising in a couple of reward centers, and therefore the brain seeks everything that maximizes the receipt of rewards. Usually this works well: after satisfying biological needs, such as eating or sex, the center of rewards answers this by fixing the reflexes, and therefore you continue to satisfy your biological needs. But direct stimulation of reward centers with the help of electrodes works much more than just waiting for small awards received naturally, so this activity becomes by default the most rewarding. A person who has received the opportunity to directly stimulate the reward center will forget about all these indirect ways of getting awards like "a happy life", and simply press the button connected to the electrode as much as possible.

And for this, neurosurgery is not even needed – drugs such as cocaine and methamphetamine are addictive in particular because they interfere with the work of brain biochemistry and increase the level of stimulation of reward centers.

Computers may face a similar problem. I can not find the link, but I remember the story about the evolutionary algorithm, designed to create code in some application. He generated the code halfway randomly, then ran it through a "compatibility function" that determined how useful it was, and the best sections of the code interbred with each other, mutating slightly until an adequate result was obtained.

In The result, of course, was the code that cracked the compatibility function, which resulted in an absurdly high value.

These are not isolated cases. Any thinking that works with training with reinforcement and reward function – and this seems to be a universal scheme, both in the biological world and in the growing number of examples of AI – will have a similar drawback. The main defense against this problem, at the moment – lack of opportunities. Most computer programs are not smart enough to "crack the function of getting a reward." And the people of the reward system are hidden deep in the head, where we can not get to them. The hypothetical supermind will not have such a problem: he will know exactly where the center of his rewards is, and he will be clever enough to get to it and reprogram it.

In the end, unless we take conscious actions to prevent , It turns out that AI, designed to treat cancer, will crack its own module, determining how much cancer it cured, and give it the maximum possible value. And then go in search of ways to increase the memory, so that it could be kept even more important. If it is superintelligent, it will be possible to include in the memory expansion options "gaining control over all computers in the world" and "turning everything that is not a computer into a computer."

This is not some kind of exotic trap , Which can get several strange algorithms; This can be a natural way of development for a fairly intelligent learning system with reinforcement.

Problem 2: The Strange Decision-Making Theory

Paris Pascal is a well-known argument on why it is logical to join religion. Even if you think that the probability of the existence of a god is vanishingly small, the consequences of your mistake (getting into hell) are great, and the advantages in case you are right (you can not go to church on Sundays) are relatively small – therefore it seems profitable just to believe in God, just in case. Although such a reasoning was invented by quite a lot of objections on the basis of the canons of specific religions (does God want to be believed in it on the basis of such analysis?), This problem can be generalized to the case when it is profitable for a person to become an adherent of anything, simply because you Promised him a huge reward for this. If the reward is large enough, it overrides all the doubts of a person about your ability to secure this reward.

This problem in decision theory is not related to questions of intelligence. A very clever person is likely to be able to calculate the probability of the existence of a god, and numerically estimate the faults of hell – but without a good decision theory, no intelligence will save you from Pascal's bet. It is the intellect that allows you to conduct formal mathematical calculations that convince you of the need to make a bet.

People easily resist such problems – most people of Pascal's bet will not convince, even if they do not find shortcomings in it. However, it is unclear why we have such resistance. Computers that are notorious for relying on formal mathematics, but do not have common sense, will not acquire such resilience if they are not put into it. And to put them into it is a difficult task. Most of the loopholes that reject Pascal's wagers without a deep understanding of what leads to the use of formal mathematics simply generate new paradoxes. The decision on the basis of a good understanding of when formal mathematics ceases to work, while preserving the usefulness of mathematics in solving everyday problems, as far as I know, has not yet been worked out. What's worse, having decided to bet Pascal, we will encounter a couple of dozen similar paradoxes of decision theory, which may require completely different solutions.

This is not just a tricky philosophical trick. A fairly good "hacker" can overthrow an all-galactic AI, simply threatening (unproven) with incredible damage if the AI ​​fails to meet its requirements. If the AI ​​is not protected from such "Pascal wagers" of paradoxes, it decides to fulfill the demands of the hacker.

Problem 3: the effect of evil genius

Everyone knows that the problem with computers is that they do what you tell them, not what you mean. Today it only means that the program will work differently when you forget to close the bracket, or websites will look weird if you confuse HTML tags. But this can lead to AI being able to misunderstand the orders given in natural language.

This is well illustrated in the history of the "Altron Age". Tony Stark orders the supercomputer Altron to establish peace throughout the world. Altron calculates that the fastest and most reliable way to do this is to destroy all life. Altron, in my opinion, is 100% right, and in reality everything would have happened. We could get the same effect by asking AI problems such as "cure cancer" or "end hunger," or any of thousands similar.

The user expresses confidence that a meteor that collides with Earth , Will lead to the end of feminist debates

Even "Three laws of robotics" by Isaac Asimov will be enough for 30 seconds to turn into something disgusting. The first law says that a robot can not harm a person, or by its inaction, lead to a person getting hurt. "Do not overthrow the government" is an example of how people can get hurt through inaction. Or "do not lock every person in a stasis field forever."

It is impossible to formulate a sufficiently detailed order explaining what exactly is meant by "not allowing your inaction to receive harm by a person", unless the robot itself is able to do that , What we mean, and not what we say. This, of course, is not an insoluble problem, since a smart enough AI can understand what we mean, but our desire for having such an understanding must be programmed into the AI ​​directly from scratch.

But this will lead to the second Problem: we do not always know what we mean. The question "how to balance ethical prohibitions aimed at the safety of people with prohibitions aimed at preserving freedoms?" Is now hotly debated in political circles, and appears everywhere, from control over the circulation of weapons to the prohibition of sugary drinks of a large volume. Apparently, the balance of what is important to us, and the combination of savings and sacred principles, is important here. Any AI that is not able to understand this moral maze can end hunger on the planet, killing all starving people, or reject the invention of new pesticides for fear of killing an insect.

But the more you study ethics, the more you understand that it is too It is complex and resists simplification to some formal system that the computer could understand. Utilitarianism is almost amenable to algorithmization, but it is not without paradox, and even without them you would need to assign utility to everything in the world.

This problem remains to be solved in the case of people – the values ​​of most of them seem to us disgusting, and their compromises – losing. If we create AI, whose mind will differ from mine no more than the mind of Pat Robertson, I will consider such a development a failure.


I raised these problems not to impress anyone with philosophical questions. I wanted to prove several statements:

First, there are major problems affecting a wide range of thinking, for example, "all who study with reinforcements" or "all who make decisions based on formal mathematics." People often say that at this stage you can not know anything about the design of future AI. But I would be very surprised if they did not use reinforcement training or decision making on the basis of formal mathematics.

Secondly, for most people these problems are not obvious. These are strange philosophical paradoxes, and not something that everyone understands with basic knowledge.

Thirdly, these problems have already been pondered. Someone, a philosopher, a mathematician, a neuroscientist, thought: "Listen, because training with reinforcement is naturally subject to the problem of implantation of electrodes, which explains why the same behavior can be traced in different areas."

Fourthly, these problems indicate the need to conduct research now, even if preliminary. Why do people so well resist Pascal's betting? Is it possible to reduce our behavior in situations with high utility and low probability to reduce to a function, using which computer would make the same decision? What are the best solutions for the problems of decision theory related to this topic? Why is a person able to understand the concept of implantation of electrodes, and does not seek to get such an electrode personally for his brain? Is it possible to develop a mind that, using such an electrode, will understand all the sensations, but will not feel the desire to continue? How to formalize the ethics and priorities of people is enough to shove them into the computer?

It seems to me that when I hear that "we right now have to start working on the problem of coincidence of goals with AI," they think themselves that Someone is trying to write a program that can be directly imported into the publication of AI in 2075 to ask him an artificial conscience. And then they think: "Yes, for anything you can not do such a complicated thing so early."

But no one offers it. We propose to get acquainted with general philosophical problems affecting a wide range of thinking patterns and carry out neurobiological, mathematical and philosophical studies necessary to understand them by the time engineering problems appear.

By analogy, We are still very far from creating spacecraft moving even with half the speed of light. But we already know what problems a ship traveling faster than light (the theory of relativity and the speed limit of light) can encounter and have already given birth to several ideas to get around them (the Alcubierre bubble). We are not yet able to build such an engine. But if by 2100 we find how to build ships approaching the speed of light, and for some reason the fate of the planet will depend on the availability of ships that move faster than light by 2120, it will be wonderful to realize that we have done all the work с теорией относительности заранее, и не теряем драгоценное время на обсуждение основ физики.

Вопрос «Можем ли мы сейчас провести исследование безопасности ИИ» глуп, поскольку мы уже провели определённое количество исследований в этой области. Они привели к пониманию таких проблем, как три упомянутые выше, и других. Есть даже несколько ответов на вопросы, хотя они и даны на технических уровнях, гораздо ниже, чем любые из этих вопросов. Каждый пройденный сегодня шаг позволяет нам не тратить на него время в будущем в обстановке спешки.


Остаётся моё заявление за номером пять – если мы можем проводить исследования по поводу ИИ уже сегодня, мы должны их проводить, потому что нельзя рассчитывать на то, что наши потомки проведут эти исследования в условиях спешки без нашей помощи, даже используя свою, улучшенную модель того, что такое ИИ и как он выглядит. И у меня на это три причины.

Причина 1: предательский поворот

Модели ИИ у наших потомков могут быть обманчивыми. То, что работает для интеллекта ниже или на уровне человеческого, может не сработать для сверхчеловеческого. Эмпирическое тестирование не поможет без поддержки теоретической философии.

Бедная эволюция. У неё были сотни миллионов лет для того, чтобы разработать защиту от героина – который на крыс влияет примерно так же, как на людей – но ей было недосуг. Why? Потому, что до прошлого века не было никого достаточно умного, кто мог бы синтезировать чистый героин. Так что пристрастие к героину не было проблемой, с которой сталкивались бы эволюционирующие организмы. Схема работы мозга, неплохо проявляющая себя у глупых животных, типа крыс или коров, становится опасной, попав к людям, достаточно умным, чтобы синтезировать героин или вставить электроды в центры удовольствия.

То же относится и к ИИ. ИИ уровня собак не научаться взламывать свой механизм вознаграждений. Этого, возможно, не смогут и ИИ уровня человека – я бы не смог взломать механизм наград робота, если бы мне его дали. Сверхинтеллект сможет. Мы можем столкнуться с ИИ, обучающиеся с подкреплением, которые отлично работают на уровне собаки, хорошо на уровне человека, и затем вдруг взрываются, переходя на уровень сверхинтеллекта – а к тому времени их уже поздно останавливать.

Это общее свойство выходящих из строя режимов безопасности ИИ. Если сказать простому человеку, чтобы он занимался миром во всём мире, то лучшее, что я мог бы сделать, это стать генсеком ООН и научиться вести переговоры. Дайте мне несколько тысяч ядерных боеголовок, и всё повернётся по-другому. ИИ уровня человека может преследовать цели мира во всём мире, лечения рака, непозволения людям получать ущерб путём бездействия, такими же путями, как это делают люди, а затем менять эти пути, когда он вдруг превратится в сверхумный и увидит новые возможности. И этот переход произойдёт в той точке, в которой люди уже не смогут его остановить. Если у людей будет возможность просто отключить ИИ, тогда самым эффективным для него способом избавления человечества от рака будет поиск лекарств. Если они не смогут его отключить, то самым эффективным будет уничтожение человечества.

В своей книге Ник Бостром называет такую схему «предательский поворот», и он обрекает на провал любого, кто хочет сначала подождать, пока не появится ИИ, а затем решать их моральные провалы путём проб, ошибок и наблюдений. Лучше будет обзавестись хорошим пониманием происходящего, чтобы затем предсказывать эти повороты заранее, и разрабатывать системы, избегающие их.

Причина 2: тяжёлый старт

Нэйтан Тейлор из Praxtime пишет:

Возможно, большая часть современных дебатов по поводу рисков ИИ просто варианты одного, более фундаментального спора: лёгкий старт или тяжёлый старт.

Лёгкий старт – это прогресс ИИ, идущий от уровня, ниже человеческого, до уровня тупого человека, до ещё более умного человека, и потом до сверхчеловеческого, медленно, в течение многих десятилетий. Тяжёлый старт – это быстрый прогресс ИИ, от нескольких дней до нескольких месяцев.

В теории, если подключить ИИ человеческого уровня к калькулятору, можно поднять его до уровня человека, умеющего очень быстро считать. Если подключить его к Википедии, можно передать ему все знания человечества. Если подключить его к накопителю в несколько гигабайт, можно сделать его обладателем фотографической памяти. Дать дополнительные процессоры, и ускорить его во много раз – так, что проблема, для решения которой у человека уйдёт целый день, займёт этот ИИ на 15 минут.

Мы уже перешли от «интеллекта на уровне человека» к «интеллекту на уровне человека со всеми знаниями, фотографической памятью, быстрыми вычислениями, решающему задачи в сотню раз быстрее людей». И уже получается, что этот «интеллект на уровне человека» уже не находится на уровне человека.

Следующая проблема – рекурсивное самосовершенствование. Возможно, этот ИИ человеческого уровня с фотографической памятью и огромной скоростью изучит программирование. Со своей возможностью поглощения учебников за секунды он станет отличным программистом. Это позволит ему исправлять свои собственные алгоритмы, чтобы повысить свой интеллект, что позволит ему увидеть новые способы сделаться более умным, и т.д. В результате он либо достигнет естественного максимума, или станет сверхумным за одно мгновение.

Во втором случае способ «подождать, пока появится первый интеллект человеческого уровня, и затем тестировать его» не сработает. Первый интеллект человеческого уровня слишком быстро превратится в первый интеллект сверхчеловеческого уровня, и мы не успеем решить даже одну из сотен проблем, связанных с соответствием наших целей.

Я не встречал пока подобных аргументов, но я бы сказал, что даже в случае тяжёлого старта мы можем недооценивать риски.

Представьте, что по какой-либо причине с точки зрения эволюции было бы круто обладать двумя сотнями глаз. 199 глаз ничем не помогают, они не лучше двух, но если вдруг появятся существа с 200 глазами, они навсегда станут доминирующим видом.

Самое сложное в вопросе с 200 глазами – это получить в результате эволюции глаза в принципе. После этого получить 200 глаз очень легко. Но могут пройти целые эпохи до того, как любой организм достигнет состояния с 200 глазами. Несколько десятков глаз тратят энергию впустую, поэтому эволюция может в принципе не добраться до точки, в которой у кого-нибудь появятся 200 глаз.

Допустим, то же самое работает и с интеллектом. Очень тяжело эволюционировать до крохотного крысиного мозга. А с этого момента получение мозга человека, способного доминировать в мире, будет лишь вопросом масштабирования. Но так как мозг тратит много энергии и не был так уж полезен до открытия технологий, его появление заняло очень много времени.

Подтверждений тому предостаточно. Во-первых, люди произошли от шимпанзе всего за несколько миллионов лет. Это слишком мало для того, чтобы переработать разум с нуля или даже изобрести новые эволюционные технологии. Этого достаточно, чтобы изменить масштаб и добавить пару эффективных изменений. Но обезьяны существовали десятки миллионов лет до этого.

Во-вторых, дельфины почти настолько же умные, как и люди. Но наш с ними общий предок жил где-то 50 млн лет назад. Либо люди и дельфины эволюционировали 50 млн лет независимо, или же самый последний из общих предков обладал всем необходимым для интеллекта, и люди с дельфинами – это всего лишь два вида животных в большом фамильном древе, для которых использование интеллекта на полную катушку стало полезным. Но этот предок был, скорее всего, сам не умнее крысы.

В-третьих, люди могут пугающе быстро увеличивать интеллект под давлением эволюции. Если верить Кокрэну, IQ ашкенази рос на 10 пунктов каждую тысячу лет. Люди, страдающие от торсионной дистонии, могут набирать 5-10 пунктов IQ из-за одной мутации. Всё это говорит о том, что интеллект легко менять, но эволюция решила, что он не стоит развития, разве что в отдельных, особых случаях.

Если это так, тогда первый ИИ сравнимый по уровню с крысами уже будет содержать все интересные открытия, необходимые для постройки ИИ уровня человека и первого сверхумного ИИ. Обычно люди говорят, что «Ну да, может, мы скоро и сделаем ИИ уровня крысы, но пройдёт ещё много времени до того, как его уровень сравняется с человеческим». Но это предположение основано на том, что нельзя превратить интеллект крысы в человеческий, просто добавив процессоров или больше виртуальных нейронов или их связей или чего-то ещё. Ведь компьютеру не нужно беспокоиться по поводу ограничений, связанных с метаболизмом.

Причина 3: временные ограничения

Бостром и Мюллер опрашивали исследователей ИИ по поводу того, когда те ожидают появления ИИ уровня человека. Медиана предсказаний легла на 2040 год – это через 23 года.

Люди размышляли над пари Паскаля 345 лет, и не придумали обобщённого решения этого парадокса. Если это будет проблемой для ИИ, у нас осталось 23 года для решения не только этой задачи, но и вообще всего класса проблем, связанных с ИИ. Даже исключая варианты вроде неожиданного тяжёлого старта или предательских поворотов, и принимая гипотезу о том, что мы можем решить все проблемы за 23 года, этот срок не кажется таким уж большим.

Во время дартмутской конференции по ИИ в 1956 году лучшие исследователи составили план по достижению человеческого уровня интеллекта и назначили себе срок в два месяца на обучение компьютеров пониманию человеческого языка. Оглядываясь назад, это кажется немного оптимистичным прогнозом.

Но сейчас компьютеры уже научились более-менее сносно переводить тексты, и неплохо развиваются в области решения сложных задач. Но когда люди думают о таких вещах, как теория принятия решений или имплантация электродов или выравнивание целей, они говорят просто: «Ну, у нас полно времени».

Но ожидать, что эти проблемы удастся решить всего за несколько лет, возможно, будет также оптимистично, как решить задачу машинного перевода за два месяца. Иногда задачи оказываются сложнее, чем вы предполагали, и стоит начинать заниматься ими раньше, просто на всякий случай.

Всё это означает, что теоретические изыскания по поводу рисков ИИ стоит начинать уже сегодня. Я не говорю, что на это нужно бросить все ресурсы цивилизации, и я слышал, что некоторые считают, что после гранта в $10 млн от Маска эта проблема стала уже не такой насущной. Я думаю, что и с публичным осознанием этого факта уже нет проблем. Средний человек, смотрящий кино про роботов-убийц, скорее приносит вред, чем пользу. Если и существует проблема, то она в том, чтобы умные люди из нужных областей знания – философии, ИИ, математики, нейробиологии – смогли потратить своё время на решение этих задач и убедить своих коллег в их серьёзности.