Основной урок, который можно извлечь из 70 лет исследований в области искусственного интеллекта (AI), заключается в том, что общие методы, активно привлекающие вычислительные ресурсы, оказываются в конечном счете наиболее эффективными, — причем со значительным преимуществом. Конечной причиной этого является закон Мура, а точнее, его обобщение о продолжающемся экспоненциальном падении стоимости единицы вычислений. В большинстве своем исследования в области AI исходили из предположения о том, что доступные агенту вычислительные мощности остаются постоянными (в этом случае активное привлечение человеческих знаний — один из немногих способов улучшить производительность). Однако за период, чуть превышающий типичный срок жизни научного проекта, неизбежно становятся доступны значительно бóльшие вычислительные мощности. В поисках усовершенствований, приносящих результат в краткосрочной перспективе, исследователи стараются опираться на свои знания предметной области. Однако в долгосрочной перспективе оказывается, что вычислительные ресурсы — единственное, что имеет значение. Эти подходы необязательно противоречат друг другу, но на практике зачастую так и происходит. Время, потраченное на один подход, — это время, не потраченное на другой. Существует также психологическая склонность к инвестированию в один из этих подходов. Кроме всего прочего, подход, основывающийся на человеческих знаниях, имеет тенденцию усложнять частные методы исследования таким образом, что использование общих методов, использующих преимущества вычислений, оказывается затруднено.
Исследователи в области AI часто осознавали этот болезненный урок с запозданием, чему есть множество примеров. Будет полезно рассмотреть некоторые наиболее яркие из них.
В компьютерных шахматах подходы, приведшие в итоге к поражению чемпиона мира Гарри Каспарова в 1997 году, основывались на мощном, глубоком переборе. Тогда этот факт вызвал смятение и разочарование у большинства исследователей, работавших над компьютерными шахматами и развивавших методы, опирающиеся на человеческое понимание игры. Когда выяснилось, что более простой, основанный на переборе и использовании специализированного оборудования / программного обеспечения подход, значительно более эффективен, оказалось, что эти исследователи не умеют проигрывать. Они утверждали, что пусть даже лобовое решение на основе перебора и выиграло в этот раз, но стратегия эта не универсальна, — и не отражает того, как люди играют в шахматы. Эти исследователи хотели, чтобы победил подход, основанный на человеческом понимании игры, — и были разочарованы, когда этого не случилось.
Схожим образом развивались и исследования компьютерного го, — только с опозданием на 20 лет. Огромные начальные усилия были направлены на то, чтобы избежать перебора за счет привлечения человеческих знаний или использования особенностей игры, — однако, эффективное применение перебора в достаточном масштабе тут же продемонстрировало, что все эти усилия были потрачены втуне — или даже во вред. Также важным стало обучение алгоритма через самоигру* для нахождения функции оценки (то же относится и к другим играм, даже к шахматам — хотя при создании программы 1997 года, впервые победившей чемпиона мира, обучение не играло большой роли). Обучение через самоигру, как и обучение в целом, подобно поиску в том смысле, что позволяет привлекать к работе огромные вычислительные ресурсы. Перебор и обучение являются в исследованиях AI двумя наиболее важными классами методов, использующих значительные вычислительные мощности. В компьютерном го, как и в компьютерных шахматах, первоначальные усилия были направлены на использование человеческого понимания игр (чтобы снизить необходимость в поиске), — и только много позже выяснилось, что залогом успеха является, напротив, наиболее полное использование перебора и обучения.
На ранних периодах работы над распознаванием речи, в 1970-х годах, среди исследователей шло спонсированное DARPA соревнование. Участники использовали множество специализированных методов, активно привлекавших человеческие знания — знания слов, фонем, структуры человеческого речевого тракта, etc. Наряду с этим использовались и новые методы, основанные на скрытых марковских моделях**, более статистические по природе и задействующие вычисления в гораздо бóльших объемах. И снова статистические методы оказались успешнее методов, основанных на человеческих знаниях. Это привело к значительным изменениям во всей области обработки естественного языка (natural language processing): статистика и вычисления постепенно заняли в этой сфере доминирующие позиции. Недавний рост популярности глубокого обучения в области распознавания речи — это последний по времени этап устойчивого движения в этом направлении. Методы глубокого обучения, позволяющие обеспечить качественное распознавание речи, в ещё меньшей степени зависят от человеческих знаний и используют, наряду с ещё большими объемами вычислений, обучение на огромных объемах данных. Как и в случае с играми, исследователи сперва пытались создавать системы, работающие в соответствии с нашими представлениями о том, как устроены человеческие мыслительные процессы — т.е. пытались включить эти представления в проектируемые ими системы. Усилия эти оказались, в конечном счете, контрпродуктивными. Время на них было потрачено впустую, поскольку закон Мура сделал возможным применение колоссальных вычислительных ресурсов, для которых был найден способ эффективного использования.
Аналогичная картина наблюдается и в исследованиях компьютерного зрения. Ранние методы трактовали зрение как поиск контуров, обобщенных цилиндров*** или в терминах SIFT-признаков****. Сегодня все эти подходы отброшены. Современные нейронные сети глубокого обучения используют только понятия свертки и определённые виды инвариантности, обеспечивая при этом значительно лучшие результаты.
Это важный урок. Мы — если брать область исследований в целом — всё ещё, очевидно, не усвоили его до конца и продолжаем допускать те же ошибки. Чтобы увидеть эти ошибки и перестать их совершать, нужно осознать их привлекательность. Мы должны усвоить горький урок, который заключается в том, что в долгосрочной перспективе попытки встраивания в алгоритмы наших представлений о том, как мы сами думаем, не работает. Горький урок этот основан на следующих исторических наблюдениях: 1) исследователи AI часто пытались встроить эти представления/знания в свои системы, 2) в краткосрочной перспективе это всегда работает, принося исследователю личное удовлетворение, но 3) в долгосрочной перспективе приводит к стагнации и даже тормозит прогресс, а 4) прорывы достигаются за счёт использования противоположного подхода, основанного на масштабировании вычислений через перебор и обучение. Победа этого второго подхода имеет привкус горечи и признается во многих случаях лишь отчасти, — поскольку свидетельствует о поражении дорогого нам антропоцентризма.
Один из выводов, который нам следует вынести из этого горького урока, — это огромная мощь универсальных методов. Методов, которые продолжают масштабироваться с увеличением вычислительных ресурсов, даже когда эти ресурсы становятся поистине огромными. Два метода, которые, по-видимому, масштабируются практически неограниченно, — это перебор и обучение.
Второй общий вывод, который следует сделать из горького урока, заключается в том, что содержимое нашего разума неимоверно, непредставимо сложно; мы должны перестать искать простые способы осмысления содержания разума, — точно так же, как и простые способы осмысления пространства, объектов, множественных агентов или симметрий. Всё это — части хаотичного, сложного по самой своей природе внешнего мира. Мы не должны пытаться закладывать их в структуру системы, а должны вместо этого интегрировать в нее метаметоды, способные обнаруживать и схватывать эту произвольную сложность. Важнейшей способностью здесь является способность находить хорошие приближения, — но поиск их должен осуществляться методами, которые мы создаем, а не методами, используемыми нами самими (the search for them should be by our methods, not by us). Мы хотим создавать AI-агенты, способные, подобно нам, к совершению открытий, — а не включающие в себя уже совершенные нами открытия. Встраивание в эти системы уже совершенных нами открытий лишь затрудняет понимание того, как открытия могут совершаться.
13 марта 2009 г.
‘Bitter lesson’. Essay by Richard Sutton. (eng.)
Ричард С. Саттон — член Королевского общества Канады и Королевского общества Великобритании, канадский учёный в области компьютерных наук, профессор компьютерных наук в Университете Альберты и научный сотрудник компании Keen Technologies.
Перевод Станислава Львовского.
* Самоигра используется в обучении искусственных агентов для решения и конкуренции с людьми в играх. В самоигре в качестве оппонентов используются нынешние и прошлые «я» агента. Это позволяет создать естественно совершенствующегося противника, против которого агент может постепенно совершенствоваться. См. здесь.
** Скрытая марковская модель (СММ) - статистический инструмент, который помогает анализировать и предсказывать поведение сложных систем в тех случаях, когда невозможно напрямую наблюдать все факторы, влияющие на эту систему. CVV применяются в различных областях, включающих в себя распознавание речи, анализ биологических последовательностей, машинный перевод и криптоанализ.См. здесь.
*** Обобщенный цилиндр — это тело, ось которого — произвольная пространственная кривая, а сечение — произвольная замкнутая плоская кривая. Сечение перпендикулярно оси в каждой точке, оно постоянно по форме, но его масштаб может изменяться вдоль оси. См. здесь.
**** SIFT - это метод компьютерного зрения, который выделяет в изображениях особые точки и описывает их окрестности так, чтобы потом можно было надежно находить эти же точки на других изображениях. Главная особенность метода в том, что он работает независимо от масштаба картинки, её поворота и условий освещения. То есть SIFT создает такое описание приметных мест изображения, которое остается стабильным даже при существенных изменениях того, как эти места выглядят на разных фотографиях. Именно поэтому этот метод стал одним из важнейших инструментов в задачах сопоставления изображений и компьютерного зрения в целом.