Microsoft против Google — Кто возглавляет гонку искусственного интеллекта?

ИИ вернулся.

Впервые с 1980-х годов исследователи искусственного интеллекта достигли ощутимого прогресса в решении сложных проблем, и люди снова начинают серьезно говорить о сильном ИИ. В то же время наш все более управляемый данными мир начал гонку вооружений между компаниями, стремящимися монетизировать новую разведку, особенно в мобильном пространстве.

Двумя титанами, ведущими пакет, являются Google и Microsoft. Первая битва? Новый домен в искусственном интеллекте под названием «Глубокое обучение».

Так кто же победит?

Мозг Google

Исследовательские усилия Google были сосредоточены вокруг проекта под названием «Google Brain». Google Brain — это продукт известной / секретной исследовательской лаборатории Google «Google X», которая отвечает за проекты «лунного выстрела» с низкими шансами на успех, но с очень высокими потенциал. К другим продуктам Google X относятся Project Loon, инициатива «Воздушный шар в Интернете» и проект самоходного автомобиля Google.

Google Brain — это огромная инициатива по машинному обучению, которая в первую очередь направлена на обработку изображений, но имеет гораздо более широкие амбиции. Проект был начат профессором из Стэнфорда Эндрю Нгом, экспертом по машинному обучению, который с тех пор покинул проект, чтобы работать на Baidu, крупнейшую поисковую систему Китая.

Google имеет долгую историю участия в исследованиях ИИ. Мэтью Цейлер, генеральный директор машинного стартапа, и стажер, работавший над Google Brain, формулирует это так:

. DeepMind еще не выпустили свой первый продукт, но в компании работала значительная часть всех специалистов по глубокому обучению в мире. На сегодняшний день их единственной публичной демонстрацией их технологии был игрушечный ИИ, который действительно очень хорош в Atari.

Поскольку глубокое обучение является относительно новой областью, у него не было времени подготовить большое поколение экспертов. В результате в этой области очень мало людей, имеющих опыт в этой области, и это означает, что можно получить существенное преимущество в этой области, наняв всех заинтересованных сторон.

До сих пор Google Brain применялся для функции распознавания голоса в Android и для автоматической каталогизации изображений StreetView, определяя такие важные функции, как адреса. Ранним тестом был знаменитый эксперимент с кошками, в котором сеть глубокого обучения Google автоматически училась распознавать кошек в видеороликах Youtube с большей точностью, чем в предшествующем уровне техники. В своей статье на эту тему Google выразил это так:

«Вопреки тому, что кажется широко распространенной интуицией, наши экспериментальные результаты показывают, что можно обучить детектор лица без необходимости маркировать изображения как содержащие лицо или нет […] Сеть чувствительна к понятиям высокого уровня, таким как как кошачьи лица и человеческие тела. Начиная с этих изученных функций, мы обучили его, чтобы получить 15,8% точности в распознавании 20 000 категорий объектов, что на 70% выше относительного улучшения по сравнению с предыдущими современными [сетями] ».

В конце концов, Google хотел бы, чтобы его алгоритмы глубокого обучения делали… ну, в общем, практически все, на самом деле. Мощные платформы ИИ, такие как IBM Watson, полагаются на такие низкоуровневые алгоритмы машинного обучения, а усовершенствования в этой области делают общую область ИИ гораздо более мощной.

Будущая версия Google Now, созданная на основе Google Brain, сможет распознавать как речь, так и изображения, а также предоставлять интеллектуальную информацию об этих данных, помогая пользователям принимать более взвешенные решения. Мозг Google может улучшить все, от результатов поиска до Google Translate.

Microsoft Адам

Подход Microsoft к глубокой учебной войне был немного другим. Вместо того, чтобы пытаться скупить экспертов по глубокому обучению для совершенствования их алгоритмов, Microsoft сосредоточилась на улучшении реализации и поиске лучших способов распараллеливания алгоритмов, используемых для обучения алгоритмов глубокого обучения.

Этот проект называется «Microsoft Adam». Их методы сокращают избыточные вычисления, удваивая качество результатов, используя меньше процессоров для их получения. Это привело к впечатляющим техническим достижениям, включая сеть, которая может распознавать отдельные породы собак по фотографиям с высокой точностью.

Microsoft описывает проект так:

Цель Project Adam — дать возможность программному обеспечению визуально распознавать любой объект. Это сложная задача, учитывая огромную нейронную сеть в человеческом мозге, которая делает возможным такого рода ассоциации через триллионы соединений. […] Используя в 30 раз меньше машин, чем в других системах, [данные об изображении в Интернете] использовались для обучения нейронной сети более двух миллиардов соединений. Эта масштабируемая инфраструктура в два раза точнее в распознавании объектов и в 50 раз быстрее, чем другие системы.

Очевидное применение этой технологии в Cortana, новом виртуальном помощнике Microsoft

, вдохновленный персонажем AI в Halo. Cortana, нацеленная на конкуренцию с Siri, может делать множество умных вещей, используя сложные методы распознавания речи.

Целью проекта является создание помощника с более естественным взаимодействием и может выполнять более широкий спектр полезных задач для пользователя, что очень поможет глубокому обучению.

Улучшения Microsoft в области глубокого обучения впечатляют и привели к тому, что приложения ранее были невозможны.

Как работает глубокое обучение

Чтобы немного лучше понять проблему, давайте уделим минуту, чтобы понять эту новую технологию. Глубокое обучение — это метод построения интеллектуального программного обеспечения, часто применяемого в нейронных сетях. Он строит большие полезные сети, объединяя более простые нейронные сети, каждый из которых находит шаблоны в выходных данных своего предшественника. Чтобы понять, почему это полезно, важно взглянуть на то, что было до глубокого изучения.

Обратное распространение нейронных сетей

Базовая структура нейронной сети на самом деле довольно проста. Каждый «нейрон» представляет собой крошечный узел, который принимает входные данные и использует внутренние правила, чтобы решить, когда «запускать» (производить выходные данные). Входы, поступающие в каждый нейрон, имеют «весовые коэффициенты» — множители, которые контролируют, является ли сигнал положительным или отрицательным и насколько сильным.

Соединяя эти нейроны вместе, вы можете построить сеть, которая имитирует любой алгоритм. Вы вводите свои входные данные во входные нейроны в виде двоичных значений и измеряете значение запуска выходных нейронов, чтобы получить выходные данные. Таким образом, хитрость для нейронных сетей любого типа состоит в том, чтобы взять сеть и найти набор весов, который наилучшим образом соответствует интересующей вас функции.

Обратное распространение, алгоритм, используемый для обучения сети на основе данных, очень прост: вы запускаете свою сеть со случайными весами, а затем пытаетесь классифицировать данные с известными ответами. Когда сеть неправильна, вы проверяете, почему это неправильно (производя меньший или больший выходной сигнал, чем целевой), и используете эту информацию, чтобы подтолкнуть веса в более полезном направлении.

Делая это снова и снова, для многих точек данных сеть учится правильно классифицировать все ваши точки данных и, как мы надеемся, обобщать новые точки данных. Основное понимание алгоритма обратного распространения состоит в том, что вы можете перемещать данные об ошибках обратно по сети, изменяя каждый слой на основе изменений, которые вы сделали на последнем уровне, что позволяет вам строить сети на несколько уровней в глубину, что позволяет понимать более сложные шаблоны.

Backprop был изобретен в 1974 году Джеффри Хинтоном и впервые продемонстрировал полезность нейронных сетей для широкого применения. Тривиальные нейронные сети существуют с 50-х годов и изначально были реализованы с помощью механических нейронов, приводимых в движение мотором.

Еще один способ думать об алгоритме backprop — исследовать возможные решения. Вес каждого нейрона — это еще одно направление, в котором он может исследовать, и для большинства нейронных сетей их тысячи. Сеть может использовать информацию об ошибках, чтобы увидеть, в каком направлении ей нужно двигаться и как далеко, чтобы уменьшить ошибку.

Он начинается в произвольной точке и, постоянно обращаясь к компасу ошибок, движется «вниз» в направлении меньшего количества ошибок, в конечном итоге обосновываясь на дне ближайшей долины: наилучшее возможное решение.

Так почему бы нам не использовать обратное распространение для всего? Ну, у backprop есть несколько проблем.

Наиболее серьезная проблема называется «проблемой исчезающего градиента». По сути, когда вы перемещаете данные об ошибках обратно по сети, они становятся менее значимыми каждый раз, когда вы возвращаетесь к слою. Попытка построить очень глубокие нейронные сети с обратным распространением не работает, потому что информация об ошибках не сможет проникнуть достаточно глубоко в сеть, чтобы обучить более низкие уровни полезному способу.

Вторая, менее серьезная проблема заключается в том, что нейронные сети сходятся только к локальным оптимам: часто они попадают в небольшую долину и пропускают более глубокие, лучшие решения, которые не близки к их случайной начальной точке. Итак, как мы решаем эти проблемы?

Сети глубокого убеждения

Сети глубокого убеждения являются решением обеих этих проблем, и они полагаются на идею построения сетей, которые уже имеют представление о структуре проблемы, а затем уточняют эти сети с помощью обратного распространения. Это форма глубокого изучения, которая широко используется как Google, так и Microsoft.

Техника проста и основана на некой сети, называемой «Ограниченная машина Больцмана» или «RBM», которая опирается на то, что известно как неконтролируемое обучение.

В двух словах, машины с ограниченным доступом Больцмана — это сети, которые просто пытаются сжимать данные, которые им предоставляют, вместо того, чтобы пытаться явно классифицировать их в соответствии с обучающей информацией. RBMs собирают точки данных и обучаются в соответствии с их способностью воспроизводить эти точки данных из памяти.

Делая RBM меньше, чем сумма всех данных, которые вы запрашиваете для кодирования, вы заставляете RBM изучать структурные закономерности в отношении данных, чтобы хранить их все в меньшем пространстве. Такое изучение глубокой структуры позволяет сети обобщать: если вы обучаете RBM воспроизводить тысячи изображений кошек, вы можете затем вставить в нее новое изображение — и, глядя на то, насколько энергичной становится сеть, вы можете выяснить, содержит ли новое изображение кошку или нет.

Правила обучения для RBMs напоминают функцию реальных нейронов внутри мозга в важных отношениях, которые не делают другие алгоритмы (такие как обратное распространение). В результате они могут научить исследователей тому, как работает человеческий разум.

,

Еще одна полезная особенность RBM состоит в том, что они «конструктивны», что означает, что они также могут работать в обратном порядке, работая в обратном направлении от высокоуровневой функции, чтобы создать воображаемые входные данные, содержащие эту функцию. Этот процесс называется «мечтать».

Так почему же это полезно для глубокого изучения? Ну, у машин Больцмана есть серьезные проблемы с масштабированием — чем глубже вы пытаетесь их сделать, тем больше времени требуется для обучения сети.

Основное понимание сетей глубокого убеждения заключается в том, что вы можете объединять двухслойные RBM вместе, каждый из которых обучен находить структуру в выходных данных своего предшественника. Это быстро, и приводит к сети, которая может понимать сложные, абстрактные особенности данных.

В задаче распознавания изображений первый слой может научиться видеть линии и углы, а второй слой может научиться видеть комбинации тех линий, которые составляют такие элементы, как глаза и носы. Третий слой может объединить эти особенности и научиться распознавать лицо. Переключив эту сеть на обратное распространение, вы можете оттачивать только те функции, которые относятся к интересующим вас категориям.

Во многих отношениях это простое исправление обратного распространения: оно позволяет «обмануть» backprop, начав с множества информации о проблеме, которую он пытается решить. Это помогает сети достигать лучших минимумов и гарантирует, что самые низкие уровни сети обучены и делают что-то полезное. Это оно.

С другой стороны, методы глубокого обучения привели к значительным улучшениям в скорости и точности машинного обучения и почти единолично ответственны за быстрое улучшение программного обеспечения для преобразования речи в текст в последние годы.

Гонка за хитрые компьютеры

Вы можете понять, почему все это полезно. Чем глубже вы можете строить сети, тем больше и абстрактнее концепции, которые сеть может выучить.

Хотите знать, является ли электронная почта спамом? Для умных спаммеров это сложно. Вы должны на самом деле прочитать письмо и понять некоторые намерения, стоящие за ним — попытаться выяснить, существуют ли отношения между отправителем и получателем, и определить намерения получателя. Вы должны делать все это, основываясь на бесцветных цепочках букв, большинство из которых описывает концепции и события, о которых компьютер ничего не знает.

Это очень много, чтобы спросить любого.

Если бы вас попросили научиться выявлять спам на языке, на котором вы еще не говорили, предоставив только некоторые положительные и отрицательные примеры, вы бы поступили очень плохо — и у вас человеческий мозг. Для компьютера проблема была практически невозможна, до недавнего времени. Такого рода идеи могут иметь глубокие знания, и они будут невероятно мощными.

Прямо сейчас Microsoft выигрывает эту гонку на волосок. В долгосрочной перспективе? Это чье-то предположение.

Авторы изображения: «Компьютерный AI», Саймон Лю, «Bullfrog», Бруноп, «Compass Top», airguy1988, «Freer than Free», opensource.com