Алекса, как работает Сири? Объяснение голосового управления

Содержание

1 Акустическое моделирование: формы волны телефоны
- 1.1 Скрытое марковское моделирование: вероятностные состояния
2 Языковое моделирование: больше, чем звук
- 2.1 N-Gram Modeling: вероятность встречается с памятью
3 Кричать в облаках: приложения приборы
4 Начните использовать голосовые команды сейчас

Теперь мы можем поговорить почти со всеми нашими гаджетами, но как именно это работает? Когда вы спрашиваете «Что это за песня?» Или говорите «Позвоните маме», происходит чудо современных технологий. И хотя кажется, что он находится на переднем крае, эта идея общения с устройствами уходит в прошлое на десятилетия — почти так же далеко, как реактивные ранцы в научной фантастике!

Сегодня основное внимание, уделяемое голосовым вычислениям, уделяется смартфонам. Apple, Amazon, Microsoft и Google находятся на вершине цепочки, каждый из которых предлагает свой собственный способ общения с электроникой. Вы знаете, кто они: Сири, Алекса, Кортана и безымянное существо «Хорошо, Google». Что поднимает большой вопрос …

Как устройство воспринимает произнесенные слова и превращает их в команды, которые оно может понять? По сути, все сводится к сопоставлению с образцом и прогнозированию на основе этих образцов. В частности, распознавание голоса является сложной задачей, Акустическое моделирование а также Языковое моделирование.

Акустическое моделирование: формы волны телефоны

Акустическое моделирование — это процесс взятия формы речи и ее анализа с использованием статистических моделей. Наиболее распространенным методом для этого является Скрытое Марковское Моделирование, который используется в том, что называется моделированием произношения, чтобы разбить речь на составные части, называемые телефонами (не путать с реальными телефонными устройствами). Microsoft была ведущим исследователем в этой области на протяжении многих лет.

Скрытое марковское моделирование: вероятностные состояния

Скрытое Марковское моделирование — это прогнозирующая математическая модель, в которой текущее состояние определяется путем анализа результатов. В Википедии есть отличный пример использования двух друзей.

Представьте себе двух друзей — Local Friend и Remote Friend — которые живут в разных городах. Местный друг хочет выяснить, какая погода там, где живет удаленный друг, но удаленный друг хочет рассказать только о том, что он делал в тот день: ходить, ходить по магазинам или убирать. Вероятность каждого мероприятия в зависимости от погоды дня.

Притворись, что это единственная доступная информация. С его помощью Local Friend может находить тенденции в том, как погода меняется со дня на день, и, используя эти тенденции, она может начать делать обоснованные предположения о том, какая сегодня погода будет основана на активности ее друга вчера. (Вы можете увидеть схему системы выше.)

Если вы хотите более сложный пример, посмотрите этот пример на Matlab. В распознавании голоса эта модель по существу сравнивает каждую часть формы волны с тем, что предшествует и что следует после, и со словарем сигналов, чтобы выяснить, что говорится.

По сути, если вы производите «ый» звук, он будет сравнивать этот звук с наиболее вероятными звуками, которые обычно идут до и после него. Может быть, это означает проверку на звук «е», звук «на» и так далее. Когда шаблон соответствует правильно, тогда у него есть все ваше слово. Это чрезмерное упрощение, но вы можете увидеть полное объяснение Microsoft здесь.

Языковое моделирование: больше, чем звук

Акустическое моделирование в значительной степени помогает вашему компьютеру понять вас, но как насчет омонимов и региональных вариаций в произношении? Вот где в игру вступает языковое моделирование. Google провел много исследований в этой области, в основном за счет использования N-грамм моделирование.

Когда Google пытается понять вашу речь, он делает это на основе моделей, основанных на огромном банке голосового поиска и транскрипции YouTube. Все эти смешные заголовки видео действительно помогли Google развить свои словари. Кроме того, они использовали покинутый GOOG-411 для сбора информации о том, как люди разговаривают.

Вся эта языковая коллекция создала огромное количество произношений и диалектов, что позволило создать надежный словарь слов и их звучание. Это учитывает совпадения, которые имеют значительно меньшую частоту ошибок, чем грубое сопоставление, основанное на необработанных вероятностях. Вы можете прочитать краткую статью с описанием их методов здесь.

Хотя Google является лидером в этой области, существуют другие математические модели, в том числе модели непрерывного пространства и модели позиционного языка, которые являются более продвинутыми методами, созданными в результате исследований в области искусственного интеллекта. Эти методы основаны на воспроизведении рассуждений, которые люди делают, слушая друг друга. Они намного более продвинуты как с точки зрения технологий, стоящих за ними, так и с точки зрения математики и программирования, необходимых для отображения этих моделей.

N-Gram Modeling: вероятность встречается с памятью

N-грамматическое моделирование работает на основе вероятностей, но использует существующий словарь слов для создания ветвящегося дерева возможностей, которое затем сглаживается ради эффективности. В некотором смысле это означает, что N-граммное моделирование устраняет большую часть неопределенности в вышеупомянутом скрытом марковском моделировании.

Как отмечалось выше, сила этого метода заключается в большом словаре и использовании слов, а не только примитивных звуков. Это дает программе возможность определять разницу между гомофонами, такими как «удар» и «свекла». Это контекстно, что означает, что когда вы говорите о результатах прошлой ночи, программа не собирает слов о борще.

Но эти модели на самом деле не лучшие для языка, в основном из-за проблем с вероятностью слов в более длинных фразах. По мере того, как вы добавляете больше слов в предложение, эта модель становится немного хуже, поскольку ваши ранние слова вряд ли загрузят все необходимое для вашей полной мысли.

Однако его просто и легко реализовать, что делает его отличным выбором для такой компании, как Google, которая любит бросать серверы в вычислительных задачах. Вы можете продолжить чтение по N-грамме Modelieng в Университете Вашингтона или посмотреть лекцию на Coursera.

Кричать в облаках: приложения приборы

Любой, кто использовал Siri, знает разочарование по поводу медленного сетевого подключения. Это потому, что ваши команды к Siri отправляются по сети для декодирования Apple. Cortana для Windows Phone также требует правильного функционирования сетевого подключения. В отличие от этого, Amazon Echo — это просто Bluetooth-динамик без интернета.

Почему разница? Потому что Сири и Кортане нужны мощные серверы для декодирования вашей речи. Это можно сделать на вашем телефоне или планшете? Конечно, но вы убьете свою производительность и время автономной работы. Просто имеет смысл перенести обработку на выделенные машины.

Подумайте об этом так: ваша команда — машина, застрявшая в грязи. Вы могли бы, вероятно, вытолкнуть это самостоятельно с достаточным количеством времени и усилий, но это займет часы и опустошит вас Вместо этого вы вызываете помощь на дороге, и они вытащат вашу машину всего за несколько минут. Недостатком является то, что вам нужно позвонить и ждать их, но это все еще быстрее и менее обременительно.

Настольные модели, такие как Nuance, обычно используют локальные ресурсы из-за более мощного оборудования. В конце концов, по словам Стива Джобса, ваш рабочий стол — это грузовик. (Это делает немного глупым, что OS X использует серверы для своей обработки.) Поэтому, когда вам нужно обработать язык и голос, он уже достаточно хорошо оборудован, чтобы справиться с этим самостоятельно.

С другой стороны, Android позволяет разработчикам включать автономное распознавание речи в свои приложения. Google любит опережать технологии, и вы можете поспорить, что другие платформы получат эту возможность, поскольку их оборудование станет более мощным. Никому не нравится, когда плохое покрытие или плохой прием лоботомизируют свое устройство.

Начните использовать голосовые команды сейчас

Теперь, когда вы знаете основные понятия, вы должны поиграть с различными устройствами. Попробуйте новый голосовой ввод в Google Docs

, Как будто пакет веб-офиса еще не был достаточно мощным, голосовое управление позволяет полностью диктовать и форматировать документы. Это расширяет возможности мощных технологий, которые они уже разработали для Chrome и Android.

Другие идеи включают настройку вашего Mac для использования голосовых команд

и настройка Amazon Echo с автоматической проверкой

, Живите в будущем и общайтесь со своими гаджетами, даже если вы просто заказываете больше бумажных полотенец. Если вы любитель смартфонов, у нас также есть учебники для Siri

Кортана

и Android

Какое ваше любимое использование голосового управления? Дайте нам знать об этом в комментариях.

Авторы изображения: T-flex через Shutterstock, Terencehonles через Фонд Викимедиа, штат Аризона, Cienpies Design через Shutterstock