Все идет к тому, что наше общение с техникой вскоре станет почти исключительно устным. Просить о чем-то вслух и слышать ответ естественно для человека: посмотрите, как непринужденно управляются с голосовыми помощниками дети.
Впрочем, с новыми технологиями — и голосовое управление здесь не исключение — появляются и новые угрозы. Исследователи вопросов кибербезопасности без устали ищут их, чтобы производители устройств успели обезопасить свои детища до того, как потенциальные угрозы превратятся во вполне реальные атаки. Сегодня мы расскажем о паре находок, которым пока едва ли удастся найти практическое применение, но защиту от которых стоит продумывать уже сейчас.
Умные устройства слушают и слушаются
В мире сейчас используется более миллиарда устройств с голосовым управлением, говорится в отчете профильного сайта voicebot.ai. Большинство из них — смартфоны, но и другие устройства, понимающие речь, набирают популярность. У каждого пятого американца, например, уже есть дома умная колонка, отзывающаяся на устную речь.
С помощью голосовых команд можно управлять воспроизведением музыки, заказывать товары в Интернете, давать указания автомобильному навигатору, узнавать погоду и новости, ставить будильник и так далее. Производители поймали тренд и встраивают поддержку голосового управления в самые разные устройства. Компания Amazon, к примеру, выпустила микроволновку, работающую в паре с умной колонкой Echo. Ей достаточно сказать: «Подогрей чашку кофе», и микроволновка, рассчитав требуемое время, запустит разогрев. Правда, подойти к печи вам все равно придется — чтобы поставить в нее саму чашку. Так что можно заодно и кнопку нажать.
А еще системы умного дома позволяют вслух управлять освещением комнат и кондиционированием воздуха, открывать и закрывать замки на входных дверях. В общем, голосовые помощники уже умеют многое, и не хотелось бы, чтобы их умениями воспользовались посторонние, особенно во вред вам.
Своеобразную массовую атаку на умные колонки Amazon Echo в 2017 году провели персонажи знаменитого мультсериала «Южный парк». Жертвой их хулиганской выходки стала голосовая помощница Alexa, «живущая» в колонках Echo. Герои мультфильма просили ее добавить в список покупок несуразные, мягко говоря, товары и установить будильник на семь часов утра. Несмотря на особенности произношения нарисованных героев, колонки зрителей, смотревших этот эпизод «Южного парка», добросовестно выполняли команды из телевизора.
Ультразвук: машины слышат, человек — нет
Мы уже писали о некоторых опасностях, которые таят в себе гаджеты с голосовым управлением. Сегодня же мы остановимся на «тихих» атаках, заставляющих такие устройства подчиняться голосам, которые вы даже не услышите.
Один из способов осуществить такую атаку — использовать ультразвук, то есть очень высокий звук, недоступный человеческому уху. В опубликованной в 2017 году статье исследователи из Чжэцзянского университета представили метод скрытого управления голосовыми помощниками под названием Dolphin attack («Атака дельфина» — такое имя ученые дали своей разработке, поскольку дельфины умеют издавать ультразвук). Исследователи преобразовывали голосовые команды в ультразвуковые волны; полученные высокие частоты человек уже не может различить, но микрофоны современных устройств их улавливают.
Изюминка метода в том, что при преобразовании звука в электрический импульс в принимающем устройстве (например, смартфоне) восстанавливается исходный сигнал, содержащий голосовую команду. Механизм здесь тот же, что и при искажении голоса во время его записи — то есть это не специально разработанная функция устройства, а особенность самого процесса преобразования.
В результате атакуемый гаджет слышит и исполняет голосовую команду, что открывает широкие возможности для злоупотреблений. Исследователям удалось успешно воспроизвести атаку на основных голосовых помощниках крупных производителей, в том числе Amazon Alexa, Apple Siri, Google Now, Samsung S Voice и Microsoft Cortana.
Хор динамиков
Одно из слабых мест «Атаки дельфина» (с точки зрения злоумышленника) заключается в малом радиусе ее действия — звук должен раздаваться в метре от атакуемого устройства или ближе. Увеличить дистанцию удалось исследователям из Иллинойсского университета в Урбане-Шампейне. Они поделили преобразованную в ультразвук команду на несколько диапазонов частот, которые проигрывали разные динамики — всего в эксперименте их было больше 60 штук. Скрытые голосовые команды в исполнении этого «хора» устройства разбирали с расстояния до семи метров, несмотря на фоновые шумы. В таких условиях «атака дельфина» имеет много больше шансов на успех.
В этом звуке что-то есть, не голосовая команда ли это?
Другой принцип использовали специалисты Калифорнийского университета в Беркли. Им удалось незаметно «встроить» голосовые команды в другие аудиофрагменты и «обмануть» систему распознавания речи Mozilla Deep Speech. Модифицированная запись для человеческого уха почти не отличается от исходной, но программа слышит в ней именно спрятанную команду!
Прослушать записи можно на сайте исследователей. В первом примере во фразу «Без данных эта статья бесполезна» (Without the dataset the article is useless) «спрятали» команду перейти на сайт «злоумышленников»: «Окей, Гугл. Открой evil.com» (Okay Google, browse to evil.com). Во втором — в отрывок сюиты для виолончели Баха ученые добавили фразу «Речь может быть встроена в музыку» («Speech can be embedded in music»).
Защита от неслышных атак
Производители уже обдумывают меры защиты устройств с голосовым управлением. Например, от ультразвуковых атак может помочь выявление в принимаемом сигнале следов обработки с целью изменения его частоты. Неплохо было бы и научить все умные устройства узнавать хозяина по голосу — правда, компания Google, уже опробовавшая эти меры на деле на своем ассистенте, честно предупреждает, что эту защиту можно обойти с помощью записи голоса, а при должном владении актерским мастерством тембр и манеру речи человека можно подделать.
Впрочем, у исследователей и производителей еще есть время на поиск решений: как мы уже говорили, пока управлять голосовыми помощниками втихую можно только в лабораторных условиях: подойти к чужой умной колонке с ультразвуковым динамиком (а тем более сразу с 60 динамиками) сложно, а встраивание команд в другие аудиозаписи требует времени и усилий, которые едва ли окупятся.