Для того чтобы найти человека, Диоген, как известно, использовал фонарь — философ полагался исключительно на оптические методы распознавания. Современные же ученые предлагают применять для этих целей сигнал Wi-Fi. Если быть точным, то методика, разработанная тремя исследователями из Университета Карнеги-Меллона, использует сигнал обычного домашнего Wi-Fi-роутера для того, чтобы достаточно точно распознавать не только местоположение, но и позы людей в помещении.
Почему Wi-Fi? Для этого есть несколько причин. Во-первых, в отличие от оптического распознавания, радиосигнал отлично работает в темноте и ему не мешают мелкие препятствия вроде мебели. Во-вторых, это дешево, чего нельзя сказать о лидарах и радарах, которые в целом тоже способны справиться с задачей. В-третьих, Wi-Fi уже повсеместно распространен — бери и пользуйся. Остается понять, насколько этот метод рабочий и чего с его помощью можно достичь, — давайте же в этом разберемся.
DensePose: методика распознавания человеческих поз на изображениях
Начать, впрочем, придется немного издалека — сперва следует разобраться с тем, как в целом работает точное распознавание человеческого тела и его позы. В 2018 году другая группа ученых представила методику под названием DensePose. С ее помощью они успешно распознавали человеческие позы на фотографиях — сугубо на основе двумерных картинок, без использования данных о третьей координате — глубине.
Вот как это работает. Для начала модель DensePose ищет на изображениях объекты, которые распознаются как человеческие тела. Далее эти объекты разделяются на отдельные участки, которые сопоставляются с теми или иными частями тела — каждая из них обрабатывается отдельно. Такой подход используется потому, что разные части тела двигаются очень по-разному: например, голова и торс ведут себя совсем не так, как руки и ноги.
В результате модель научилась соотносить двухмерное изображение с трехмерной поверхностью человеческого тела и получать не только разметку изображения в соответствии с распознанной позой, но и создавать UV-развертку изображенного на фотографии тела (последнее позволяет, например, наложить на него какую-нибудь текстуру).
Особенно впечатляет, что данная методика позволяет вполне уверенно распознавать позы множества людей на групповых фотографиях, в том числе — в жанре «фото с выпускного», когда люди стоят очень тесно и перекрывают друг друга.
Также, если верить приведенным в работе изображениям и опубликованным исследователями видеороликам, система уверенно справляется с не самыми обычными вариантами положения тела в пространстве. Скажем, нейросеть правильно распознает людей на велосипедах, мотоциклах и верхом на лошадях, а также верно определяет позы бейсболистов, футболистов и даже танцоров брейк-данс, которые периодически двигаются совсем уж непредсказуемо.
Дополнительный плюс DensePose — для работы модель не требует особых вычислительных мощностей. При использовании GeForce GTX 1080 — далеко не самой мощной видеокарты даже на момент публикации исследования — DensePose распознает 20–26 кадров в секунду с разрешением 240×320 и до пяти кадров в секунду с разрешением 800×1100.
DensePose через Wi-Fi: радиосигнал вместо фотографии
Собственно, идея исследователей из Университета Карнеги-Меллона заключалась в том, чтобы воспользоваться уже имеющейся и хорошо работающей ИИ-моделью для распознавания человеческих поз, — то есть DensePose. Однако в качестве входных данных для распознавания вместо фотографий ученые использовали сигнал Wi-Fi.
Для своего эксперимента они соорудили следующий тестовый стенд.
- Две стойки с обычными домашними роутерами TP-Link, оборудованными тремя антеннами: один используется как передатчик, другой — как приемник.
- Сцена для распознавания, расположенная между этими стойками.
- Камера, закрепленная на стойке рядом с роутером-приемником и снимающая ту же сцену, которую ученые пытаются распознать с использованием Wi-Fi-сигнала.
Далее они запустили DensePose, которая распознавала положения тел с помощью камеры, установленной рядом с роутером-приемником, и дали ей задачу обучить другую нейросеть, работавшую с Wi-Fi-сигналом, полученным принимающим роутером. Сигнал этот был предварительно очищен и модифицирован для более уверенного распознавания — но это, в общем, детали. Главное, что исследователям действительно удалось создать новую модель Wi-Fi-DensePose, которая вполне уверенно устанавливает положение в пространстве человеческих тел на основе сигнала Wi-Fi.
Ограничения метода
Однако не стоит спешить с заголовками вроде «Ученые научились видеть сквозь стены с помощью Wi-Fi». Начнем с того, что «зрение» это весьма абстрактно — модель не столько «видит» тело человека, сколько способна с определенной вероятностью предсказать его положение в пространстве и позу на основе косвенных данных.
Насколько на самом деле сложна задача сколь-либо детальной визуализации с помощью Wi-Fi-сигнала, показано в другой работе на сходную тему, где исследователи экспериментировали с объектами куда проще человеческих тел, — и результаты, мягко говоря, были далеки от идеала.
Также следует отметить, что построенная исследователями из Университета Карнеги-Меллона модель значительно уступает по точности оригинальному методу распознавания поз на фотографиях, а также достаточно серьезно «галлюцинирует». Особенные сложности модель испытывает, сталкиваясь с необычными позами или сценами с участием более двух человек.
В довершение отметим, что конфигурация тестового стенда в исследовании была максимально благоприятной: хорошо известная и простая геометрия, прямая видимость между источником и приемником, никаких существенных помех на пути радиосигнала — учеными были созданы идеальные условия для «просвечивания» сцены радиоволнами. В реальной жизни воссоздать настолько удачную конфигурацию, скорее всего, никогда не получится.
Так что если вы уже начали переживать о том, что кто-то взломает ваш Wi-Fi-роутер и начнет с его помощью следить за тем, чем вы занимаетесь дома, то пока это делать несколько преждевременно. Уж если чего-то бояться в своем доме, так это бытовой техники: например, умных кормушек для домашних питомцев или даже детских игрушек: у них есть камеры, микрофоны, связь с облаком, а у роботов-пылесосов — еще и отлично работающие в темноте лидары, и даже возможность перемещаться в пространстве.
А за дверью вас ждет еще один шпион — четырехколесный: ведь по количеству собираемой информации с современными автомобилями не сравнятся ни смарт-часы, ни умные колонки, ни прочие повседневные гаджеты.