Искусственный интеллект способен даже увидеть невидимое
Москва, 18:35, 09 Дек 2019, редакция FTimes.ru, автор Сергей Кузнецов.
Камеры и компьютеры вместе могут совершать ошеломляющие подвиги. Зрение компьютеров может даже заглядывать за угол.
Недавно группа ученых из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) разработала метод, позволяющий восстанавливать видео только из тонких теней и отражений из наблюдаемой хаотической кучи.
Это означает, что с включенной в комнате видеокамерой они могут реконструировать видеоизображение невидимого угла комнаты, даже если он выходит за пределы поля зрения камеры.
Наблюдая за взаимодействием тени и геометрии в видео, алгоритм предсказывает, как проходит свет. Затем система использует это для оценки наблюдаемых теней и может даже построить живой силуэт.
Техника является «пассивной», то есть в ней отсутствуют лазеры и другие источники подсветки. В настоящее время длительность обработки изображения составляет около двух часов, но исследователи говорят, что в конечном итоге она может быть полезна при восстановлении сцен, не находящихся в традиционной зоне видимости.
Чтобы получить эту невидимую информацию, команда использует слабые сигналы непрямого освещения, такие как тени и блики от хаоса в наблюдаемой области.
В некотором смысле, хаотическая куча теней и бликов ведет себя как камера-обскура: она блокирует некоторые световые лучи, но позволяет другим лучам проходить сквозь нее, и они рисуют изображение окружения везде, где бы они ни были. Но если камера-обскура спроектирована так, чтобы пропускать только количество правильных лучей, чтобы сформировать читаемую картинку, общая хаотическая куча создает изображение.
Световой хаос служит «зеркалом», которое дает вам взгляд на окружающее его пространство — например, за углом, где вы не можете видеть непосредственно.
Нейронные сети решают поставленную задачу
Задача, решаемая компьютерным алгоритмом, заключалась в том, чтобы разобраться и понять смысл этих сигналов света.
Однако расшифровка оказалась классической проблемой «курица или яйцо». Чтобы выяснить схему расшифровки сигналов, пользователь должен уже знать скрытую картинку, и наоборот.
«Математически, это как если бы я сказал вам, что я думаю о двух секретных числах, и их произведение равно 80. Можете ли вы угадать, что они такое? Может быть 40 и 2? Или, возможно, 371,8 и 0,2152? В нашей проблеме мы сталкиваемся с похожей ситуацией в каждом пикселе», — говорит автор, Миика Айттала. «Если мы позволим компьютеру выбрать, он просто сделает простую вещь и даст нам большую кучу практически случайных изображений, которые не похожи ни на что».
Имея это в виду, команда сконцентрировалась на устранении неоднозначности, алгоритмически указав, что им нужен шаблон, который соответствует вероятному в реальном мире, чтобы создать скрытое видео, которое выглядит так, как будто оно имеет края и объекты, которые движутся согласованно.
Команда также использовала удивительный факт, что нейронные сети естественным образом предпочитают создавать контент «подобный изображению», даже когда они никогда не были обучены этому, что помогло устранить неоднозначность.
Алгоритм обучает две нейронные сети одновременно, где они специализируются только на одном целевом видео, используя идеи из концепции машинного обучения под названием Deep Image Prior. Одна сеть создает схему побитного декодирования данных света и тени, а другая оценивает полученное видео. Сети вознаграждаются, когда комбинация этих двух факторов воспроизводит видео, воссозданное из беспорядка, показывая правдоподобные скрытые данные.
В будущем команда ученых надеется улучшить общее разрешение системы и в конечном итоге протестировать технику в неконтролируемой среде.