Исследователи из MIT разработали новый «фотонный» чип

Москва, 15:10, 06 Июн 2019, редакция FTimes.ru, автор Сергей Кузнецов.

Исследователи из Массачусетского технологического института (MIT) разработали новый «фотонный» чип, который использует свет вместо электричества и при этом потребляет относительно мало энергии. Чип можно использовать для обработки массивных нейронных сетей в миллионы раз эффективнее, чем современные классические компьютеры.

Нейронные сети — это модели машинного обучения, которые широко используются для таких задач, как идентификация роботизированных объектов, обработка естественного языка, разработка лекарств, медицинская визуализация и питание автомобилей без водителя. Новые оптические нейронные сети, которые используют оптические явления для ускорения вычислений, могут работать намного быстрее и эффективнее, чем их электрические аналоги.

Но по мере усложнения традиционных и оптических нейронных сетей они поглощают массу энергии. Для решения этой проблемы исследователи и крупные технологические компании, включая Google, IBM и Tesla, разработали «ускорители ИИ», специализированные чипы, которые повышают скорость и эффективность обучения и тестирования нейронных сетей.

Для электрических микросхем, включая большинство ускорителей искусственного интеллекта, существует теоретический минимальный предел потребления энергии. Недавно исследователи MIT начали разработку фотонных ускорителей для оптических нейронных сетей. Эти чипы работают на порядок эффективнее, но они полагаются на некоторые громоздкие оптические компоненты, которые ограничивают их использование относительно небольшими нейронными сетями.

В статье, опубликованной в Physical Review X, исследователи описывают новый фотонный ускоритель, который использует более компактные оптические компоненты и методы оптической обработки сигналов, чтобы значительно сократить как энергопотребление, так и площадь микросхемы. Это позволяет чипу масштабироваться к нейронным сетям на несколько порядков больше, чем его аналоги.

Симуляция обучения нейронных сетей в наборе данных классификации изображений MNIST позволяет предположить, что ускоритель теоретически может обрабатывать нейронные сети более чем в 10 миллионов раз ниже предела энергопотребления традиционных электрических ускорителей и примерно в 1000 раз ниже предела фотонных ускорителей. Исследователи сейчас работают над прототипом чипа, чтобы экспериментально доказать результаты.

Практическое применение таких технологий включает снижение энергопотребления в центрах обработки данных.

 

Компактная конструкция

 

Нейронные сети обрабатывают данные через множество вычислительных слоев, содержащих взаимосвязанные узлы, называемые «нейронами», чтобы найти шаблоны в данных. Нейроны получают вход от своих соседей вверх по течению и вычисляют выходной сигнал, который отправляется нейронам дальше вниз по течению. Каждому входу также присваивается «вес», значение, основанное на его относительной важности для всех других входов. По мере того как данные распространяются «глубже» по уровням, сеть узнает все более сложную информацию. В конце выходной слой генерирует прогноз на основе расчетов по всем слоям.

Все ускорители ИИ стремятся уменьшить энергию, необходимую для обработки и перемещения данных во время определенного шага линейной алгебры в нейронных сетях, называемого «матричным умножением». Там нейроны и веса кодируются в отдельные таблицы строк и столбцов, а затем объединяются для расчета выходных данных.

В традиционных фотонных ускорителях импульсные лазеры, закодированные информацией о каждом нейроне в слое, поступают в волноводы и через светоделители. Полученные оптические сигналы поступают в сетку квадратных оптических компонентов, называемых «интерферометрами Маха-Цендера», которые запрограммированы для выполнения умножения матриц.

Интерферометры, которые кодируются с информацией о каждом весе, используют методы помехи сигнала, которые обрабатывают оптические сигналы и значения веса, чтобы вычислить выход для каждого нейрона. Но там возникает проблема масштабирования: для каждого нейрона должен быть один волновод, а для каждого веса — один интерферометр. Поскольку число весов пропорционально квадрату количества нейронов, эти интерферометры занимают много места, поэтому не удается разместить столько компонентов на чипе.

Чип исследователей опирается на более компактную, энергоэффективную «оптоэлектронную» схему, которая кодирует данные с помощью оптических сигналов, но использует «сбалансированное обнаружение гомодина» для умножения матриц. Это метод, который производит измеримый электрический сигнал после вычисления произведения амплитуд (высот волн) двух оптических сигналов.

Импульсы света, закодированные с информацией о входных и выходных нейронах для каждого слоя нейронной сети, которые необходимы для обучения сети, проходят через один канал. Отдельные импульсы, закодированные с информацией о целых рядах весов в таблице умножения матриц, проходят через отдельные каналы. Оптические сигналы, переносящие нейрон и данные о весе, распространяются на сетку гомодинных фотоприемников. Фотодетекторы используют амплитуду сигналов для вычисления выходного значения для каждого нейрона. Каждый детектор подает электрический выходной сигнал для каждого нейрона в модулятор, который преобразует сигнал обратно в световой импульс. Этот оптический сигнал становится входом для следующего слоя и так далее.

Конструкция требует только одного канала на каждый входной и выходной нейрон, и нужно только столько гомодинных фотоприемников, сколько имеется нейронов, а не весов. Поскольку нейронов всегда намного меньше, чем весов, это экономит значительное пространство, поэтому чип может масштабироваться до нейронных сетей с более чем миллионом нейронов на слой.

 

В поисках оптимального решения

 

С фотонными ускорителями в сигнале есть неизбежный шум. Чем больше света подается на чип, тем меньше шума и выше точность, но это становится довольно неэффективным. Меньшее количество входного света увеличивает эффективность, но отрицательно влияет на производительность нейронной сети. Но есть оптимум, который использует минимальную оптическую мощность при сохранении точности.

Этот оптимум для ускорителей ИИ измеряется количеством джоулей, которое требуется для выполнения одной операции умножения двух чисел, например, во время умножения матриц. Сегодня традиционные ускорители измеряются в пикоджоулях, или одной триллионной доле джоуля. Фотонные ускорители измеряют в аттоджоулях, что в миллион раз эффективнее.

В своих симуляциях исследователи обнаружили, что их фотонный ускоритель может работать с субаттоджоулевой эффективностью.