Использование секретов Уолл-стрит для снижения стоимости облачной инфраструктуры

Москва, 16:38, 19 Авг 2019, редакция FTimes.ru, автор Сергей Кузнецов.

Инвесторы на фондовом рынке часто полагаются на теории финансового риска, которые помогают им максимизировать доходность при минимальных финансовых потерях из-за колебаний рынка. Эти теории помогают инвесторам поддерживать сбалансированный портфель, чтобы гарантировать, что они никогда не потеряют больше денег, чем они готовы расстаться в любой момент времени.

Вдохновленные этими теориями, исследователи MIT в сотрудничестве с Microsoft разработали математическую модель с учетом риска, которая может повысить производительность сетей облачных вычислений по всему миру. Примечательно, что облачная инфраструктура чрезвычайно дорога и потребляет много энергии в мировом масштабе.

Их модель учитывает вероятности сбоев связей между центрами обработки данных по всему миру — сродни прогнозированию волатильности акций. Затем она запускает механизм оптимизации для распределения трафика по оптимальным путям, чтобы минимизировать потери при максимальном использовании сети в целом.

Эта модель может помочь крупным поставщикам облачных услуг, таким как Microsoft, Amazon и Google, лучше использовать свою инфраструктуру. Традиционный подход заключается в том, чтобы поддерживать каналы связи в режиме ожидания для обработки неожиданных изменений трафика, вызванных сбоями каналов, что является пустой тратой энергии, пропускной способности и других ресурсов. Новая модель, называемая TeaVar, с другой стороны, гарантирует, что в течение целевого процента времени, скажем, 99,9 процента, сеть может обрабатывать весь трафик данных, поэтому нет необходимости поддерживать какие-либо каналы связи в бездействии. В течение этого 0,01 процента времени модель также сохраняет потери данных как можно ниже.

В экспериментах, основанных на реальных данных, модель поддерживала пропускную способность трафика в три раза выше по сравнению с традиционными методами проектирования трафика, сохраняя при этом тот же высокий уровень доступности сети. Документ с описанием модели и результатов будет представлен на конференции ACM SIGCOMM на этой неделе.

 

«Лучшее использование сети может сэкономить поставщикам услуг миллионы долларов, но выгоды будут «просачиваться» к потребителям», — говорит соавтор Маня Гобади из Массачусетского технологического института.

«Расширение использования инфраструктуры не только хорошо для облачных сервисов, но и для всего мира», — говорит Гобади. «Компаниям не нужно приобретать столько инфраструктуры, чтобы продавать услуги клиентам. Кроме того, возможность эффективно использовать ресурсы центра обработки данных может сэкономить огромное количество энергии облачной инфраструктурой. Таким образом, существуют преимущества как для пользователей, так и для окружающей среды одновременно».

 

 

Денежная модель

 

Поставщики облачных услуг используют сети волоконно-оптических кабелей, проложенных под землей, соединяя центры обработки данных в разных городах. Для маршрутизации трафика поставщики полагаются на программное обеспечение «Traffic Engineering» (TE), которое оптимально распределяет полосу пропускания данных — объем данных, которые могут быть переданы за один раз — по всем сетевым путям.

Цель состоит в том, чтобы обеспечить максимальную доступность для пользователей по всему миру. Но это сложно, когда некоторые звенья могут неожиданно выйти из строя из-за падения качества оптического сигнала в результате перебоев или обрыва линий во время строительства, среди других факторов. Чтобы сохранить устойчивость к сбоям, провайдеры сохраняют множество каналов связи при очень низком уровне использования, ожидая полной загрузки данных из сбойных каналов.

Таким образом, это сложный компромисс между доступностью и использованием сети, который позволил бы повысить пропускную способность данных. И именно здесь традиционные методы TE терпят неудачу, говорят исследователи. Они находят оптимальные пути, основанные на различных факторах, но никогда не определяют количество каналов связи.

 

«Они не говорят: «У этого канала более высокая вероятность того, что он будет запущен и работает, так что это означает, что вам следует отправлять больше трафика сюда», — поясняют авторы. «Большинство каналов в сети работают с низкой нагрузкой и не отправляют столько трафика, сколько могли бы отправить».

 

Вместо этого исследователи разработали модель TE, которая адаптирует основную математику от «условной стоимости в риске», меры оценки риска, которая количественно определяет среднюю потерю денег. При инвестировании в акции, если у вас есть однодневная условная стоимость 99% с риском 50 долларов США, ожидаемая вами потеря в 1 процентном сценарии наихудшего случая в этот день составит 50 долларов США. Но в 99 процентах случаев вы будете зарабатывать намного лучше. Эта мера используется для инвестирования в фондовый рынок — который, как известно, трудно предсказать.

 

«Но математика на самом деле лучше подходит для нашей облачной инфраструктуры», — говорит Гобади. «В основном, сбои соединения связаны с возрастом оборудования, поэтому вероятность сбоев с течением времени не сильно меняется. Это означает, что наши вероятности более надежны по сравнению с фондовым рынком».

 

Модель с учетом риска

 

В сетях пропускная способность данных аналогична вложенным «деньгам», а сетевое оборудование с различной вероятностью отказа — это «запасы» и их неопределенность в изменении значений. Используя базовые формулы, исследователи разработали модель «осведомленных о рисках», которая, как и ее финансовый аналог, гарантирует, что данные достигнут пункта назначения 99,9 процента времени, но сохраняет потери трафика на минимальном уровне при 0,1 процентных сценариях сбоев в худшем случае. Это позволяет облачным провайдерам настраивать компромисс между доступностью и использованием.

Исследователи статистически сопоставили трехлетнюю мощность сетевого сигнала от сетей Microsoft, которые соединяют ее центры обработки данных с вероятным распределением отказов каналов. Входными данными является топология сети на графике с потоками данных источника-назначения, соединенными каналами и узлами, причем каждому каналу назначена полоса пропускания.

Вероятности отказов были получены путем проверки качества сигнала каждого канала каждые 15 минут. Если качество сигнала когда-либо опускалось ниже порога приема, считалось, что произошел сбой соединения. Все, что выше, означало, что канал был запущен и работает. Исходя из этого, модель сгенерировала среднее время, в течение которого каждый канал поднимался или падал, и рассчитала вероятность отказа — или «риск» — для каждого канала в каждом 15-минутном временном окне. На основании этих данных можно было предсказать, когда опасные каналы потерпят крах в любой момент времени.

Исследователи проверили модель в сравнении с другим программным обеспечением TE на имитированном трафике, отправляемом через сети от Google, IBM, ATT и других, распространяющихся по всему миру. Исследователи создали различные сценарии отказов, основанные на вероятности их возникновения. Затем они отправили смоделированные и реальные требования к данным через сеть и настроили свои модели для начала распределения полосы пропускания.

Модель исследователей поддерживала надежные каналы, работающие почти на полную мощность, в то же время убирая данные из более опасных каналов. По сравнению с традиционными подходами, их модель передавала в сеть в три раза больше данных, обеспечивая при этом получение всех данных до места назначения.

 

Код свободно доступен на GitHub.