Обучение ИИ было проблемой, которая привлекла миллиарды долларов инвестиций, и, похоже, она окупается. «Несколько лет назад мы говорили об обучении этих сетей за дни или недели, теперь мы говорим о минутах», — говорит Дэйв Сальватор , директор по маркетингу продуктов в Nvidia.
В учебном наборе MLPerf есть восемь тестов, но здесь я показываю результаты только двух — классификации изображений и обработки естественного языка — потому что, хотя они не дают полной картины, они иллюстрируют то, что происходит. Не каждая компания каждый раз публикует результаты тестов; в прошлом системы от Baidu , Google , Graphcore и Qualcomm отличились , но ни одна из них не попала в последний список. А есть компании, целью которых является обучение самых больших нейросетей, такие как Cerebras и SambaNova , которые никогда не участвовали.
Еще одно замечание о результатах, которые я показываю — они неполные. Чтобы свести к минимуму остекление глаз, я перечислил только самые быстрые системы каждой конфигурации. В основном «закрытом» конкурсе уже было четыре категории: облачные (само собой разумеющиеся), локальные (системы, которые можно купить и установить прямо сейчас), предварительная версия (системы, которые можно будет купить в ближайшее время, но не сейчас) и R&D. (интересно, но странно, поэтому я их исключил). Затем я перечислил самый быстрый результат обучения для каждой категории и каждой конфигурации — количество ускорителей в компьютере. Если вы хотите увидеть полный список, он находится на веб- сайте MLCommons .
Беглый взгляд показывает, что обучение машинному обучению по-прежнему является домом Nvidia. Он может предоставить на вечеринку количество графических процессоров размером с суперкомпьютер, чтобы решать учебные задачи за считанные секунды. Его графические процессоры A100 доминируют в списке MLPerf уже несколько итераций, и он поддерживает облачные ИИ-предложения Microsoft Azure, а также большие и малые системы от партнеров, включая Dell, HPE и Fujitsu. Но даже среди группы A100 существует реальная конкуренция, особенно между Dell и HPE.
Но, возможно, более важным было положение Лазурного. По классификации изображений облачные системы по существу не уступали лучшим локальным компьютерам A100. Результаты подтверждают позицию Microsoft о том, что аренда ресурсов в облаке так же хороша, как и покупка собственных. И скоро это дело может стать еще сильнее. На этой неделе Nvidia и Microsoft объявили о многолетнем сотрудничестве , в рамках которого будущий графический процессор Nvidia H100 будет включен в облако Azure.
Это был первый взгляд на тренировочные возможности H100. А Дэйв Сальватор из Nivida подчеркнул, насколько большой прогресс происходит — в основном благодаря усовершенствованию программного обеспечения — спустя годы после выхода нового чипа. В расчете на каждый чип A100 сегодня обеспечивает в 2,5 раза большую среднюю производительность по сравнению с первым запуском в тестах MLPerf в 2020 году. По сравнению с дебютными результатами A100, H100 показал скорость в 6,7 раз выше. Но по сравнению с А100 с сегодняшним софтом прирост всего в 2,6 раза.
В некотором смысле, H100 кажется немного перегруженным для тестов MLPerf, преодолевая большинство из них за считанные минуты, используя лишь часть аппаратного обеспечения A100, необходимого для сравнения. И на самом деле, он предназначен для больших вещей. «H100 — это наше решение для самых продвинутых моделей, где мы получаем миллионы, даже миллиарды гиперпараметров», — говорит Сальватор.
Сальватор говорит, что большая часть выигрыша связана с «двигателем-трансформером» H100. По сути, это разумное использование низкоточных — эффективных, но менее точных — вычислений, когда это возможно. Схема специально разработана для нейронных сетей, называемых преобразователями, примером которых является эталонный тест обработки естественного языка BERT . Трансформаторы находятся в разработке для многих других задач машинного обучения. «Сети на основе трансформаторов буквально преобразили ИИ, — говорит Сальватор. «Это ужасный каламбур».
Память является узким местом для всех видов ИИ, но она особенно ограничивает BERT и другие модели-трансформеры. Такие нейронные сети полагаются на качество, называемое «внимание». Вы можете думать об этом как о том, сколько слов языковой процессор знает одновременно. Он плохо масштабируется, в основном потому, что приводит к значительному увеличению записи в системную память. Ранее в этом году Hazy Research (название лаборатории Криса Ре в Стэнфорде) развернула алгоритм в облачной системе Azure, который сократил время обучения на 10% по сравнению с максимальными усилиями Microsoft. В этом раунде Azure и Hazy Research работали вместе, чтобы продемонстрировать алгоритм под названием Flash Attention.
И таблицы классификации изображений, и таблицы обработки естественного языка показывают конкурентное положение Intel. Компания показала результаты для Habana Gaudi2 , своего ускорителя искусственного интеллекта второго поколения, и процессора Sapphire Rapids Xeon, которые поступят в продажу в ближайшие месяцы. Что касается последнего, компания стремилась доказать, что вы можете проводить много тренировок по машинному обучению без графического процессора.
Установка с 32 ЦП значительно отстала от облачной системы Microsoft Azure с четырьмя графическими процессорами при распознавании объектов, но все же завершилась менее чем за полтора часа, а для обработки естественного языка она почти соответствовала этой системе Azure. На самом деле ни одно обучение не длилось более 90 минут, даже на гораздо более скромных компьютерах с одним процессором.
«Это для клиентов, для которых обучение является частью рабочей нагрузки, но не рабочей нагрузкой», — говорит Джордан Плаунер, старший директор Intel и менеджер по продуктам искусственного интеллекта. Intel считает, что если клиент проходит переобучение только раз в неделю, то, занимает ли работа 30 или 5 минут, для него слишком мало значения, чтобы тратить на ускоритель GPU, который ему не нужен до конца недели.
Гавана Гауди2 — это отдельная история. Как специализированный ускоритель машинного обучения компании, 7-нанометровый чип конкурирует с A100 от Nvidia (еще один 7-нм чип) и вскоре столкнется с 5-нм H100. В этом свете он хорошо показал себя на некоторых тестах. По классификации изображений восьмичиповая система оказалась всего на пару минут позади восьмичиповой H100. Но разрыв был намного больше с H100 в задаче обработки естественного языка, хотя он все же немного превзошел систему A100 того же размера и улучшенную Hazy-Research.
«Мы еще не закончили с Gaudi 2, — говорит Эйтан Медина из Habana. Как и другие, Habana надеется ускорить обучение за счет стратегического использования низкоточных вычислений на определенных слоях нейронных сетей. Чип поддерживает 8-битные вычисления с плавающей запятой, но наименьшая точность, которую компания использовала для обучения MLPerf, составляет bfloat 16 .