AI at Scale: к гонке экзафлопсов для AI присоединилась Майкрософт: ailev

ailev

AI at Scale: к гонке экзафлопсов для AI присоединилась Майкрософт

May 20, 2020 16:13

Я дважды на прошлой неделе писал про начавшуюся гонку экзафлопсов. Кто богат, тот будет и машинно умён:
-- "В мире AI всё по-прежнему экспоненциально", где упоминал строительство NVIDIA собственного суперкомпьютера и переходе в NVIDIA на мышление "датацентрами" и их фрагментами: https://ailev.livejournal.com/1518306.html
-- "SoTA искусственного интеллекта принадлежит богатым, и это не случайно", где давал ссылки на исследования формулы прямой связи числа параметров и количества шагов вычислений в нейросетках с их качеством работы: https://ailev.livejournal.com/1518532.html

Вчера Майкрософт сделал инициативу AI at Scale, присоединившись к клубу строителей суперкомпьютеров для AI -- https://innovation.microsoft.com/en-us/ai-at-scale (технические подробности у них тут: https://ms-innovation-dev.azurewebsites.net/en-us/exploring-ai-at-scale). Речь идёт о публично доступной облачной инфраструктуре Azure с хорошо провязанными между собой кластерами с GPU V100 от NVIDIA. В качестве примера эффективности гигантомании в машинном интеллекте даётся нейросеть MS Turing NLG на 17 млрд. параметров. Всё это вычислительное богатство предлагается использовать в бизнесе, прямо сейчас, кому угодно -- только плати!

Microsoft вложила некоторое время назад $1млрд. в OpenAI. И значительная часть этих денег пошла на обеспечение масштаба в вычислениях, реализуется тот же тренд. OpenAI с Microsoft построили пятый по величине в мире суперкомпьютер, исключительно для своих исследований, о чём вчера и объявили -- https://venturebeat.com/2020/05/19/openai-microsoft-azure-supercomputer-ai-model-training/. Текст по ссылке обсуждает в том числе сложное сочетание тренда на пока экспоненциальное уменьшение объема вычислений для выполнения стандартных задач из https://venturebeat.com/2020/05/05/openai-begins-publicly-tracking-ai-model-efficiency/ и не менее экспоненциального роста требуемой компьютерной мощности в связи с ростом самих задач. Мало того, что весь "разгон" за счёт эффективных алгоритмов съедается растущей сложностью задач, но требуется этот рост сложности ещё и кормить добавочной вычислительной мощностью.
UPDATE: оценки экспоненциального роста вычислительных возможностей, нужных для решения текущих задач в AI https://venturebeat.com/2020/07/15/mit-researchers-warn-that-deep-learning-is-approaching-computational-limits/. А Graphcore готов выдать петафлоп в объёме коробки из-под пиццы -- https://venturebeat.com/2020/07/15/graphcores-m2000-ai-computer-can-achieve-a-petaflop-of-processing-power/
UPDATE: OpenAI построил модель GPT-3, которая может генерировать текст в несколько абзацев, неотличимый людьми от текстов, написанных людьми -- и на генерацию 100 страниц текста там уходит 0.4Квт*час, это буквально несколько центов, https://arxiv.org/abs/2005.14165

Ещё один знак: вся эта мощность начинает уходить не в обработку изображений и аудио, как было до сих пор. Нет, эта мощность начинает уходить на языковые модели, работу с текстами. AI как-то научается читать, и вынимать из огромного количества текстов кривую "народную" (ни разу не научную!) модель мира. Качеством данных, которыми кормят эти суперкомпьютеры, уже озаботились. Но вычислительной мощности весь этот текстовый интеллект требует вполне сравнимо с визуальным интеллектом. А идеи совместного обучения с аудио, видео и текстами требуют и вообще запредельных пока компьютерных мощностей. Но и в этом направлении есть прогресс, за счёт того же AI at Scale, пример тут майские рекорды по шести видам задач на описание изображений текстами -- https://www.microsoft.com/en-us/research/blog/objects-are-the-secret-key-to-revealing-the-world-between-vision-and-language/

NVIDIA тоже построила суперкомпьютер для своих исследований AI. И Гугль построил. Все участники гонки строят корпоративные и облачные "AI-синхрофазотроны" для исследований в AI, ибо машинный интеллект монетизируется примерно так же, как человечий интеллект, так что его выгодно разрабатывать. Монетизацию исследований элементарных частиц трудно придумать, а синхрофазотроны пока стоят ещё дороже, чем суперкомьютеры для AI. Но скоро суперкомпьютеры будут стоить уже дороже, чем синхрофазотроны, и они будут частные. Несмотря на тренд удешевления вычислений (он никуда не делся! с 2017 по 2019 вычисления подешевели в 100 раз, по 10 раз в год -- https://venturebeat.com/2020/06/04/ark-invest-ai-training-costs-dropped-100-fold-between-2017-and-2019/), потребность в объёмах этих вычислений растёт быстрее. Гонка экзафлопсов идёт давно (https://en.wikipedia.org/wiki/Exascale_computing), но теперь она ориентируется не на моделирование погоды или ядерных взрывов, а на задачи AI, и ведётся частным сектором.

Вот это, я понимаю, "межотраслевые переливы капитала". Вот это, я понимаю, "структурная перестройка промышленности". Увы, ждём активного вмешательства политиков: слишком большой масштаб происходящего, чтобы они прошли мимо.

UPDATE: обсуждение в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10218480891667622