На дворе стоит день покорения вершин, а по такому поводу стоит вспомнить про такое достижение 2024 года как WSE-3.
Площадь нового процессора
WSE-3 от Cerebras Systems составляет 46 225 мм2. Он выпускается с использованием 5-нм техпроцесса компании TSMC, содержит 4 трлн транзисторов, 900 000 ядер и объединён с 44 Гбайт памяти SRAM. Суммарная пропускная способность набортной памяти достигает 21 Пбайт/с, а внутреннего интерконнекта - 214 Пбит/с. Его производительность в операциях FP16 заявлена на уровне 125 Пфлопс. В первом поколении WSE речь шла о 1,2 трлн транзисторов при 400 тыс. ядер и 18 Гбайт сверхбыстрой памяти. WSE-2 состоял из 2,6 трлн транзисторов, имел 850 тыс. ядер и 40 Гбайт памяти.
Главной задачей для CS-3 станет обучение сверхбольших языковых моделей, в 10 раз превышающих по количеству параметров GPT-4 и Google Gemini. В Cerebras говорят о 24 трлн параметров, причём без необходимости различных ухищрений для эффективного распараллеливания процесса обучения, что требуется в случае с GPU-кластерами. Они считают, что для обучения Megatron 175B на таких кластерах требуется 20 тыс. строка кода Python/C++/CUDA, а в случае WSE-3 потребуется лишь 565 строк на Python. Первый суперкомпьютер на базе CS-3 это 8-Эфлопс Condor Galaxy 3 - состоит из 64 штук WSE-3, которые в совокупности с уже имеющимися кластерами на базе CS-1 и CS-2 размещенными в Далласе (США) обеспечивают суммарную вычислительную мощность систем Cerebras 16 Эфлопс.
CS-3 поддерживает масштабирование вплоть до 2048 штук WSE-3 с общей производительностью до 256 экзафлопсов. А это как не крути, уже 0,25 зеттафлопса! Такая конфигурация вкупе с MemoryX сможет обучить модель типа Llama 70B всего за день. В сотрудничестве c группой G42 из ОАЭ запланировано создание ещё шести систем CS-3, что в сумме позволит довести их производительность до 64 Эфлопс. Как говорится - арабы нынче ну и ну... Хотя злые языки говорят, что это не арабы вовсе, а китайцы которые за ними стоят и хотят дерзко получить через них доступ к технологиям с использованием возможностей WSE-3.
В рамках сотрудничества с Qualcomm компания Cerebras использует в новом кластере существенное число инференс-ускорителей Qualcomm Cloud AI100 Ultra. Каждый такой ускоритель имеет 64 ядра, 128 Гбайт памяти LPDDR4x, потребляет 140 Вт и развивает 870 Топс на INT8-операциях. Причём програмнный стек полностью интегрирован, что позволит в один клик запустить обученные WSE-3 модели на ускорителях Qualcomm.
В Cerebras заявляют, что вместе с Qualcomm они будут работать над оптимизацией моделей для Cloud AI100 Ultra, в которых будут использоваться преимущества таких методов, как разреженность, спекулятивное декодирование, MX6 и поиск сетевой архитектуры.
«Как мы уже показали, разрежённость при правильной реализации способна значительно повысить производительность ускорителей. Спекулятивное декодирование предназначено для повышения эффективности модели при развёртывании за счёт использования небольшой и облегченной модели для генерации первоначального ответа, а затем использования более крупной модели для проверки точности этого ответа», - отметил гендиректор Cerebras Эндрю Фельдман (Andrew Feldman).
Кстати ёжиков мучает вопрос, а человеки в систему Си в 2022 году завели приставки ронна (27 нулей или октиллион) и кветта (30 нолей или нониллион) для присобачивая их к байтам или флопсам? Цивилизация III типа по Шкале Кардашёва потребляет как минимум 1 000 000 кветтаватт. Любопытно также, а какая доля этой энергии уходит у такой цивилизации на моделирование и хранение котиков и порно?