Ознакомился с
Cray XMT.
Кешей нет. На локальность им плевать - вообще.
Процессор работает на частоте 500MHz. Память работает на частоте 200MHz. Запрос часто идёт к памяти другого процессора через сеть, то есть, десятки тактов.
Но у процессора 128 потоков и если программа делает хоть какую-то полезную работу, то задержка скрывается совершенно.
Достойно уважения решение рандомизировать адреса памяти. Обращаясь к участку памяти, вы не можете предсказать, будет ли он близко. То есть, совсем.
Показывают какие-то бешеные результаты в непривычных тестах, как то параллельная сортировка (bucket sort) или параллельное ранжирование списка.
Очень круто получилось.