Падение Intel. Как AMD беззастенчиво уничтожает конкурента: spydell

spydell

Падение Intel. Как AMD беззастенчиво уничтожает конкурента

Dec 16, 2019 06:31

Исторический перелом, вероятно, уже наступил. Затяжной период снижение доли AMD на процессорном рынке продолжался с 2006 по 2017, остановившись лишь в момент выходе первого поколения процессоров на архитектуре Zen.
Тогда это был фундаментальный прорыв для AMD, но первое поколение имело слишком много недостатков в межъядерном взаимодействии, работе с памятью, совместимостью с памятью и вычислительной мощностью в операциях с плавающей точкой.

На тот момент они приблизились к Intel, но тягаться с ними не могли по результирующей производительности, хотя по энергоэффективности был значительный прорыв. Оптимизированная архитектура Zen в исполнении Ryzen 2000 серии немного подняли производительность в пределах 5-8% с учетом поднятия средних частот, но не решали базовых недостатков первой архитектуры. Это все равно было недостаточно для полноценной конкуренции с Intel. Наконец, третья попытка и уже с новых техпроцессом и с серьезно переработанной архитектурой. Частично я писал об этом летом, но говорил, что как только появится процессор третьей серии, то сразу покажу результаты. 12 и тем более 8 ядерные процессоры не имели никакого смысла в преддверии 16 ядер, поэтому конечно же 16 ядер и никак иначе!

Немного матчасти, чтобы понять революционный потенциал.

Это процессор Ryzen 9 3950x.

У него три кристалла. Вот те, что сверху вместе - это два процессорных кристалла на 7нм CCD (чиплеты), внутри каждого по 2 процессорных блока CCX на 4 ядра и по 2 блока кэша 3 уровня, т.е. оба кристалла CCD в совокупности имеют 4 блока CCX по 4 ядра и 4 блока кэша 3 уровня по 16 Мб. Соответственно 16 ядер и невероятные 72 Мб кэша в совокупности. CCX связаны между собой в одном CCD, но сами CCD напрямую не связаны, а через посредника в виде 12 нм внешнего I/O чиплета посредствам шины Infinity Fabric. I/O чиплет ответствен за все взаимодействие с компьютерным оборудованием, точнее с оперативной памятью, чипсетом, PCI интерфейсами и USB, а сами процессорные ядра как бы «изолированы» от внешнего мира и функционируют с окружением только через cIOd чиплет.

Как раз такая компоновка решила множество проблем, как чисто технологических в виде простоты масштабирования, так и архитектурных. С одной стороны, AMD удалось вдвое нарастить пропускную способность шины Infinity Fabric и одновременно с этим за счет иной компоновки практически вдвое снизить задержки при межъядерном взаимодействии (в первую очередь для чипов с двумя CCD, т.е. для 3900x и 3950x). Речь идет о 68нс против 110-115нс в прошлом поколении архитектуры Zen. Это задержки, но и сама скорость обмена выросла в два раза (ширина шины выросла вдвое - с 256 до 512 бит). Реализован асинхронный режим для работы с оперативной памятью, что позволило использовать высокоскоростные модули памяти и качественно решить проблемы с совместимостью и таймингами.

Сами процессорные ядра получили массу улучшений, особенно по FPU части и операциями с плавающей запятой. Увеличение ширины блока операций с плавающей точкой (FPU) с 128 до 256 бит. Улучшения в предсказании переходов, алгоритмы предварительной выборки, матрица планировщика задач, значительная улучшена работа кэша декодирования операций, а сама скорость кэша достигла чудовищных, астрономических показателей.

Чтобы понимать о чем речь - тесты!

Вот мой старый процессор i7-6700k: скорость копирования кэша первого уровня 1148 GB/s, кэша второго уровня 338 Gb/s, а третьего уровня всего 225.

А вот R9-3950x

L1 - 4224 (рост в 4 раза), L2 - 2140 (рост в 6.3 раза), L3 - 1197 (рост почти в 6 раз!), но в 6700k всего 8МБ кэша третьего уровня, а здесь 72 МБ!

Кэш третьего уровня в 18 ядерном i9-10980xe всего 24.75 мб и скорость 275 - это позор!!

Кэш третьего уровня в Ryzen 9 работает в 26 раз (!!) быстрее оперативной памяти DDR4 3000 при задержках доступа в 7 раз меньше (у памяти на самом деле 70нс, просто я тестировал, имея работающие программы в фоне)
Тест кэша в программе SiSoftware Sandra 2020 (в этот раз никаких фоновых процессов)

Отрыв колоссальный - от 4 до 15 раз. Хотя очевидно не совсем корректно тестировать 4 ядерный и 16 ядерный, но пока нет в наличии склада запасных процессоров и из того, что есть
В межъядерном взаимодействии немного скоромнее, но разница от 3.5 до 7-8 раз

Многие не используют тестовый комплекс SiSoftware Sandra из-за длительного тестирования, полного подавления фоновых процессов и эффекта зависания компьютера, но именно это я считаю главным преимуществом. Среда изолируется полностью под вычисления, что повышает точность данных. Погрешность в этом тесте самая низкая среди всех.

Вот, что получилось

Арифметический и мультимедийный тест показал преимущество около 4 раз Ryzen 9 3950x на частоте 4.3 ГГц против Intel i7 6700k на частоте 4.6 Ггц. Это на самом деле невероятно. Может показаться логичным, что при идеальном распараллеливании задач преимущество 16 ядер будет около 4 раз над 4 ядрами. Но, во-первых, это говорит о том, что архитектура Zen 2 на 4.3 Ггц сопоставима Skylake на 4.6 Ггц, а во-вторых, показатель энергоэффективности выдающиеся. Intel это не может. Сейчас в арсенале Intel нет ни одного процессора, который бы работал на частоте 4.6 Ггц при 16 ядрах при использовании воздушного охлаждения. Некоторые очень редкие экземпляры берут 4.5 Ггц на 16 ядрах, но потребление возрастает свыше 400 ватт против 200 ватт у меня в настоящий момент в тестировании. Это позволяет говорить о том, что текущая производительность Ryzen 9 3950x на частоте 4.3 ГГц теоретически недостижима современным десктопным процессорам Intel.

В финансовом анализе производительность Ryzen 9 3950x быстрее Intel i7 6700k в 7 раз! В обработке изображений в 5.6 раз, в производительности криптографии почти в три раза, но при хэшировании в 5.4 раза. Научные вычисления в данном тесте плохо распараллелены из-за условных процедур (следующие команды зависят от результатов текущих) и оптимизации под Intel, однако в симуляции N частиц превосходство достигает 16 раз за счет поддержки новых инструкций и параллельных вычислений.

Ниже тесты в более популярных, но «простых» тестах с точки зрения верификации и репрезентативности.

В целом речь идет о преимуществе 300% или 4 раз в тестах, которые использовали многопоточность по полной программе. Я специально выбрал тесты «5-минутки», т.е скачать, установить и протестировать в пределах 5 минут для любого желающего. В своих рабочих задачах я имел схожую картину (рост производительности от 4 до 6 раз).

Результаты при частоте 4.35 на всех ядрах

Все тесты первой строкой в Гугле при запросе и бенчмарк универсален, т.е. настройки по дефолту. Просто запустил и получил результат, поэтому можно сравнить свои компы ))
Результаты AIDA. Тем дефолтный процессор R9-3950x работал не на 3500, а на частоте 3950

Есть еще один, пожалуй, самый популярный и раскрученный бенчмарк - CineBench R20
Я его использую, как основной рабочий инструмент для определения стабильности, энергопотребления и эффективности. Тестировал в различных режимах и вот, что получилось.

Частота 3900, результат 8985, среднее напряжение на протяжении 3 минут непрерывного тестирования 1.089, средняя температура 57 (при окружающей 19), среднее потреление 127 ватт, максимальное 134. Дальше через дефис
3900 - 8985 - 1.089 - 57 - 127 - 134
4000 - 9212 - 1.142 - 62 - 142 - 148
4100 - 9446 - 1.194 - 67 - 159 - 166
4200 - 9707 - 1.233 - 71 - 173 - 181
4300 - 9928 - 1.294 - 78 - 195 - 205

Кулер Noctua NH-D15. Сразу скажу, что еще ни в каком, даже самом сложном режиме тестирования температура не выходила выше 85 (при частоте 4350 и напряжении 1.35), а потребление выше 225
Мне попался очень редкий экземпляр, один на несколько тысяч по токам утечки и разгонному потенциалу. Большинство не берут выше 4.1 на всех ядрах, тут без проблем 4.3 Ггц при умеренном потреблении. К слову, самый последний и самый мощный настольный процессор для рабочих станций от Intel i9-10980xe при частоте 4.3 на 18 ядрах потребляет свыше 350 ватт и это не хватает, чтобы конкурировать с R9-3950x. Еще ни один Intel не взял свыше 10000 в Cinebench 20 https://www.cpu-monkey.com/en/cpu_benchmark-cinebench_r20_multi_core-10

Этот взял при 4325 и потреблении 206 ватт! В терминах энергоэффективности на удельную производительность R9-3950x на 75% лучше последних образцов Intel
i7-6700k на частоте 4.6 пожирал 107 ватт в стресс тестировании, R9-3950x почти в два раза больше, но при производительности в ЧЕТЫРЕ раза больше. Тесты выше это показали. Энергоэффективность лучше в два раза. И это я бы назвал революцией! Еще никогда, по крайней мере с 2005 года отрыв AMD не был столь велик, а будет еще больше. Последний процессор это произведение искусства, произведение инженерной мысли.

Intel последние 5 лет не сделали ничего. Их бесконечные реинкарнации реликтового техпроцесса 14нм++++++ с древней архитектурой Skylake 2015 года всем настоебли. На дворе 2020. Не изменилось ничего. Если бы не AMD, штеуд так бы и пихал бы 4 ядра со смазкой вместо припоя под крышкой по безумным ценам. AMD их заставили вывалить на рынок многоядерные процессоры по ценам в два и более раза ниже, чем в 2017. Intel в агонии. Они технологический импотент, они ничего не могут сделать, в 2020 году они представили/представят теже процессоры, которые были в 2015. 6 по счету переименование. Как говорят техногики, последний процессоры, созданный инженерами был "Сандик 2011 года", с тех пор власть захватили маркетологи и идиоты.

Единственное, что может сдержать AMD - это проблемы с производством и логистикой. У них замечательная инженерная команда и подход. Они никогда не уделяли внимание программной экосистеме, но с 2018 года этому направлению стали придавать едва ли не основное значение. Раньше весь софт, все компиляторы проектировались только под Intel, операционная система Windows достаточно плохо взаимодействовала с AMD, а AMD ничего не делала. Игры делались под Intel, а AMD практически никак не взаимодействовала с разработчиками. Теперь все меняется. В AMD появились целые отделы, которые заняты как раз взаимодействием с разработчиками вплоть до того, что Microsoft смогла добиться того, чтобы планировщик операционной системы теперь учитывал топологию процессора AMD. Wintel (Windows + Intel) пришел конец. Ранее AMD сделала прогресс, выиграв тендер на поставку процессора и видеокарты в современные игровые консоли, а со следующего поколения консолей в 2020 интеграция будет еще плотнее. Соответственно, AMD будут сильны не только в рабочих задачах (рендер, кодирование, декодирование, шифрование и вычисления), но еще в играх.

Поэтому, если хотите прогноц технорынка - штеуду со своими керогазами 14нм++++ кажется пришел конец (в контексте прежнего формата). Не конец, как компании, а конец доминированию. Теперь придется учитывать сильного конкурента. Это хорошо, но если Intel совсем одичает, то AMD может превратиться в штеуд образца 2015-2019. Так что нет ничего хорошо, если Intel вдруг сойдет со сцены. Наоборот, конкуренция - двигатель прогресса.

Еще немного про технологию precision boost overdrive от AMD. Технология автоматического разгона. По ней я видел много вопросов. Суть заключается в том, что AMD на заводе тестируют десятки тысяч процессоров и имеет матрицу соответствия предельных частот и напряжения - это и лежит в программировании пресетов для precision boost overdrive (PBO), но с запасом, т.е. завышая сильно напряжение, одновременно занижая частоты. PBO не оптимизирован под каждый конкретный процессор, а имеет некий универсальный пресет, а именно из-за этого он плох. Мне попался очень редкий процессор с выдающимся разгонным потенциалом и низким потреблением. При использовании PBO система даже близко не давала 4.35 Ггц, ограничившись на 4.1 при безумном напряжении 1.35. Более того, частоты динамически меняются от 600 мгц до 4700 - это не есть хорошо ни для процессора, ни для производительности. Поэтому я использовал древний метод фиксированного напряжения и частоты. 3700 и 1.07 вольта при отсутствии нагрузок и 4300/ 1.31 при нагрузках.

amd, intel, процессоры