admin / 19.01.2018
.
Маркетологи активно вливают в уши потребителей информацию о количестве ядер в процессорах. Складывается впечатление, что если установить серверный процессор в игровой компьютер, то получится очень мощная игровая система. Насколько Вы должны знать – цены на комплектующие для серверного сегмента рынка очень разнятся с решениями для домашнего или офисного оборудования. Что же получится, если установить 12-ядерный CPU Xeon E5 в «обычный» компьютер для повседневных задач? Сегодня мы ответим на Ваш вопрос.
Как говорится – всё познаётся в сравнении. Мы протестируем быстродействие двух компьютеров в разных задачах: играх, бенчмарках и ресурсоёмких «боевых/реальных» приложениях. Серверные CPU обычно ориентированы на использование в многопроцессорных системах, но и в десктопах на материнских платах «ASUS X99-Deluxe» и «ASUS Rampage V Extreme» наш E5-4650 завёлся без проблем. Причём не пришлось тратиться на память – он отлично работает и с простой небуферизованной DDR4 SDRAM.
Не будем больше тянуть и представим номинантов сегодняшней битвы: Intel Xeon E5-4650 v3 (Haswell-EP, 12 ядер + Hyper-Threading, 2.0 — 2.6 ГГц, L3-кеш 30 МБ) и Intel Core i7-5960X Extreme Edition (Haswell-E, 8 ядер + Hyper-Threading, 3.0 — 3.5 ГГц, L3-кеш 20 МБ).
Номинанты устанавливались на материнскую плату «ASUS X99-Deluxe» с 4 модулями DDR4-2133 по 4 ГБ. Система хранения представлена SSD накопителем Crucial M550 512 ГБ.
Содержание
Дискретной видеокартой был GeForce GTX 980. Сравнение производительности проводилось под управлением операционной системы Microsoft Windows 8.1 Pro x64.
Первым делом мы прогнали утилиты «синтетического» тестирования производительности. Ими выступили «PCMark 8 Pro» и «3DMark Pro» от Futuremark. Первая программа запускалась в режимах «Home», «Work» и «Creative». Три этих сценария имитируют нагрузку обычного домашнего компьютера, офисного использования, развлечений и работы с мультимедиа контентом соответственно. «3DMark Pro» известен своей оптимизацией под многоядерные системы, но результаты обеих утилит показывают, что серверный процессор в игровой компьютер – выбор нерациональный.
Для сравнения скорости в приложениях мы отобрали несколько «тяжёлых» пакетов с оптимизацией под несколько потоков, которые должны по максимуму загрузить процессоры и показать реальное положение дел. «3DS Max 2015» занимался финальным рендерингом одного кадра Space_flyby. «Finereader 12.0» переводил в текстовый форма заранее отсканированный текст с большим количеством формул и графиков. «Photoshop CC 2014» обрабатывал несколько 24-мегапиксельных кадра с цифровой камеры заранее подготовленным скриптом. «WinRAR 5.1» настолько любил архивировать, что и на этот раз упаковывал папку с данными различных форматов объёмом в 1,7 ГБ. «x264» занимался кодированием AVC файла с исходным битрейтом порядка 30 Mbit/s (1080p и 50fps).
По итогам замеров серверный Intel Xeon обогнал Core i7 лишь в 2-х приложениях. Итоговое положение E5-4650 завидным не назовёшь – большое отставание при значительно большей стоимости. Однако не забывайте, что Xeon’у поручены несвойственные для него задачи. Чтобы выполнить «план максимум» – проверим производительность систем в реальных играх, хотя тест в 3DMark нам уже многое сказал.
Отметим, что обычно максимальная нагрузка в современных играх ложится на графическую карту. Ввиду этого ждать большого отрыва одной конфигурации от дугой в высоких разрешениях (1920*1080) не приходится. Поэтому мы выполнили сравнение в этих же игровых приложениях при несколько меньшем разрешении – 1280*800 (фактически это аналогично установке более мощной карты без снижения разрешения). Результаты поражают.
Итог вполне предсказуем – использовать серверный процессор в игровом компьютере нелогично. За гораздо большую стоимость владелец покупает меньшую по производительности систему. Так что, Intel Xeon E5-4650 отправляется на своё законное место – в многопроцессорную серверную материнскую плату и продолжает «служить родине» в свойственных ему задачах. В одном лишь E5 сегодня выиграл – в энергопотреблении под нагрузкой (утилитой LinX 0.6.5). Конечно, замерялось потребление тестового стенда целиком (без монитора). Влияние КПД блока питания (80 Plus Platinum) должно быть минимальным. Гораздо логичней — на CPU потратить несколько меньшую сумму, чем стоимость серверного процессора, но купить видеокарту ТОПового сегмента, к примеру — новинку 2017 года nVidia GeForce GTX 1080 Ti.
.
6. МИКРОПРОЦЕССОРЫ ДЛЯ РАБОЧИХ СТАНЦИЙ И СЕРВЕРОВ6.1. Микропроцессоры с архитектурой SPARCЛиния процессоров с архитектурой SPARC включает 32-разрядные микропроцессоры MicroSPARC, SuperSPARC, HiperSPARC и 64-разрядный микропроцессор UltraSPARC [33]. Традиционно системы на основе SPARC микропроцессоров — это высокопроизводительные рабочие станции для научных расчетов и Unix-серверы. С выпуском нового поколения микропроцессоров значительно улучшились возможности SPARC-систем по обработке графики и видеоизображений. UltraSPARC представляет собой один из первых процессоров общего назначения, в котором эти функции реализованы аппаратно. Он имеет специальный модуль для обработки видеоданных и графики, представленной в RGB и альфа-формате. Функции обработки видеоизображений могут работать сразу с 8 элементами изображения. Обработка изображений выполняется в блоке FPU, который обычно выполняет операции над 64-битовыми данными с плавающей точкой. В этом блоке выполняется логическое сложение и умножение элементов изображения. В систему команд микропроцессора включен набор команд (VIS — Visual Instruction Set), позволяющий загружать и обрабатывать данные в виде 64-битовых блоков. VIS насчитывает 30 команд для эффективной обработки мультимедиа, графики, изображений и других алгоритмов, ориентированных на целочисленную обработку. Команды VIS включают в себя сложение, умножение и вычитание, что позволяет параллельно выполнять за один такт до 8 целочисленных операций над байтами или полусловами. При реализации алгоритма компрессии-декомпрессии MPEG больше всего времени требует та часть алгоритма, которая выполняет анализ движения и сравнение каждой части текущего кадра с предыдущим. Благодаря наличию специальных команд в UltraSPARC эти действия выполняются как одна графическая операция. Специальная подсистема памяти автоматически загружает элемент изображения в 8-байтовые блоки. Для этого не требуется выполнения отдельной команды. При конвейеризации этих специальных команд микропроцессор будет выполнять одну операцию за такт. Использование таких специализированных команд обеспечивает 80-кратное повышение скорости выполнения обработки изображений по сравнению с другими SPARC-процессорами. UltraSPARC имеет также несколько специальных средств, улучшающих его работу с памятью. Это повышает производительность программ мультимедиа и других системных задач. Самым крупным изменением является новая команда перемещения блока данных по шине «процессор-память» со скоростью 600 Мбайт/с. Это позволяет основному процессору работать как видеопроцессор, передавая данные с экрана на экран. Перемещение блока можно с выгодой использовать и в других приложениях, например в сетевом программном обеспечении для перемещения пакетов данных. В настоящее время выпускаются разновидности микропроцессора: UltraSPARC-1 с частотой 167 МГц, имеющий значение индекса производительности на тестах SPECint95 и SPECfp95 — 5,6 и 9,1 соответственно, UltraSPARC-2 с частотой 250 МГц с производительностью 8,5 SPECint 95 и 15 SPECfp 95. Процессор UltraSPARC-2 с частотой 300 МГц обеспечивает производительность 11 SPECint 95 и 18 SPECfp 95. В 1998 r. Sun планирует выпустить процессоры третьего поколения UltraSPARC-3. Этот процессор будет работать на тактовых частотах 350,400 и 450 МГц и выше. Ожидается, что его производительность на частоте 450 МГц составит 25 SPECint 95 и 40 SPECfp 95. Структура микропроцессора UltraSPARC показана на рис. 3.8. UltraSPARC оснащен кэшем данных и кэшем команд по 16К каждый. Оба кэша имеют собственный буфер трансляции адресов TLB (Translation Look-aside Buffer). UltraSPARC содержит встроенный контроллер кэша второго уровня. Выборка команд тесно интегрирована с кэшем команд первого уровня. Команды сохраняются в кэше и для ускорения обработки предварительно декодируются. Каждые 2 инструкции в кэше ассоциируются с 2 битами, которые используются для предсказания переходов. 2 бита позволяют отслеживать 4 различных состояния, кодирующих последние 2 перехода, выполняемых по этим командам. Механизм предвыборки использует эти биты для динамического упреждения переходов. UltraSPARC способен предсказывать переход с вероятностью 0,88 на тесте SPECint92 и с вероятностью 0,94 на тесте SPECfp92. Обрабатывающий конвейер UltraSPARC имеет 9 этапов и позволяет выполнять до 4 команд за один такт. Первые два этапа стандартные — это выборка и декодирование команд. На третьем этапе группируются все команды, которые можно передать следующему блоку. Микропроцессор не изменяет порядка выполнения этих команд. Задача планирования загрузки исполнительных модулей решается статически на этапе компиляции. В каждом такте могут выбираться на выполнение 2 целочисленные команды, 2 команды с плавающей точкой или графические команды, одна команда загрузки/записи в память или одна команда перехода. Таким образом, при 6 возможных командах одновременно могут выполняться лишь 4. На этом же этапе происходит получение информации из регистров. Рис. 3.8. Структура микропроцессора UltraSPARC После выбора команды конвейер разделяется на 3 части. Одна ветвь обрабатывает целочисленные команды и команды работы с памятью, а другая — команды с плавающей точкой и графические команды. Команды с плавающей точкой передаются в трехэтапный конвейер, который выполняет всю обработку, кроме деления с плавающей точкой и вычисления квадратного корня. Эти функции выполняет отдельный блок. Хотя микропроцессор подает команды поочередно, результаты не обязательно поступают в том же порядке. Базовые целочисленные команды выполняются за 1 такт. Другие, такие как целочисленное умножение и деление, могут иметь переменную длительность. Остальные этапы целочисленного конвейера выполняют загрузку/запись в память. Процессоры с архитектурой SPARC — это на сегодняшний день единственные процессоры, использующие концепцию регистровых окон. Вместо 32 базовых регистров эти микропроцессоры предлагают 8 перекрывающихся окон регистров по 24 регистра каждое. С началом новой процедуры или ветви обработки окно не требуется записывать в память — новый контекст просто будет использовать новое окно регистров. Однако, на практике, число доступных окон быстро иссякает, и в этом случае приходится записывать информацию в память. Однозначного мнения о достоинствах и недостатках подобной модели пока не существует. В UltraSPARC-2 добавлен дополнительный механизм, благодаря которому при каждом прерывании становится доступным новое окно из 8 регистров. Такое решение должно значительно увеличить скорость выполнения мультипроцессорного программного кода. Для получения высокой пропускной способности UltraSPARC использует иерархию шин. 128-разрядная шина памяти работает с тактовой частотой самого процессора. Для выполнения ввода-вывода на периферийные устройства используется шина SBus, Sun Microsystems реализует интерфейс с этой шиной на аппаратном уровне с помощью микросхемы коммутации магистрали, входящей в набор микросхем процессора. Она позволяет изолировать шину памяти от шины ввода-вывода и выполнять операции чтения из памяти одновременно с вводом-выводом на периферийные устройства. В результате достигается высокий коэффициент использования шины и пропускная способность 1,3 Гбит/с. Этот микропроцессор имеет 6 независимых исполнительных блоков, высокоскоростной шинный интерфейс, внутренний кэш 64Кбайт. Он обеспечивает высокую производительность, необходимую в задачах моделирования и обработки транзакций. На тактовой частоте 133 Мгц его производительность составляет 225 SPECint92 и 300 SPECfp92. PowerPC 620 совместим по коду с более ранними версиями PowerPC, что позволяет наряду с новыми специально разработанными 64-разрядными программами выполнять на нем 32-разрядные программы PowerPC. Однако по выводам PowerPC 620 не совместим с моделью 604: вместо 304 он имеет 482 вывода. При производстве процессора используется 0,5-микронная технология КМОП с 4 слоями металлизации, аналогичная применяемой для PowerPC 604, однако схемотехника транзисторов и переключательных схем улучшена. На кристалле площадью 311 мм2 размещено 7 млн. транзисторов, что почти вдвое больше, чем у PowerPC 604. Как и PowerPC 603 и 604, PowerPC 620 имеет рабочее напряжение 3,3В. На частоте 133 Мгц он потребляет не более 30Вт. Структура микропроцессора показана на рис. 3.9. Как и в предыдущих микропроцессорах, в PowerPC 620 используется гарвардская архитектура с раздельными маршрутами кода и данных. Процессор имеет 2 встроенных кэша первого уровня по 32Кбайт каждый. Каждый кэш имеет собственный блок управления памятью MMU и функционирует независимо от другого. PowerPC 620 имеет суперскалярное RISC-ядро. В процессоре применяется четырехконвейерная суперскалярная архитектура с шестью исполнительными модулями: тремя целочисленными АЛУ, блоком операций с плавающей точкой, блоком загрузки/сохранения и блоком переходов. За один такт процессор может выполнять до 4 команд. Рис. 3.9. Структура микропроцессора PowerPC 620 Для поддержания эффективной загрузки исполнительных блоков в процессоре применяется динамическое предсказание переходов совместно со спекулятивным выполнением кода на глубину до 4 предсказанных ветвлений. Для предсказания переходов в PowerPC 620 используется таблица предыстории переходов ВНТ (Brahch History Table), в которой регистрируется результат выполнения каждой команды ветвления. Команды и адреса переходов кэшируются в кэше ВТАС (Branch-Target Address Cache). Вероятность правильного предсказания переходов составляет 0,9. Как и в модели 604, в PowerPC 620 применяется буфер переупорядочивания на 16 элементов, однако в нем допускается использовать до четырех элементов буфера переименования за такт (вместо двух), что расширяет возможности конвейерной обработки команд. В блоке операций с плавающей точкой PowerPC 620 (FPU) увеличена по сравнению с предыдущими моделями производительность операций деления и извлечения квадратного корня. PowerPC 620 может работать в 32- или 64- разрядном режиме. На текущий режим указывает программно-управляемый бит в регистре MSR (Machine State Register). Шинный интерфейс PowerPC 620 включает в себя унифицированную внутреннюю поддержку кэша 2-го уровня, не требует дополнительных тактов для управления логикой внешнего кэша. Внешний кэш может иметь объем до 128 Мбайт и может функционировать с тактовой частотой ЦП, а также на частотах вдвое и вчетверо меньших, что дает возможность гибкого выбора конфигурации памяти системы. Кэш данных реализует режим сквозной и обратной записи и протокол MESI (Modified, Exclusive, Shared, Invalid), обеспечивающий синхронизацию кэшей в мультипроцессорных системах. Перед тем как попасть во внутренний кэш, команды проходят через декодер. Декодированные команды находятся в кэше команд до их выборки блоком планирования/выполнения. Благодаря предварительному декодированию остальная логика декодирования объединяется с этапом планирования загрузки конвейеров микропроцессора, что позволяет сократить число этапов конвейера до 5 (выборка, декодирование/планирование: выполнение, завершение и запись). Поскольку конвейер стал короче, команды выполняются за меньшее число тактов процессора. Уникальной особенностью микропроцессоров PowerPC является также программное переключение режимов адресации (Intel/Motorola). Этот режим также определяется одним из битов MPR. Таким образом, рабочая станция на базе PowerPC 620 сможет выполнять код приложений разных операционных систем. К числу последних разработок микропроцессоров с архитектурой PowerPC относятся микропроцессоры PowerPC 750 (G3_), PowerPC (G4), Power3, MPC8260. Производительность микропроцессора с тактовой частотой 180 МГц составила 11,8 SPECint 95 20,2 SPECfp 95. Процессор изготовляется по технологии КМОП 0,5 мкм. Последующие модификации предусматривают использование технологии с КМОП 0,35 мкм для РА-8200 и 0,25 мкм для РА-8500. Структура микропроцессора РА-8000 показана на рис. 3.10. РА-8000 имеет 64-разрядную четырехконвейерную архитектуру с оригинальной схемой изменения последовательности выполняемых команд. Процессор содержит 10 функциональных устройств: два целочисленных АЛУ, два целочисленных устройства сдвига/объединения, два устройства умножения/накопления с плавающей точкой (MAC), два устройства деления/извлечения корня и два устройства загрузки/сохранения. Устройства умножения/накопления требуют трех тактов и полностью конвейеризируются для обработки данных с одинарной точностью. Их производительность составляет до 4 FLOPS за такт. Блоки деления требуют 17 тактов и не конвейеризируются. В РА-8000 используется буфер переупорядочивания команд (IRB), просматривающий следующие 56 команд в потоке инструкций и определяющий, какие из них можно выполнять параллельно. Фактически IRB состоит из двух блоков на 28 команд каждый. Блок АЛУ содержит команды для устройства целочисленной арифметики, а другой блок используется для команд устройства операций с плавающей точкой и команд загрузки/сохранения. Команда, помещенная в IRB, ожидает готовности данных, являющихся результатом предыдущих команд, и выбирается на выполнение (в порядке очередности) как только все требуемые данные получены и необходимое исполнительное устройство освободилось. Каждый из блоков IRB позволяет планировать две команды за такт (итого до четырех команд за такт). Стоит ли использовать процессор Intel Xeon в домашнем компьютере?Для устранения связей между параллельно выполняемыми командами в процессоре используется переименование регистров. Рис. 3.104. Структура микропроцессора PA-8000 Hewlett-Packard спроектировала РА-8000 специально для научных и инженерных расчетов, размер интенсивно используемых данных в которых может быть велик. В этой связи возникает необходимость использования больших кэш-памятей команд и данных. РА-8000 использует внешние основные кэш-памяти данных и команд объемом до 4 Мбайт, а также буфер переупорядочивания адресов (ARB), отслеживающий все команды загрузки/сохранения, что позволяет сократить задержку, связанную с адресацией внешней кэш-памяти. Более медленный доступ к данным во внешнем кэше для РА-8000 компенсируется его большим объемом (что, однако, приводит к удорожанию системы) и эффективным управлением обменом с кэш- памятью (использование высокоскоростных линий управления кэшем, предвыборки команд и данных из основной памяти в кэш). Устранить недостаток, связанный с удорожанием системы при использовании внешнего основного кэша, Hewlett-Packard удалось в новом микропроцессоре РА-8500, производимом по технологии 0,25 мкм. Высокая плотность упаковки позволила разместить на кристалле кэш-память первого уровня размером 1Мбайт для данных и 0,5Мбайт для команд. |
Вы можете разместить ссылку на наш сайт:
.
FILED UNDER : IT