Особенности архитектуры PA-RISK компании Hewlett-Packard
| |
| |
|ХАРАКТЕРИСТИКА СУЩЕСТВУЮЩИХ АРХИТЕКТУР |
| |
|1.1 Основные отличия CISC и RISC архитектур |
|Двумя основными архитектурами набора команд, используемыми компьютерной |
|промышленностью на современном этапе развития вычислительной техники (в |
|соответствии с [2]) являются архитектуры CISC и RISC. Основоположником |
|CISC-архитектуры можно считать компанию IBM с ее базовой архитектурой /360, |
|ядро которой используется с 1964 года и дошло до наших дней, например, в таких |
|современных мейнфреймах как IBM ES/9000.Лидером в разработке микропроцессоров c|
|полным набором команд (CISC - Complete Instruction Set Computer) считается |
|компания Intel со своей серией x86 и Pentium. Эта архитектура является |
|практическим стандартом для рынка микрокомпьютеров. Для CISC-процессоров |
|характерно: сравнительно небольшое число регистров общего назначения; большое |
|количество машинных команд, некоторые из которых нагружены семантически |
|аналогично операторам высокоуровневых языков программирования и выполняются за |
|много тактов; большое количество методов адресации; большое количество форматов|
|команд различной разрядности; преобладание двухадресного формата команд; |
|наличие команд обработки типа регистр-память. |
|Основой архитектуры современных рабочих станций и серверов является архитектура|
|компьютера с сокращенным набором команд (RISC - Reduced Instruction Set |
|Computer). Зачатки этой архитектуры уходят своими корнями к компьютерам |
|CDC6600, разработчики которых (Торнтон, Крэй и др.) осознали важность упрощения|
|набора команд для построения быстрых вычислительных машин. Эту традицию |
|упрощения архитектуры С. Крэй с успехом применил при создании широко известной |
|серии суперкомпьютеров компании Cray Research. Однако окончательно понятие RISC|
|в современном его понимании сформировалось на базе трех исследовательских |
|проектов компьютеров: процессора 801 компании IBM, процессора RISC университета|
|Беркли и процессора MIPS Стенфордского университета. |
|Среди других особенностей RISC-архитектур следует отметить наличие достаточно |
|большого регистрового файла (в типовых RISC-процессорах реализуются 32 или |
|большее число регистров по сравнению с 8 - 16 регистрами в CISC-архитектурах), |
|что позволяет большему объему данных храниться в регистрах на процессорном |
|кристалле большее время и упрощает работу компилятора по распределению |
|регистров под переменные. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
|Для обработки, как правило, используются трехадресные команды, что помимо |
|упрощения дешифрации дает возможность сохранять большее число переменных в |
|регистрах без их последующей перезагрузки. |
|Развитие архитектуры RISC в значительной степени определялось прогрессом в |
|области создания оптимизирующих компиляторов. Именно современная техника |
|компиляции позволяет эффективно использовать преимущества большего регистрового|
|файла, конвейерной организации и большей скорости выполнения команд. |
|Современные компиляторы используют также преимущества другой оптимизационной |
|техники для повышения производительности, обычно применяемой в процессорах |
|RISC: реализацию задержанных переходов и суперскалярной обработки, позволяющей |
|в один и тот же момент времени выдавать на выполнение несколько команд. |
|Следует отметить, что в последних разработках компании Intel (имеются в виду |
|Pentium и Pentium Pro), а также ее последователей-конкурентов (AMD R5, Cyrix |
|M1, NexGen Nx586 и др.) широко используются идеи, реализованные в |
|RISC-микропроцессорах, так что многие различия между CISC и RISC стираются. |
|Однако сложность архитектуры и системы команд x86 остается и является главным |
|фактором, ограничивающим производительность процессоров на ее основе. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|Преимущества и недостатки архитектуры PA-RISC |
|компании Hewlett Packard |
| |
|Основой разработки современных изделий Hewlett-Packard является архитектура |
|PA-RISC. Она была разработана компанией в 1986 году и с тех пор прошла |
|несколько стадий своего развития благодаря успехам интегральной технологии от |
|многокристального до однокристального исполнения. В сентябре 1992 года компания|
|Hewlett-Packard объявила о создании своего суперскалярного процессора PA-7100, |
|который с тех пор стал основой построения семейства рабочих станций HP 9000 |
|Series 700 и семейства бизнес-серверов HP 9000 Series 800. В настоящее время |
|имеются 33-, 50- и 99 МГц реализации кристалла PA-7100. Кроме того выпущены |
|модифицированные, улучшенные по многим параметрам кристаллы PA-7100LC с |
|тактовой частотой 64, 80 и 100 МГц, и PA-7150 с тактовой частотой 125 МГц, а |
|также PA-7200 с тактовой частотой 90 и 100 МГц. Компания активно разрабатывает |
|процессор следующего поколения HP 8000, которые будет работать с тактовой |
|частотой 200 МГц и обеспечивать уровень 360 единиц SPECint92 и 550 единиц |
|SPECfp92. Появление этого кристалла ожидается в 1996 году. Кроме того, |
|Hewlett-Packard в сотрудничестве с Intel планируют создать новый процессор с |
|очень длинным командным словом (VLIW-архитектура), который будет совместим как |
|с семейством Intel x86, так и семейством PA-RISC. Выпуск этого процессора |
|планируется на 1998 год. |
| |
|1.3 Характеристика процессоров на основе архитектуры PA-RISC |
| |
|1.3.1 Характеристика и особенности процессора PA 7100 |
| |
|Особенностью архитектуры PA-RISC является внекристальная реализация кэша, что |
|позволяет реализовать различные объемы кэш-памяти и оптимизировать конструкцию |
|в зависимости от условий применения (рисунок 1.3.1). Хранение команд и данных |
|осуществляется в раздельных кэшах, причем процессор соединяется с ними с |
|помощью высокоскоростных 64-битовых шин. Кэш-память реализуется на |
|высокоскоростных кристаллах статической памяти (SRAM), синхронизация которых |
|осуществляется непосредственно на тактовой частоте процессора. При тактовой |
|частоте 100 МГц каждый кэш имеет полосу пропускания 800 Мбайт/с при выполнении |
|операций считывания и 400 Мбайт/с при выполнении операций записи. |
|Микропроцессор аппаратно поддерживает различный объем кэш-памяти: кэш команд |
|может иметь объем от 4 Кбайт до 1 Мбайт, кэш данных - от 4 Кбайт до 2 Мбайт. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|Чтобы снизить коэффициент промахов применяется механизм хеширования адреса. В |
|обоих кэшах для повышения надежности применяются дополнительные контрольные |
|разряды, причем ошибки кэша команд корректируются аппаратными средствами. |
| |
|[pic] |
| |
| |
|рис.1.3.1 Блок-схема процессора PA 7100 |
| |
|Процессор подсоединяется к памяти и подсистеме ввода/вывода посредством |
|синхронной шины. Процессор может работать с тремя разными отношениями |
|внутренней и внешней тактовой частоты в зависимости от частоты внешней шины: |
|1:1, 3:2 и 2:1. Это позволяет использовать в системах разные по скорости |
|микросхемы памяти. |
|Конструктивно на кристалле PA-7100 размещены: целочисленный процессор, |
|процессор для обработки чисел с плавающей точкой, устройство управления кэшем, |
|унифицированный буфер TLB, устройство управления, а также ряд интерфейсных |
|схем. Целочисленный процессор включает АЛУ, устройство сдвига, сумматор команд |
|перехода, схемы проверки кодов условий, схемы обхода, универсальный регистровый|
|файл, регистры |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|управления и регистры адресного конвейера. Устройство управления кэш-памятью |
|содержит регистры, обеспечивающие перезагрузку кэш-памяти при возникновении |
|промахов и контроль когерентного состояния памяти. Это устройство содержит |
|также адресные регистры сегментов, буфер преобразования адреса TLB и аппаратуру|
|хеширования, управляющую перезагрузкой TLB. В состав процессора плавающей точки|
|входят устройство умножения, арифметико-логическое устройство, устройство |
|деления и извлечения квадратного корня, регистровый файл и схемы "закоротки" |
|результата. Интерфейсные устройства включают все необходимые схемы для связи с |
|кэш-памятью команд и данных, а также с шиной данных. Обобщенный буфер TLB |
|содержит 120 строк ассоциативной памяти фиксированного размера и 16 строк |
|переменного размера. |
|Устройство плавающей точки реализует арифметику с одинарной и двойной точностью|
|в стандарте IEEE 754. Его устройство умножения используется также для |
|выполнения операций целочисленного умножения. Устройства деления и вычисления |
|квадратного корня работают с удвоенной частотой процессора. |
|Арифметико-логическое устройство выполняет операции сложения, вычитания и |
|преобразования форматов данных. Регистровый файл состоит из 28 64-битовых |
|регистров, каждый из которых может использоваться как два 32-битовых регистра |
|для выполнения операций с плавающей точкой одинарной точности. Регистровый файл|
|имеет пять портов чтения и три порта записи, которые обеспечивают одновременное|
|выполнение операций умножения, сложения и загрузки/записи. |
|Конвейер проектировался с целью максимального увеличения времени, необходимого |
|для выполнения чтения внешних кристаллов SRAM кэш-памяти данных. Это позволяет |
|максимизировать частоту процессора при заданной скорости SRAM. Все команды |
|загрузки (LOAD) выполняются за один такт и требуют только одного такта полосы |
|пропускания кэш-памяти данных. Поскольку кэши команд и данных размещены на |
|разных шинах, в конвейере отсутствуют какие-либо потери, связанные с |
|конфликтами по обращениям в кэш данных и кэш команд. |
|Процессор может в каждом такте выдавать на выполнение одну целочисленную |
|команду и одну команду плавающей точки. Полоса пропускания кэша команд |
|достаточна для поддержания непрерывной выдачи двух команд в каждом такте. |
|Отсутствуют какие-либо ограничения по выравниванию или порядку следования пары |
|команд, которые выполняются вместе. Кроме того, отсутствуют потери тактов, |
|связанных с переключением с выполнения двух команд на выполнение одной команды.|
| |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|Специальное внимание было уделено тому, чтобы выдача двух команд в одном такте |
|не приводила к ограничению тактовой частоты. Чтобы добиться этого, в кэше |
|команд был реализован специально предназначенный для этого заранее декодируемый|
|бит, чтобы отделить команды целочисленного устройства от команд устройства |
|плавающей точки. Этот бит предварительного декодирования команд минимизирует |
|время, необходимое для правильного разделения команд. |
| |
|Потери, связанные с зависимостями по данным и управлению, в этом конвейере |
|минимальны. Команды загрузки выполняются за один такт, за исключением случая, |
|когда последующая команда пользуется регистром-приемником команды LOAD. Как |
|правило компилятор позволяет обойти подобные потери одного такта. Для |
|уменьшения потерь, связанных с командами условного перехода, в процессоре |
|используется алгоритм прогнозирования направления передачи управления. Для |
|оптимизации производительности циклов передачи управления вперед по программе |
|прогнозируются как невыполняемые переходы, а передачи управления назад по |
|программе - как выполняемые переходы. Правильно спрогнозированные условные |
|переходы выполняются за один такт. |
|Количество тактов, необходимое для записи слова или двойного слова командой |
|STORE уменьшено с трех до двух тактов. В более ранних реализациях архитектуры |
|PA-RISC был необходим один дополнительный такт для чтения тега кэша, чтобы |
|гарантировать попадание, а также для того, чтобы объединить старые данные |
|строки кэш-памяти данных с записываемыми данными. PA 7100 использует отдельную |
|шину адресного тега, чтобы совместить по времени чтение тега с записью данных |
|предыдущей команды STORE. Кроме того, наличие отдельных сигналов разрешения |
|записи для каждого слова строки кэш-памяти устраняет необходимость объединения |
|старых данных с новыми, поступающими при выполнении команд записи слова или |
|двойного слова. Этот алгоритм требует, чтобы запись в микросхемы SRAM |
|происходила только после того, когда будет определено, что данная запись |
|сопровождается попаданием в кэш и не вызывает прерывания. Это требует |
|дополнительной ступени конвейера между чтением тега и записью данных. Такая |
|конвейеризация не приводит к дополнительным потерям тактов, поскольку в |
|процессоре реализованы специальные цепи обхода, позволяющие направить |
|отложенные данные команды записи последующим командам загрузки или командам |
|STORE, записывающим только часть слова. Для данного процессора потери конвейера|
|для команд записи слова или двойного слова сведены к нулю, если непосредственно|
|последующая |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|команда не является командой загрузки или записи. В противном случае потери |
|равны одному такту. Потери на запись части слова могут составлять от нуля до |
|двух тактов. Моделирование показывает, что подавляющее большинство команд |
|записи в действительности работают с однословным или двухсловным форматом. |
|Все операции с плавающей точкой, за исключением команд деления и вычисления |
|квадратного корня, полностью конвейеризованы и имеют двухтактную задержку |
|выполнения как в режиме с одинарной, так и с двойной точностью. Процессор может|
|выдавать на выполнение независимые команды с плавающей точкой в каждом такте |
|при отсутствии каких-либо потерь. Последовательные операции с зависимостями по |
|регистрам приводят к потере одного такта. Команды деления и вычисления |
|квадратного корня выполняются за 8 тактов при одиночной и за 15 тактов при |
|двойной точности. Выполнение команд не останавливается из-за команд |
|деления/вычисления квадратного корня до тех пор, пока не потребуется регистр |
|результата или не будет выдаваться следующая команда деления/вычисления |
|квадратного корня. |
|Процессор может выполнять параллельно одну целочисленную команду и одну команду|
|с плавающей точкой. При этом "целочисленными командами" считаются и команды |
|загрузки и записи регистров плавающей точки, а "команды плавающей точки" |
|включают команды FMPYADD и FMPYSUB. Эти последние команды объединяют операцию |
|умножения с операциями сложения или вычитания соответственно, которые |
|выполняются параллельно. Пиковая производительность составляет 200 MFLOPS для |
|последовательности команд FMPYADD, в которых смежные команды независимы по |
|регистрам. |
|Потери для операций плавающей точки, использующих предварительную загрузку |
|операнда командой LOAD, составляют один такт, если команды загрузки и плавающей|
|арифметики являются смежными, и два такта, если они выдаются для выполнения |
|одновременно. Для команды записи, использующей результат операции с плавающей |
|точкой, потери отсутствуют, даже если они выполняются параллельно. |
|Потери, возникающие при промахах в кэше данных, минимизируются посредством |
|применения четырех разных методов: "попадание при промахе" для команд LOAD и |
|STORE, потоковый режим работы с кэшем данных, специальная кодировка команд |
|записи, позволяющая избежать копирования строки, в которой произошел промах, и |
|семафорные операции в кэш-памяти. Первое свойство позволяет во время обработки |
|промаха в кэше данных выполнять любые типы других команд. Для |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|промахов, возникающих при выполнении команды LOAD, обработка последующих команд|
|может продолжаться до тех пор, пока регистр результата команды LOAD не |
|потребуется в качестве регистра операнда для другой команды. Компилятор может |
|использовать это свойство для предварительной выборки в кэш необходимых данных |
|задолго до того момента, когда они действительно потребуются. Для промахов, |
|возникающих при выполнении команды STORE, обработка последующих команд загрузки|
|или операций записи в части одного слова продолжается до тех пор, пока не |
|возникает обращений к строке, в которой произошел промах. Компилятор может |
|использовать это свойство для выполнения команд на фоне записи результатов |
|предыдущих вычислений. Во время задержки, связанной с обработкой промаха, |
|другие команды LOAD и STORE, для которых происходит попадание в кэш данных, |
|могут выполняться как и другие команды целочисленной арифметики и плавающей |
|точки. В течение всего времени обработки промаха команды STORE, другие команды |
|записи в ту же строку кэш-памяти могут происходить без дополнительных потерь |
|времени. Для каждого слова в строке кэш-памяти процессор имеет специальный |
|индикационный бит, предотвращающий копирование из памяти тех слов строки, |
|которые были записаны командами STORE. Эта возможность применяется к |
|целочисленным и плавающим операциям LOAD и STORE. |
|Выполнение команд останавливается, когда регистр-приемник команды LOAD, |
|выполняющейся с промахом, требуется в качестве операнда другой команды. |
|Свойство "потоковости" позволяет продолжить выполнение как только нужное слово |
|или двойное слово возвращается из памяти. Таким образом, выполнение команд |
|может продолжаться как во время задержки, связанной с обработкой промаха, так и|
|во время заполнения соответствующей строки при промахе. |
|При выполнении блочного копирования данных в ряде случаев компилятор заранее |
|знает, что запись должна осуществляться в полную строку кэш-памяти. Для |
|оптимизации обработки таких ситуаций архитектура PA-RISC 1.1 определяет |
|специальную кодировку команд записи ("блочное копирование"), которая |
|показывает, что аппаратуре не нужно осуществлять выборку из памяти строки, при |
|обращении к которой может произойти промах кэш-памяти. В этом случае время |
|обращения к кэшу данных складывается из времени, которое требуется для |
|копирования в память старой строки кэш-памяти по тому же адресу в кэше (если он|
|"грязный") и времени, необходимого для записи нового тега кэша. В процессоре PA|
|7100 такая возможность реализована как для привилегированных, так и для |
|непривилегированных команд. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|Последнее улучшение управления кэшем данных связано с реализацией семафорных |
|операций "загрузки с обнулением" непосредственно в кэш-памяти. Если семафорная |
|операция выполняется в кэше, то потери времени при ее выполнении не превышают |
|потерь обычных операций записи. Это не только сокращает конвейерные потери, но |
|и снижает трафик шины памяти. В архитектуре PA-RISC 1.1 предусмотрен также |
|другой тип специального кодирования команд, который устраняет требование |
|синхронизации семафорных операций с устройствами ввода/вывода. |
|Управление кэш-памятью команд позволяет при промахе продолжить выполнение |
|команд сразу же после поступления отсутствующей в кэше команды из памяти. |
|64-битовая магистраль данных, используемая для заполнения блоков кэша команд, |
|соответствует максимальной полосе пропускания внешней шины памяти 400 Мбайт/с |
|при тактовой частоте 100 МГц. |
|В процессоре предусмотрен также ряд мер по минимизации потерь, связанных с |
|преобразованиями виртуальных адресов в физические. |
|Конструкция процессора обеспечивает реализацию двух способов построения |
|многопроцессорных систем. При первом способе каждый процессор подсоединяется к |
|интерфейсному кристаллу, который наблюдает за всеми транзакциями на шине |
|основной памяти. В такой системе все функции по поддержанию когерентного |
|состояния кэш-памяти возложены на интерфейсный кристалл, который посылает |
|процессору соответствующие транзакции. Кэш данных построен на принципах |
|отложенного обратного копирования и для каждого блока кэш-памяти поддерживаются|
|биты состояния "частный" (private), "грязный" (dirty) и "достоверный" (valid), |
|значения которых меняются в соответствии с транзакциями, которые выдает или |
|принимает процессор. |
|Второй способ организации многопроцессорной системы позволяет объединить два |
|процессора и контроллер памяти и ввода-вывода на одной и той же локальной шине |
|памяти. В такой конфигурации не требуется дополнительных интерфейсных |
|кристаллов и она совместима с существующей системой памяти. Когерентность |
|кэш-памяти обеспечивается наблюдением за локальной шиной памяти. Пересылки |
|строк между кэшами выполняются без участия контроллера памяти и ввода-вывода. |
|Такая конфигурация обеспечивает возможность построения очень дешевых |
|высокопроизводительных многопроцессорных систем. |
|Процессор поддерживает ряд операций, необходимых для улучшения |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|графической производительности рабочих станций серии 700: блочные пересылки, |
|Z-буферизацию, интерполяцию цветов и команды пересылки данных с плавающей |
|точкой для обмена с пространством ввода/вывода. |
|Процессор построен на базе технологического процесса КМОП с проектными нормами |
|0.8 микрон, что обеспечивает тактовую частоту 100 МГц. |
| |
|1.3.2 Характеристика и особенности процессора PA 7200 |
| |
|Процессор PA 7200 имеет ряд архитектурных усовершенствований по сравнению с PA |
|7100, главными из которых являются добавление второго целочисленного конвейера,|
|построение внутрикристального вспомогательного кэша данных и реализация нового |
|64-битового интерфейса с шиной памяти. |
|Процессор PA 7200, как и его предшественник, обеспечивает суперскалярный режим |
|работы с одновременной выдачей до двух команд в одном такте. Все команды |
|процессора можно разделить на три группы: целочисленные операции, операции |
|загрузки/записи и операции с плавающей точкой. PA 7200 осуществляет |
|одновременную выдачу двух команд, принадлежащим разным группам, или двух |
|целочисленных команд (благодаря наличию второго целочисленного конвейера с АЛУ |
|и дополнительных портов чтения и записи в регистровом файле). Команды перехода |
|выполняются в целочисленном конвейере, причем эти переходы могут составлять |
|пару для одновременной выдачи на выполнение только с предшествующей командой. |
|Повышение тактовой частоты процессора требует упрощения декодирования команд на|
|этапе выдачи. С этой целью предварительная дешифрация потока команд |
|осуществляется еще на этапе загрузки кэш-памяти. Для каждого двойного слова |
|кэш-память команд включает 6 дополнительных бит, которые содержат информацию о |
|наличии зависимостей по данным и конфликтов ресурсов, что существенно упрощает |
|выдачу команд в суперскалярном режиме. |
|В процессоре PA 7200 реализован эффективный алгоритм предварительной выборки |
|команд, хорошо работающий и на линейных участках программ. |
|Как и в PA 7100 в процессоре реализован интерфейс с внешней кэш-памятью данных,|
|работающей на тактовой частоте процессора с |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|однотактным временем ожидания. Внешняя кэш-память данных построена по принципу |
|прямого отображения. Кроме того, для повышения эффективности на кристалле |
|процессора реализован небольшой вспомогательный кэш емкостью в 64 строки. |
|Формирование, преобразование адреса и обращение к основной и вспомогательной |
|кэш-памяти данных выполняется на двух ступенях конвейера. Максимальная задержка|
|при обнаружении попадания равна одному такту. |
|Вспомогательный внутренний кэш содержит 64 32-байтовые строки. При обращении к |
|кэш-памяти осуществляется проверка 65 тегов: 64-х тегов вспомогательного кэша и|
|одного тега внешнего кэша данных. При обнаружении совпадения данные |
|направляются в требуемое функциональное устройство. |
|При отсутствии необходимой строки в кэш-памяти производится ее загрузка из |
|основной памяти. При этом строка поступает во вспомогательный кэш, что в ряде |
|случаев позволяет сократить количество перезагрузок внешней кэш-памяти, |
|организованной по принципу прямого отображения. Архитектурой нового процессора |
|для команд загрузки/записи предусмотрено кодирование специального признака |
|локального размещения данных ("spatial locality only"). При выполнении команд |
|загрузки, помеченных этим признаком, происходит обычное заполнение строки |
|вспомогательного кэша. Однако последующая запись строки осуществляется |
|непосредственно в основную память минуя внешний кэш данных, что значительно |
|повышает эффективность работы с большими массивами данных, для которых размера |
|строки кэш-памяти с прямым отображением оказывается недостаточно. |
|Расширенный набор команд процессора позволяет реализовать средства |
|автоиндексации для повышения эффективности работы с массивами, а также |
|осуществлять предварительную выборку команд, которые помещаются во |
|вспомогательный внутренний кэш. Этот вспомогательный кэш обеспечивает |
|динамическое расширение степени ассоциативности основной кэш-памяти, |
|построенной на принципе прямого отображения, и является более простым |
|альтернативным решением по сравнению с множественно-ассоциативной организацией.|
| |
|Процессор PA 7200 включает интерфейс новой 64-битовой мультиплексной системной |
|шины Runway, реализующей расщепление транзакций и поддержку протокола |
|когерентности памяти. Этот интерфейс включает буфера транзакций, схемы |
|арбитража и схемы управления соотношениями внешних и внутренних тактовых |
|частот. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|1.3.3 Характеристика суперскалярного процессора PA 8000 |
| |
|Процессор PA-8000 был анонсирован в марте 1995 года на конференции COMPCON 95. |
|Было объявлено, что показатели его производительности будут достигать 8.6 |
|единиц SPECint95 и 15 единиц SPECfp95 для операций целочисленной и вещественной|
|арифметики соответственно. В настоящее время этот очень высокий уровень |
|производительности подтвержден испытаниями рабочих станций и серверов, |
|построенных на базе этого процессора. |
|Процессор PA-8000 вобрал в себя все известные методы ускорения выполнения |
|команд. В его основе лежит концепция "интеллектуального выполнения", которая |
|базируется на принципе внеочередного выполнения команд. Это свойство позволяет |
|PA-8000 достигать пиковой суперскалярной производительности благодаря широкому |
|использованию механизмов автоматического разрешения конфликтов по данным и |
|управлению аппаратными средствами. Эти средства хорошо дополняют другие |
|архитектурные компоненты, заложенные в структуру кристалла: большое число |
|исполнительных функциональных устройств, средства прогнозирования направления |
|переходов и выполнения команд по предположению, оптимизированная организация |
|кэш-памяти и высокопроизводительный шинный интерфейс. |
|Высокая производительность PA-8000 во многом определяется наличием большого |
|набора функциональных устройств, который включает в себя 10 исполнительных |
|устройств: два арифметико-логических устройства (АЛУ) для выполнения |
|целочисленных операций, два устройства для выполнения операций сдвига/слияния |
|данных, два устройства для выполнения умножения/сложения чисел с плавающей |
|точкой, два устройства деления/вычисления квадратного корня и два устройства |
|выполнения операций загрузки/записи. |
|Средства внеочередного выполнения команд процессора PA-8000 обеспечивают |
|аппаратное планирование загрузки конвейеров и лучшее использование |
|функциональных устройств. В каждом такте на выполнение могут выдаваться до |
|четырех команд, которые поступают в 56-строчный буфер переупорядочивания. Этот |
|буфер позволяет поддерживать постоянную занятость функциональных устройств и |
|обеспечивает эффективную минимизацию конфликтов по ресурсам. конфликтов по |
|ресурсам. Кристалл может анализировать все 56 командных строк одновременно и |
|выдавать в каждом такте по 4 готовых для выполнения команды в функциональные |
|устройства. Это позволяет процессору |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
|автоматически выявлять параллелизм уровня выполнения команд. |
|Суперскалярный процессор PA-8000 обеспечивает полный набор средств выполнения |
|64-битовых операций, включая адресную арифметику, а также арифметику с |
|фиксированной и плавающей точкой. При этом кристалл полностью сохраняет |
|совместимость с 32-битовыми приложениями. Это первый процессор, в котором |
|реализована 64-битовая архитектура PA-RISC. Он сохраняет полную совместимость с|
|предыдущими и будущими реализациями PA-RISC. |
|Кристалл изготовлен по 0.5-микронной КМОП технологии с напряжением питания 3.3 |
|Вольт и можно рассчитывать на дальнейшее уменьшение размеров элементов в |
|будущем. |
| |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|2. ОСОБЕННОСТИ СЕРВЕРОВ КОМПАНИИ HEWLETT-PACKARD НА БАЗЕ ПРОЦЕССОРОВ С |
|АРХИТЕКТУРОЙ PA- RISC |
| |
| |
|Компания Hewlett-Packard была учреждена в Калифорнии в 1938 году с целью |
|создания электронного тестирующего и измерительного оборудования. В настоящее |
|время компания разрабатывает, производит, осуществляет маркетинг и сервис |
|систем для коммерческих приложений, автоматизации производственных процессов, |
|процессов разработки, тестирования и измерений, а также аналитические и |
|медицинские инструменты и системы, периферийное оборудование, калькуляторы и |
|компоненты для использования в широком ряде отраслей промышленности. Она |
|продает более 4500 изделий, используемых в промышленности, бизнесе, науке, |
|образовании, медицине и инженерии. |
|Основой разработки современных компьютеров Hewlett-Packard является архитектура|
|PA-RISC. Она была разработана компанией в 1986 году, и с тех пор, благодаря |
|успехам интегральной технологии, прошла несколько стадий своего развития от |
|многокристального до однокристального исполнения. Архитектура PA-RISC |
|разрабатывалась с учетом возможности построения многопроцессорных систем, |
|которые реализованы в старших моделях серверов. |
|2.1 Серверы HP9000 класса D |
|В секторе рынка серверов рабочих групп компания HP представлена довольно |
|широкой серией систем HP9000 класса D. Это серия систем с относительно низкой |
|стоимостью, которая конкурирует с серверами, построенными на базе ПК. Эти |
|системы базируются на архитектуре процессоров PA-RISC (75 и 100 МГц PA-7100LC, |
|100 и 120 МГц PA-7200, а также 160 МГц PA-8000) и работают под управлением |
|операционной системы HP-UNIX. |
|Модели D200, D210 и D310 представляют собой (согласно[3]) однопроцессорные |
|системы. Модели D250, D260, D270 и D350 могут оснащаться как одним, так и двумя|
|процессорами. В своих моделях D3XX HP подчеркивает свойства обеспечения высокой|
|готовности: возможность "горячей" замены внутренних дисковых накопителей, |
|возможность организации дискового массива RAID и наличие источника |
|бесперебойного питания. Эти модели обладают также расширенными возможностями по|
|наращиванию оперативной памяти и подсистемы ввода/вывода. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
|В моделях D2XX имеется 5 гнезд расширения ввода/вывода и 2 отсека для установки|
|дисковых накопителей с интерфейсом SCSI-2. В моделях D3XX количество гнезд |
|расширения ввода/вывода расширено до 8, в 5 отсеках могут устанавливаться |
|дисковые накопители с интерфейсом Fast/Wide SCSI-2, которые допускают замену |
|без выключения питания системы. |
|Старшие модели серии обеспечивают возможность расширения оперативной ECC-памяти|
|до 1.5 Гбайт, при этом коэффициент расслоения может увеличиваться до 12. |
|Максимальный объем дискового пространства при использовании внешних дисковых |
|массивов может достигать 5.0 Тбайт. |
|2.2 Серверы HP9000 класса K |
|Серверы HP9000 класса K представляют собой системы среднего класса, |
|поддерживающие симметричную мультипроцессорную обработку (до 4 процессоров). |
|Также как и системы класса D они базируются на архитектуре PA-RISC (120 МГц |
|PA-7200 с кэш-памятью команд/данных первого уровня 256/256 Кбайт или 1/1 Мбайт,|
|а также 160 и 180 МГц PA-8000 с кэш-памятью команд/данных первого уровня 1/1 |
|Мбайт, работающей на тактовой частоте процессора). |
|Конструкция серверов класса К обеспечивает высокую пропускную способность |
|систем. Основными компонентами поддержания высокой производительности являются |
|системная шина с пиковой пропускной способностью 960 Мбайт/с, большая |
|оперативная память с контролем и исправлением одиночных ошибок (ECC) емкостью |
|до 4 Гбайт c 32-кратным расслоением, многоканальная подсистема ввода/вывода с |
|пропускной способностью до 288 Мбайт/с, стандартная высокоскоростная шина |
|Fast/Wide Differential SCSI-2, а также дополнительные возможности по |
|подключению высокоскоростных сетей и каналов типа FDDI, ATM и Fibre Channel. |
|В конструкции сервера предусмотрены 4 отсека для установки дисковых |
|накопителей, а с помощью специальных стоек (кабинетов) расширения емкость |
|дисковой памяти системы может быть доведена до 8.3 Тбайт. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|2.3 Симметричные многопроцессорные серверы HP9000 класса Т |
|Самым мощным и расширяемым рядом корпоративных серверов компании HP на базе ОС |
|UNIX является семейство HP9000 класса T. Это следующее поколение серверов, |
|которое было разработано компанией вслед за HP9000 model 870. В начале на рынке|
|появились системы HP9000 T500, допускающие установку до 12 процессоров PA7100, |
|затем HP объявила 14-процессорные системы T520, построенные на базе процессора |
|120 МГц PA7150. В настоящее время объявлены 12-процессорные системы Т600 на |
|базе процессора PA-8000, поставки которых должны начаться в 1997 году. |
|Существующие системы (Т500 и Т520) допускают замену старых процессоров на |
|процессоры PA-8000. |
|Характерной особенностью архитектуры серверов класса Т является большая емкость|
|кэш-памяти команд (1 Мбайт) и данных (1 Мбайт) у каждого процессора системы. |
|Серверы класса T используют 64-битовую шину с расщеплением транзакций, которая |
|поддерживает до 14 процессоров, работающих на частоте 120 МГц. Эффективность |
|этой шины, как и шины Runway, составляет 80%, что обеспечивает в установившемся|
|режиме пропускную способность 768 Мбайт/с при пиковой производительности 960 |
|Мбайт/с. |
|Серверы класса T могут поддерживать до 8 каналов HP-PB (HP Precision Bus), |
|работающих со скоростью 32 Мбайт/с, однако в стойке основной системы |
|поддерживается только один канал HP-PB. Для обеспечения полной конфигурации |
|подсистемы ввода/вывода необходима установка 7 стоек расширения, занимающих |
|достаточно большую площадь. Общая пиковая полоса пропускания подсистемы в/в в |
|полностью сконфигурированной 8-стоечной системе составляет 256 Мбайт/с, что |
|меньше полосы пропускания подсистемы в/в серверов класса К. Однако максимальная|
|емкость дисковой памяти при использовании RAID-массивов достигает 20 Тбайт. |
|Указанная двухярусная шинная структура сервера обеспечивает оптимальный баланс |
|между требованиями процессоров и подсистемы ввода/вывода, гарантируя высокую |
|пропускную способность системы даже при тяжелой рабочей нагрузке. Доступ |
|процессоров к основной памяти осуществляется посредством мощной системной шины |
|процессор-память, поддерживающей когерентное состояние кэш-памятей всей |
|системы. В будущих системах планируется 4-кратное увеличение пропускной |
|способности подсистемы ввода/вывода. |
| |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
|2.4 Семейство корпоративных параллельных серверов HP9000 |
|Одним из последних продуктов, выпущенных компанией HP, является семейство |
|параллельных систем, представленных в настоящее время двумя моделями ESP21 и |
|ESP30. Основная концепция, лежащая в основе этих систем достаточно проста. Она |
|заключается в создании комбинированной структуры, в которой объединяются |
|возможности и сильные стороны проверенной временем высокопроизводительной |
|симметричной мультипроцессорной обработки с практически неограниченным |
|потенциалом по росту производительности и масштабируемости, который может быть |
|достигнут посредством параллельной архитектуры. Результатом такого объединения |
|является высокопроизводительная архитектура, обеспечивающая чрезвычайно высокую|
|степень распараллеливания вычислений. |
|В отличие от некоторых других параллельных архитектур, которые используют слабо|
|связанные однопроцессорные узлы, параллельная архитектура серверов ESP21 и |
|ESP30 использует высокопроизводительную SMP-технологию в качестве |
|масштабируемых строительных блоков. Преимущество такого подхода заключается в |
|том, что прикладные системы могут пользоваться вычислительной мощностью и |
|возможностями множества тесно связанных процессоров в инфраструктуре SMP и |
|достаточно эффективно обеспечивать максимально возможную производительность |
|приложений. По мере необходимости дополнительные SMP-модули могут быть |
|добавлены в систему для увеличения степени параллелизма для масштабирования |
|общей производительности системы, ее емкости, пропускной способности в/в, или |
|таких системных ресурсов как основная и дисковая память. |
|Изделия этой серии предназначены главным образом для обеспечения |
|масштабируемости, превышающей обычные возможности SMP-архитектуры, для |
|крупномасштабных систем принятия решений, систем оперативной обработки |
|транзакций, построения хранилищ данных во Всемирной Паутине Internet. Для |
|большинства приложений модели ESP обеспечивают практически линейный рост уровня|
|производительности. Это достигается посредством использования |
|высокопроизводительной шинной архитектуры SMP узлов ESP в сочетании с |
|возможностями установки дополнительных SMP-узлов с помощью разработанного |
|компанией HP коммутатора оптоволоконных каналов (Fiber Channel Enterprise |
|Switch). Управление всеми ресурсами системы осуществляется с единой консоли |
|управления. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
|При необходимости обеспечения высокой готовности системы ESP поддерживают |
|специальный слой программных средств MC/ServiceGuard. Эти средства позволяют |
|создать эффективное сочетание свойств высокой производительности, |
|масштабируемости и высокой готовности, и помимо стандартных возможностей RAS |
|(надежности, готовности и удобства обслуживания) обеспечивают замену узлов без |
|останова работы системы. |
|По сути серия EPS предоставляет средства для объединения моделей класса К |
|(EPS21) и Т(EPS30) в единую систему. 16-канальный коммутатор Fiber Channel |
|позволяет объединить до 64 процессоров в модели EPS21 (до 256 процессоров в |
|будущем) и до 224 процессоров в модели EPS30 (до 768 процессоров в будущем). |
|Общая пиковая пропускная способность систем может достигать уровня 15 Гбайт/с. |
| |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
|Введение |
| |
|На данном этапе научно-технического развития выбор аппаратной платформы и |
|конфигурации системы представляет собой чрезвычайно сложную задачу[1]. Это |
|связано, в частности, с характером прикладных систем, который в значительной |
|степени может определять рабочую нагрузку вычислительного комплекса в целом. |
|Однако часто оказывается просто трудно с достаточной точностью предсказать саму|
|нагрузку, особенно в случае, если система должна обслуживать несколько групп |
|разнородных по своим потребностям пользователей. Следует отметить, что выбор |
|той или иной аппаратной платформы и конфигурации определяется и рядом общих |
|требований, которые предъявляются к характеристикам современных вычислительных |
|систем. К ним относятся: отношение стоимость/производительность, надежность и |
|отказоустойчивость, масштабируемость, совместимость и мобильность программного |
|обеспечения. Основная задача при проектировании всего ряда моделей системы |
|PA-RISC заключалась в создании такой архитектуры, которая была бы одинаковой с |
|точки зрения пользователя для всех моделей системы независимо от цены и |
|производительности каждой из них. Огромные преимущества такого подхода, |
|позволяющего сохранять существующий задел программного обеспечения при переходе|
|на новые модели были быстро оценены как производителями компьютеров, так и |
|пользователями и начиная с этого времени практически все фирмы-поставщики |
|компьютерного оборудования взяли на вооружение эти принципы, поставляя серии |
|совместимых компьютеров. |
| |
| | | | | | |
| | | | | |**** 7.0915.01.08 ПЗКП |
| | | | | | |
|И|Ли|№ докум.|Подп. |Дат| |
|з|ст| | |а | |
|м| | | | | |
|Разра| | | | |Лит. |Лист. |Листов.|
|б. |Гропянов| | |ВВЕДЕНИЕ | | | |
|Н.кон|Передери| | | | |
|тр |й | | | | |
|Утв. | | | | | |
| |
| |
| |
|Постановка задачи |
| |
|В ходе выполнения данного курсового проекта необходимо рассмотреть существующие|
|виды архитектур процессоров, охарактеризовать их преимущества и недостатки. |
|Следует детально рассмотреть какую-либо архитектуру (в данном случае это |
|архитектура PA-RISC компании Hewlett Packard), а также рассмотреть области |
|применения процессоров с выбранной архитектурой (характеристика серверов |
|компании Hewlett Packard на основе PA-RISC процессоров). Также необходимо |
|разработать программу-драйвер передачи информации между рабочими станциями в |
|локальной сети. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|РЕФЕРАТ |
| |
|Курсовой проект содержит: стр. , лит.ист. , прилож.1, рис.1 |
| |
|Ключевые слова: |
| |
|АРХИТЕКТУРА, ПРОЦЕССОР, PA-RISC, CISC, КОНВЕЙЕР, СЕРВЕР, КЕШ-ПАМЯТЬ, РЕГИСТР, |
|ИНСТРУКЦИЯ, АРИФМЕТИКО-ЛОГИЧЕСКОЕ УСТРОЙСТВО |
| |
| |
| |
|В данном курсовом проекте рассмотрены преимущества и недостаки основных |
|существующих архитектур процессоров, детально рассмотрена архитектура PA-RISC |
|компании HewlettPackard, приведена характеристика серверов компании Hewlett |
|Packard на основе PA-RISC процессоров. |
| | | | | | |
| | | | | |**** 7.0915.01.08 ПЗКП |
| | | | | | |
|И|Ли|№ докум.|Подп. |Дат| |
|з|ст| | |а | |
|м| | | | | |
|Разра| | | | |Лит. |Лист. |Листов.|
|б. |Гропянов| | |РЕФЕРАТ | | | |
|Н.кон|Передери| | | | |
|тр |й | | | | |
|Утв. | | | | | |
| |
| |
| |
|СОДЕРЖАНИЕ |
| |
|Введение……………………………………………………………………… |
| |
|1. Характеристика существующих архитектур ………………………….. |
| |
|Основные отличия CISC и RISC архитектур……………………….. |
|Преимущества и недостатки PA-RISC архитектуры компании |
|HewlettPackard………………………………………………………… |
|Характеристика процессоров на основе архитектуры PA-RISC…... |
|1.3.1 Характеристика и особенности процессоров PA 7100…………. |
|1.3.2 Характеристика и особенности процессоров PA 7200…………. |
|1.3.3 Характеристика суперскалярного процессора РА 8000………… |
|Постановка задачи……………………………………………………. |
| |
|2. Особенности серверов компании HewlettPackard с архитектурой |
|PA-RISC………………………………………………………………………… |
|2.1 Серверы НР9000 класса D…………………………………………… |
|2.2 Серверы НР9000 класса К…………………………………………… |
|2.3 Симметричные многопроцессорные серверы HP9000 класса Т….. |
|2.4 Семейство корпоративных параллельных серверов HP9000……... |
|Заключение………………………………………………………………….. |
|Список использованной литературы………………………………………. |
|Приложение ………………………………………………………………… |
| | | | | | |
| | | | | |**** 7.0915.01.08 ПЗКП |
| | | | | | |
|И|Ли|№ докум.|Подп. |Дат| |
|з|ст| | |а | |
|м| | | | | |
|Разра| | | | |Лит. |Лист. |Листов.|
|б. |Гропянов| | |СОДЕРЖАНИЕ | | | |
|Н.кон|Передери| | | | |
|тр |й | | | | |
|Утв. | | | | | |
| |
|Заключение |
| |
|В данном курсовом проекте рассмотрены основные архитектектуры процессоров. |
|Детально рассмотрена архитектура PA-RISC компании Hewlett Packard, |
|проанализированы преимущества и недостатки этой архитектуры. Также рассмотрены |
|области применения процессоров с архитектурой PA-RISC (характеристика серверов |
|компании Hewlett Packard на основе PA-RISC процессоров). В приложении приведена|
|программа обеспечивающая передачу информации между рабочими станциями в |
|локальной сети. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |
| |
| |
|Список использованной литературы |
| |
|1.Шнитман В.С., Кузнецов М.И. Аппаратно-программные платформы корпоративных |
|информационных систем : Учебное пособие. – Минск, 1997.- 457с.: ил. |
|2.Громов Ю.Ю.,Татаренко С.И. Современные высокопроизводительные компьютеры: |
|Учебное пособие. – Тамбов,1995.- 169 с. |
|3.Гук М.И. Аппаратные средства IBM PC. Энциклопедия : Учебное пособие. – |
|С.-Петербург, 1999.-816 с.: ил. |
| | | | | | |Лис|
| | | | | |**** 7.0915.01.08 ПЗКП |т |
| | | | | | | |
|И|Ли|№ докум.|Подп. |Дат| | |
|з|ст| | |а | | |
|м| | | | | | |