Реферат: Процессоры нового поколения и перспективы их развития

2Содержание

Вступление 2

Два кристалла в одном корпусе 3

Pentium как точка отсчета 4

Основная проблема на пути повышенияпроизводительности 5

Решение принятое в P6 6

Архитектура P6 7

1. Устройствовыборки/декодирования 7

2. Устройстводиспетчирования/выполнения 8

3. Устройство отката 9

4. Интерфейс шины 10

5. Вывод 11

P6 как платформа для построения мощныхсерверов 12

Системы на основе P6 13

Следующее поколение процессоров 14

Заключение 17

Приложения 18

Литература 22

.

— 2 -

ш1.1

2Вступление

Все IBM-совместимые персональные компьютеры укомплектованы

Intel-совместимымипроцессорами. История развитиямикропроцессо-

ров семействаIntel вкратце такова. Первыйуниверсальный микро-

процессор фирмыIntel появился в 1970 г. Он называлсяIntel 4004,

был четырехразрядным и имел возможностьввода/вывода и обработки

четырехбитныхслов. Быстродействие его составляло 8000 операций в

секунду. Микропроцессор Intel 4004 был рассчитан наприменение в

программируемыхкалькуляторах с памятью размером в 4 Кбайт.

Через три года фирма Intel выпустилапроцессор 8080, который

мог выполнять уже16-битные арифметические операции, имел 1б-раз-

рядную адреснуюшину и, следовательно, мог адресовать до 64 Кбайт

памяти(2 516 0=65536). 1978 годознаменовался выпуском процессора

8086 с размеромслова в 16 бит (два байта), 20-разряднойшиной и

мог оперироватьуже с 1 Мбайт памяти (2 520 0=1048576, или 1024

Кбайт), разделенной на блоки (сегменты) по 64 Кбайткаждый. Про-

цессором 8086комплектовались компьютеры, совместимыес IBM PC и

IBM PC/XT. Следующим крупным шагом в разработке новых микропро-

цессоров сталпоявившийся в 1982 году процессор 8028б. Он обладал

24-разряднойадресной шиной, мог распоряжаться 16 мегабайтами ад-

ресногопространства и ставился на компьютеры, совместимые с IBM

PC/AT. В октябре 1985 года был выпущен80386DX с 32- разрядной

шиной адреса(максимальное адресное пространство — 4 Гбайт), а в

июне 1988 года — 80386SX, более дешевый по сравнению с80386DX и

обладавший24-разрядной адресной шиной. Затем вапреле 1989 года

появляетсямикропроцессор 80486DX, а в мае 1993 — первый вариант

процессораPentium (оба с 32-разрядной шиной адреса).

В мае 1995 года в Москве на международнойвыставке Комтек-95

фирма Intelпредставила новый процессор — P6.

Одной из важнейших целей, поставленных при разработке P6,

было удвоение производительности по сравнению спроцессором Pen-

tium. При этомпроизводство первых версий P6 будет осуществляться

по уже отлаженной«Intel» и используемой при производстве послед-

них версийPentium полупроводниковой технологии (О,6 мкм, З, З В).

Использование того же самого процесса производства даетгарантию

того, что массовое производство P6 будет налаженобез серьезных

проблем. Вместе с тем это означает, что удвоение производитель-

ности достигаетсятолько за счет всестороннего улучшения микроар-

хитектурыпроцессора. При разработкемикроархитектуры P6 исполь-

зоваласьтщательно продуманная и настроенная комбинация различных

архитектурных методов. Часть из них была ранее опробована в про-

цессорах«больших» компьютеров, частьпредложена академическими

институтами,оставшиеся разработаны инженерами фирмы «Intel». Эта

уникальнаякомбинация архитектурных особенностей, которую в «In-

tel"определяют словами «динамическое выполнение», позволила пер-

вым кристаллам P6превзойти первоначально планировавшийся уровень

производительности.

При сравнении с альтернативными«Intel» процессорами семейс-

тва х86выясняется, что микроархитектура Р6имеет много общего с

микроархитектуройпроцессоров Nx586 фирмы NexGen и K5 фирмы AMD,

и, хотя ив меньшей степени, с M1 фирмы«Cyrix». Эта общность

— 3 -

объясняетсятем, что инженеры четырех компаний решалиодну и ту

же задачу: внедрение элементов RISC-технологии при сохранении

совместимости сCISC-архитектурой Intel х86.

2Два кристалла в одномкорпусе

Главное преимущество и уникальнаяособенность Р6 — размещен-

ная в одном корпусе с процессором вторичная статическая кэш-па-

мять размером 256кб, соединенная с процессором специальновыде-

ленной шиной.Такая конструкция должна существенно упростить про-

ектирование системна базе Р6. Р6 — первый предназначенный для

массовогопроизводства микропроцессор, содержащийдва чипа в од-

ном корпусе.

Кристалл ЦПУ в Р6 содержит 5,5 миллионовтранзисторов; крис-

талл кэш-памятивторого уровня — 15,5 миллионов. Для сравнения,

последняя модель Pentium включала около 3,3 миллиона транзисто-

ров, а кэш-память второго уровня реализовывалась спомощью внеш-

него наборакристаллов памяти.

Столь большое число транзисторов в кэшеобъясняется его ста-

тической природой.Статическая память в P6 использует шесть тран-

зисторов длязапоминания одного бита, в то время как динамической

памяти было быдостаточно одного транзистора на бит. Статическая

память быстрее,но дороже.

Хотя число транзисторов на кристалле свторичным кэшем втрое

больше, чем на кристалле процессора, физические размеры кэша

меньше: 202 квадратных миллиметра против 306 у процессора. Оба

кристалла вместезаключены в керамический корпус с 387 контактами

(«dualcavity pin-drid array»). Оба кристалла производятся с при-

менением одной итой же технологии (0,6 мкм, 4- слойная ме-

талл-БиКМОП, 2,9 В). Предполагаемое максимальное потребление

энергии: 20 Втпри частоте 133 МГц.

Первая причина объединения процессора и вторичного кэша в

одном корпусе — облегчение проектирования и производства высокоп-

роизводительных систем на базе Р6. Производительностьвычисли-

тельнойсистемы, построенной на быстромпроцессоре, очень сильно

зависит от точной настройки микросхемокружения процессора, в

частностивторичного кэша. Далеко не все фирмы-производители

компьютеров могутпозволить себе соответствующие исследования. В

Р6 вторичный кэшуже настроен на процессор оптимальным образом,

что облегчаетпроектирование материнской платы.

Вторая причина объединения - повышение производительности.

Кзш второгоуровня связан с процессором специально выделенной ши-

ной шириной 64бита и работает на той же тактовой частоте, что и

процессор.

Первые процессоры Рentium с тактовойчастотой 60 и 66 МГц

обращались квторичному кэшу по 64-разрядной шине с той же такто-

вой частотой.Однако с ростом тактовой частоты Pentium для проек-

тировщиков стало слишком сложно и дорого поддерживатьтакую час-

тоту наматеринской плате. Поэтому стали применяться делители

частоты. Например, у 100 МГц Pentium внешняя шина работает на

частоте 66 МГц (у90 МГц Pentium — соответственно 60 МГц). Penti-

um использует этушину как для обращений к вторичному кэшу, так и

— 4 -

для обращения косновной памяти и другим устройствам, например к

набору чипов PCI.

Использование специально выделенной шиныдля доступа к вто-

ричному кэшу улучшает производительность вычислительнойсистемы.

Во-первых, при этом достигается полная синхронизация скоростей

процессора ишины; во-вторых, исключается конкуренция с другими

операциямиввода-вывода и связанные с этим задержки. Шина кэша

второго уровняполностью отделена от внешней шины, через которую

происходит доступк памяти и внешним устройствам. 64-битовая

внешняя шинаможет работать со скоростью, равнойполовине, одной

третьей или однойчетвертой от скорости процессора, при этом шина

вторичного кэшаработает независимо на полной скорости.

Объединение процессора и вторичного кэша водном корпусе и

их связь через выделенную шину являетсяшагом по направлению к

методамповышения производительности, используемым в наиболее

мощныхRISC-процессорах. Так, в процессоре Alpha 21164 фирмы «Di-

gital" кэшвторого уровня размером 96 кб размещен в ядре процес-

сора, как и первичный кэш. Это обеспечивает оченьвысокую произ-

водительностькэша за счет увеличения числа транзисторов на крис-

талле до 9,3 миллиона. Производительность Alpha 21164 составляет

330 SPECint92 притактовой частоте 300 МГц. Производительность Р6

ниже (по оценкам«Intel» — 200 SPECint92 при тактовой частоте 133

МГц), однако Р6 обеспечивает лучшее соотношениестоимость/произ-

водительность длясвоего потенциального рынка.

При оценке соотношениястоимость/производительность следует

учитывать, что,хотя Р6 может оказаться дороже своих конкурентов,

большая частьдругих процессоров должна быть окружена дополни-

тельным наборомчипов памяти и контроллером кэша. Кроме того, для

достижениясравнимой производительности работы с кэшом, другие

процессоры должны будут использовать кэшбольшего, чем 256 кб

размера.

«Intel», как правило, предлагает многочисленные вариации

своихпроцессоров. Это делается с целью удовлетворить разнообраз-

ным требованиям проектировщиков систем и оставить меньше прост-

ранства длямоделей конкурентов. Поэтому можнопредположить, что

вскоре после начала выпуска Р6 появятся какмодификации с увели-

ченным объемомвторичной кэш-памяти, так и болеедешевые модифи-

кации с внешнимрасположением вторичного кэша, но при сохраненной

выделенной шинемежду вторичным кэшом и процессором.

2Pentium как точкаотсчета

Процессор Pentium со своей конвейерной исуперскалярной ар-

хитектурой достигвпечатляющего уровня производительности.

Pentium содержит два 5-стадийных конвейера, которые могут

работатьпараллельно и выполнять две целочисленные команды за ма-

шинный такт. При этом параллельно может выполнятьсятолько пара

команд, следующих в программе друг за другом иудовлетворяющих

определеннымправилам, например, отсутствие регистровых зависи-

мостей типа«запись после чтения».

В P6 для увеличения пропускной способностиосуществлен пере-

ход к одному 12-стадийномуконвейеру. Увеличение числа стадий

— 5 -

приводит куменьшению выполняемой на каждой стадии работы и, как

следствие, куменьшению времени нахождения команды на каждой ста-

дии на 33процента по сравнению с Pentium. Этоозначает, что ис-

пользование припроизводстве P6 той же технологии, что и при про-

изводстве 100 МГцPentium, приведет к получению P6 с тактовой

частотой 133 МГц.

Возможности суперскалярной архитектурыPentium, с ее способ-

ностью квыполнению двух команд за такт, было бы трудно превзойти

без совершеннонового подхода. Примененный в P6 новый подход уст-

раняет жесткуюзависимость между традиционными фазами «выборки» и

«выполнения», когда последовательность прохождениякоманд через

эти две фазысоответствует последовательности команд в программе.

Новый подходсвязан с использованием так называемого пула команд

и с новыми эффективными методами предвидения будущего поведения

программы. При этом традиционная фаза«выполнение» заменяется на

две:«диспетчирование/выполнение» и «откат». В результатекоманды

могут начинатьвыполняться в произвольном порядке, но завершают

свое выполнение всегда в соответствии с ихисходным порядком в

программе. Ядро P6 реализовано как три независимых устройства,

взаимодействующихчерез пул команд (рис. 1).

2Основная проблема на путиповышения

2производительности

Решение об организации P6 как трехнезависимых и взаимодейс-

твующих через пулкоманд устройств было принято после тщательного

анализафакторов, ограничивающихпроизводительность современных

микропроцессоров. Фундаментальный факт, справедливый дляPentium

и многих другихпроцессоров, состоит в том, что при выполнении

реальных программ мощность процессора неиспользуется в полной

мере. Рассмотримв качестве примера следующий фрагмент программы,

записанный нанекотором условном языке:

r1 < — mem[r0] /* Команда 1 */

r2 < — r1 + r2 /* Команда 2 */

r5 < — r5 + 1 /* Команда 3 */

r6 < — r6 — r3 /* Команда 4 */

Предположим, что при выполнении первойкоманды фрагмента -

загрузки изпамяти в регистр r1 — оказалось, что содержимое соот-

ветствующейячейки памяти отсутствует в кэше. При традиционном

подходе процессор перейдет к выполнению команды 2только после

того, как данныеиз ячейки mem[r0] основной памяти будут прочита-

ны черезинтерфейс шины. Все время ожидания процессор будет прос-

таивать.

В то время как скорость процессоров за последние 10 лет вы-

росла по меньшеймере в 10 раз, время доступа косновной памяти

уменьшилосьтолько на 60 процентов. Этоувеличивающееся отстава-

ние скоростиработы с памятью по отношению к скорости процессора

и было тойфундаментальной проблемой, которую пришлось решать при

проектированииP6.

Один из возможных подходов к решению этойпроблемы — перенос

— 6 -

ее центра тяжестина разработку высокопроизводительных компонен-

тов, окружающихпроцессор. Однако массовый выпуск систем, включа-

ющих ивысокопроизводительный процессор, ивысокоскоростные спе-

циализированныемикросхемы окружения, был бы слишкомдорогостоя-

щим.

Можно было попытаться решить проблему с использованием гру-

бой силы, а именно увеличить размер кэша второго уровня, чтобы

уменьшить процент случаев отсутствия необходимых данных в кэше.

Это решениеэффективное, но тоже чрезвычайнодорогостоящее, осо-

бенно учитывая сегодняшние скоростные требованияк компонентам

кэша второгоуровня. P6 проектировался с точки зрения эффективной

реализациицелостной вычислительной системы, и требовалось, чтобы

высокаяпроизводительность системы в целом достигалась с исполь-

зованием дешевойподсистемы памяти.

2Решение, принятое вP6

Решение сформулированной в предыдущемразделе проблемы памя-

ти, принятое в P6, заключается в обращении к пулукоманд, извле-

чении из негокоманд, следующих за командой, требующейобращения

к памяти, ивыполнения до момента завершения команды-тормоза мак-

симума полезнойработы. В приведенном в предыдущем разделе приме-

ре процессор неможет выполнить команду 2 до завершения команды

1, так как команда 2 зависит от результатов команды 1. В то же

время процессорможет выполнить команды 3 и 4, не зависящие от

результатавыполнения команды 1. Мы будем называть такое выполне-

ние командопережающим выполнением. Результатыопережающего вы-

полнения команд 3 и 4 не могут быть сразузаписаны в регистры,

поскольку мыдолжны изменять состояние вычислительной системы

только всоответствии с правильным порядком выполнения программы.

Эти результатыхранятся в пуле команд и извлекаются оттуда позд-

нее. Такимобразом, процессор выполняет команды всоответствии с

их готовностью квыполнению, вне зависимости от их первоначально-

го порядка впрограмме, то есть с точки зренияреального порядка

выполнения командP6 является машиной, управляемойпотоком дан-

ных. В то же время изменение состояниявычислительной системы,

например запись врегистры, производится в строгом соответствии с

истинным порядкомкоманд в программе.

Чтение из памяти данных, необходимых для команды 1, может

заниматьдостаточно много тактов. Тем временем P6 продолжает опе-

режающеевыполнение команд, следующих за командой1, и успевает

обработать, как правило, 20-30 команд. Среди этих 20-30команд

будет в среднемпять команд перехода, которыеустройство выбор-

ки/декодированиядолжно правильно предсказать для того, чтобы ра-

бота устройствадиспетчирования/выполнения не оказалась бесполез-

ной. Небольшое количество регистров в архитектуре процессоров

«Intel»приводит к интенсивному использованию каждого из них и,

как следствие, квозникновению множества мнимых зависимостей меж-

ду командами,использующими один и тот же регистр. Поэтому, чтобы

исключить задержкув выполнении команд из-за мнимых зависимостей,

устройстводиспетчирования/выполнения работает с дублями регист-

ров, находящимися в пуле команд (одному региструможет соответс-

— 7 -

твовать несколькодублей). Реальный набор регистров контролирует-

ся устройствомотката, и результаты выполнения командотражаются

на состояниивычислительной системы только после того, как выпол-

ненная командаудаляется из пула команд в соответствии с истинным

порядком команд впрограмме.

Таким образом, принятая в P6 технологиядинамического выпол-

нения может бытьописана как оптимальное выполнение программы ,

основанное напредсказании будущих переходов, анализе графа пото-

ков данных сцелью выбора наилучшего порядка исполнения команд и

на опережающемвыполнении команд в выбранном оптимальном порядке.

2Архитектура P6

На рисунке 2 приведена более подробнаяблок-схема P6, вклю-

чающая кэши иинтерфейс с основной памятью.

Далее мы будем понимать под «упорядоченным» устройство, ко-

торое работает всоответствии с исходным порядком команд в прог-

рамме, а под«беспорядочным» — устройство, которое не обращает

внимания наисходный порядок команд в программе.

Устройство выборки/декодирования является «упорядоченным»

устройством, которое воспринимает на входе поток команд изпрог-

раммы пользователя и декодирует их, превращая впоследователь-

ностьмикрокоманд, соответствующих потоку данных в программе

пользователя.

Устройство диспетчирования/выполненияявляется «беспорядоч-

ным" устройством, которое воспринимает поток данных и планирует

выполнениемикрокоманд с учетом зависимостей по данным и доступ-

ности ресурсов, атакже временно сохраняет результаты опережающе-

го выполнения впуле команд.

Устройство отката — «упорядоченное» устройство, которое зна-

ет, как и когда завершить выполнениекоманды, то есть перевести

временныерезультаты опережающего выполнения в постоянное состоя-

ниевычислительной системы.

Интерфейс шины является «частично упорядоченным» устройс-

твом, отвечающимза связь трех вышеупомянутых устройств с внешним

миром. Интерфейс шины взаимодействует непосредственно с кэшем

2-го уровня иподдерживает до 4 параллельных обращений к кэшу.

Интерфейс шины также управляет обменом данными с основной па-

мятью, которыйпроисходит с использованием протокола MESI [1].

2Устройствовыборки/декодирования

Структура этого устройства приведена на рисунке 3.

Команды из кэша команд могут быть быстровыбраны для после-

дующей обработки.Указатель на следующую команду — это индекс кэ-

ша команд, содержимое которого определяетсябуфером переходов,

состоянием процессораи сообщениями о неправильном предсказании

перехода,поступающими из устройства выполнения целых команд. Бу-

фер переходов с512 входами использует расширение алгоритма Йе

(Yeh), которое обеспечивает более чем 90-процентную точность

предсказанияпереходов.

Предположим, что ничего исключительного не происходит и что

— 8 -

буфер переходов всвоих предсказаниях оказался прав (в P6 предус-

мотрены эффективные действия в случае неправильногопредсказания

перехода).

Кэш команд выбирает строку кэша, соответствующую индексу в

указателе наследующую команду, и следующую за нейстроку, после

чего передает 16выровненных байтов декодеру. Две строки считыва-

ются из-затого, что команды в архитектуре Intel выровнены по

границе байта, ипоэтому может происходить передача управления на

середину иликонец строки кэша. Выполнение этой ступени конвейера

занимает тритакта, включая время, необходимое для вращения пред-

выбранных байтови их подачи на декодеры команд. Началои конец

командпомечаются.

Три параллельных декодера принимают потокотмеченных байтов

и обрабатывают их, отыскивая и декодируясодержащиеся в потоке

команды. Декодерпреобразует команды архитектуры Intel в микроко-

манды-триады (дваоперанда, один результат). Большинство команд

архитектуры Intelпреобразуются в одну микрокоманду, некоторые

требуют четырехмикрокоманд, а сложные команды требуютобращения

к микрокоду, представляющему из себя набор заранее составленных

последовательностеймикрокоманд. Некоторые команды, такназывае-

мыебайт-префиксы, модифицируют следующую заними команду, что

также усложняетработу декодера. Микрокоманды ставятся в очередь,

посылаются втаблицу псевдонимов регистров, гдессылки на логи-

ческие регистрыпреобразуются в ссылки на физические регистры P6,

после чего каждаяиз микрокоманд вместе с дополнительной информа-

цией о еесостоянии (статусе) посылается в пул команд. Пул команд

реализован в видемассива контекстно-адресуемой памяти, называе-

мого такжебуфером переупорядочивания.

В этой точке заканчивается«упорядоченная» часть конвейера.

2Устройстводиспетчирования/выполнения

Устройство диспетчирования выбирает микрокомандыиз пула ко-

манд взависимости от их статуса. Под статусоммы будем понимать

информацию одоступности операндов микрокоманды и наличии необхо-

димых для еевыполнения вычислительных ресурсов. Если статус мик-

рокомандыпоказывает, что ее операнды уже вычислены и доступны, а

необходимое для ее выполнения вычислительное устройство(ресурс)

такжедоступно, то устройство диспетчированиявыбирает микроко-

манду из пула команд и направляет ее на устройство для выполне-

ния. Результатывыполнения микрокоманды возвращаются в пул.

Взаимодействие с вычислительными ресурсами происходит через

пятипортовуюраспределительную станцию. Структура устройства дис-

петчирования/выполненияпоказана на рисунке 4.

P6 может запускать на выполнение до 5микрокоманд за такт,

по одной на каждый порт. Средняя длительноподдерживаемая про-

пускнаяспособность — 3 микрокоманды за такт. Процесс планирова-

ния выполнения микрокоманд являетсяпринципиально «беспорядоч-

ным": момент направления микрокоманд на вычислительные ресурсы

определяетсятолько потоками данных и доступностью ресурсов, без

какой бы то нибыло связи с первоначальным порядком команд в

программе.

— 9 -

Алгоритм, отвечающий за планированиевыполнения микрокоманд,

является крайневажным для производительности процессора в целом.

Если в каждомтакте для каждого ресурса готова к выполнению толь-

ко одна микрокоманда, то проблемы выбора не возникает. Но если

готовых к выполнениюна данном ресурсе микрокоманд несколько, то

какую из нихвыбрать? Можно доверить выборслучаю. Можно приме-

нить алгоритм«первый пришел — первый обслужен». Идеальным был бы

выбормикрокоманды, выполнение которой привело бы к максимальному

сокращению граф

еще рефераты

Еще работы по компьютерам и переферийным устройствам

Реферат по компьютерам и переферийным устройствам

Микропроцессор В1801ВМ1 архитектура и система команд

29 Августа 2013

Реферат по компьютерам и переферийным устройствам

Микропроцессор Z80 его структура и система команд

29 Августа 2013

Реферат по компьютерам и переферийным устройствам

Чего не может компьютер, или Труднорешаемые задачи

29 Августа 2013

Реферат по компьютерам и переферийным устройствам

Устройство ПЭВМ фирмы IBM. Периферийное оборудование. Назначение и история создания ПЭВМ

29 Августа 2013