Реферат: Суперкомпьютеры

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РФ

ЧИТИНСКИЙ ИНСТИТУТИРКУТСКОЙ ГОСУДАРСТВЕННОЙ

ЭКОНОМИЧЕСКОЙ АКАДЕМИИ

Факультет: Финансово-информационный

Кафедра: ВМ,ВТ и АСУ

Специальность:Прикладная информатика в экономике

Курсовая работа

По дисциплине:Вычислительные системы

Натему: Суперкомпьютеры

Выполнил:Любар А.Ю.

студент 2 курса гр. ПивЭ-99

Проверил: Пригляднов Б.И.

Чита2001

СОДЕРЖАНИЕ

1. ВВЕДЕНИЕ

2. СФЕРЫ ПРИМЕНЕНИЯ СУПЕРКОМПЬЮТЕРОВ

3. СУПЕРКОМПЬЮТЕРЫ В РОССИИ

4. СУПЕРКОМПЮЬТЕРЫ, КАК ЭТО?

5. ВСЕ НОВОЕ – ЭТО ХОРОШО ЗАБЫТОЕСТАРОЕ

6. АРХИТЕКТУРА СОВРЕМЕННЫХ СУПЕРЭВМ

7. ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ СУПЕРЭВМ

8. ЗАКЛЮЧЕНИЕ

9. ИСПОЛЬЗУЕМАЯ ЛИТЕРАТУРА

Введение

Диалектическаяспираль развития компьютерных технологий совершила свой очередной виток — опять, как и десять лет назад, в соответствии с требованиями жизни, в модувходят суперкомпьютерные архитектуры. Безусловно, это уже не те монстры,которые помнят ветераны — новые технологии и требовательный рынок коммерческихприменений существенно изменили облик современного суперкомпьютера, Теперь этоне огромные шкафы с уникальной аппаратурой, вокруг которой колдуют шаманы отинформатики, а вполне эргономичные системы с унифицированным программнымобеспечением, совместимые со своими младшими собратьями. Рассмотрим основныеобласти применения суперЭВМ и проанализируем особенности различных типовархитектур, характерных для современных суперкомпьютеров.

Чтотакое суперЭВМ? Оксфордский толковый словарь по вычислительной технике,изданный почти 10 лет назад, в 1986 году, сообщает, что суперкомпьютер — этоочень мощная ЭВМ с производительностью свыше 10 MFLOPS (миллионов операций сплавающей запятой в секунду). Сегодня этот результат перекрывают уже не толькорабочие станции, но даже, по крайней мере, по пиковой производительности, и ПК.В начале 90-х годов границу проводили уже около отметки в 300 MFLOPS.

Однакотакой подход к определению суперЭВМ не совсем корректен. Очевидно, что, современныйдвухпроцессорный компьютер Cray C90 любой здравомыслящий человек назоветсуперЭВМ. А тем не менее, его пиковая производительность меньше 2 GFLOPS. Сэтим вопросом тесно связаны и ограничения (ранее — КОКОМ, теперь — Госдепартамента США) на поставку высокопроизводительных средств вычислительнойтехники другим странам. Компьютеры с производительностью свыше 10 000 млн.теоретических операций в сек. (MTOPS), согласно определению ГосдепартаментаСША, считаются суперкомпьютерами.

Болеекорректно перечислить основные признаки, характеризующие суперЭВМ, средикоторых кроме высокой производительности следует отметить:

· самый современный технологическийуровень (например, GaAs-технология);

· специфические архитектурныерешения, направленные на повышение быстродействия (например, наличие операцийнад векторами);

· цена, обычно свыше 1-2 млн. долл.

Втелеконференции USENET по суперкомпьютерам в связи с быстрым прогрессом втехнологии RISC-микропроцессоров и соответствующим ростом их производительностибыл как-то задан вопрос: когда рабочая станция превратится в суперЭВМ? На чтопоследовал ответ: «Когда она будет стоить свыше 1 млн. долларов». Дляиллюстрации можно отметить, что компьютер Cray-1 в свое время стоил около 8млн. долларов, а анонсированные в этом году суперкомпьютеры Сгау Т90, имеющиенамного более высокую производительность, — от 2.5 до 35 млн. долл. Стоимостьсоздания суперкомпьютерной MPP-системы в проекте лаборатории SandiaМинистерства энергетики США составляет около 46 млн. долларов.

Вместе с тем, существуюткомпьютеры, имеющие все перечисленные выше характеристики суперЭВМ, заисключением цены, которая для них составляет от нескольких сотен до 2 млн.долларов. Речь идет о мини-суперЭВМ, обладающим высокой производительностью,уступающей, однако, большим суперЭВМ. При этом у минисуперкомпьютеров, какправило, заметно лучше соотношение цена/производительность и существенно нижеэксплуатационные расходы: система охлаждения, электропитания, требования кплощади помещения и др. Данные компьютеры ориентированы на менее крупныевычислительные центры — уровня факультета, а не всего университета иликорпорации. Примеры таких ЭВМ — Cray J90, Convex C38XX и, возможно, C4/XA. Кним можно отнести, также и современные суперкомпьютерные системы на базеRISC-микропроцессоров, например, IBM SP2, SGI POWER CHALLENGE, DEC AlphaServer8200/8400 и др.

Сточки зрения архитектуры минисуперкомпьютеры не представляют собой некотороеособенное направление, поэтому в дальнейшем они отдельно не рассматриваются.

Сферы применения суперкомпьютеров

Для какихприменений нужна столь дорогостоящая техника? Может показаться, что с ростомпроизводительности настольных ПК и рабочих станций, а также серверов, самапотребность в суперЭВМ будет снижаться. Это не так. С одной стороны, целый рядприложений может теперь успешно выполняться на рабочих станциях, но с другойстороны, время показало, что устойчивой тенденцией является появление все новыхприложений, для которых необходимо использовать суперЭВМ.

Преждевсего следует указать на процесс проникновения суперЭВМ в совершеннонедоступную для них ранее коммерческую сферу. Речь идет не только скажем, ографических приложениях для кино и телевидения, где требуется все та же высокаяпроизводительность на операциях с плавающей запятой, а прежде всего о задачах,предполагающих интенсивную (в том числе, и оперативную) обработку транзакцийдля сверхбольших БД. В этот класс задач можно отнести также системы поддержкипринятия решений и организация информационных складов. Конечно, можно сказать,что для работы с подобными приложениями в первую очередь необходимы высокаяпроизводительность ввода-вывода и быстродействие при выполнении целочисленныхопераций, а компьютерные системы, наиболее оптимальные для таких приложений,например, MPP-системы Himalaya компании Tandem, SMP-компьютеры SGI CHAL ENGE,AlphaServer 8400 от DEC — это не совсем суперЭВМ. Но следует вспомнить, чтотакие требования возникают, в частности, со стороны ряда приложений ядернойфизики, например, при обработке результатов экспериментов на ускорителяхэлементарных частиц. А ведь ядерная физика — классическая область применениясуперЭВМ со дня их возникновения.

Какбы то ни было, наметилась явная тенденция к сближению понятий«мэйнфрейм», «многопроцессорный сервер» и«суперЭВМ». Нелишне заметить, что это происходит на фоне начавшегосяво многих областях массированного перехода к централизации и укрупнению впротивоположность процессу разукрупненияи децентрализации.

Традиционнойсферой применения суперкомпьютеров всегда были научные исследования: физикаплазмы и статистическая механика, физика конденсированных сред, молекулярная иатомная физика, теория элементарных частиц, газовая динамика и теориятурбулентности, астрофизика. В химии — различные области вычислительной химии:квантовая химия (включая расчеты электронной структуры для целейконструирования новых материалов, например, катализаторов и сверхпроводников),молекулярная динамика, химическая кинетика, теория поверхностных явлений ихимия твердого тела, конструирование лекарств. Естественно, что ряд областейприменения находится на стыках соответствующих наук, например, химии ибиологии, и перекрывается с техническими приложениями. Так, задачиметеорологии, изучение атмосферных явлений и, в первую очередь, задачадолгосрочного прогноза погоды, для решения которой постоянно не хватаетмощностей современных суперЭВМ, тесно связаны с решением ряда перечисленныхвыше проблем физики. Среди технических проблем, для решения которыхиспользуются суперкомпьютеры, задачи аэрокосмической и автомобильнойпромышленности, ядерной энергетики, предсказания и разработки месторожденийполезных ископаемых, нефтедобывающей и газовой промышленности (в том числепроблемы эффективной эксплуатации месторождений, особенно трехмерные задачи ихисследования), и, наконец, конструирование новых микропроцессоров икомпьютеров, в первую очередь самих суперЭВМ.

Суперкомпьютерытрадиционно применяются для военных целей. Кроме очевидных задач разработкиоружия массового уничтожения и конструирования самолетов и ракет, можноупомянуть, например, конструирование бесшумных подводных лодок и др. Самыйзнаменитый пример — это американская программа СОИ. Уже упоминавшийсяMPP-компьютер Министерства энергетики США будет применяться для моделированияядерного оружия, что позволит вообще отменить ядерные испытания в этой стране.

Анализируяпотенциальные потребности в суперЭВМ существующих сегодня приложений, можноусловно разбить их на два класса. К первому можно отнести приложения, в которыхизвестно, какой уровень производительности надо достигнуть в каждом конкретномслучае, например, долгосрочный прогноз погоды. Ко второму можно отнести задачи,для которых характерен быстрый рост вычислительных затрат с увеличением размераисследуемого объекта. Например, в квантовой химии неэмпирические расчетыэлектронной структуры молекул требуют затрат вычислительных ресурсов,пропорциональных N^4 или N^5, где N условно характеризует размер молекулы.Сейчас многие молекулярные системы вынужденно исследуются в упрощенноммодельном представлении. Имея в резерве еще более крупные молекулярныеобразования (биологические системы, кластеры и т.д.), квантовая химия даетпример приложения, являющегося «потенциально бесконечным»пользователем суперкомпьютерных ресурсов.

Есть еще одна проблемаприменения суперЭВМ, о которой необходимо сказать — это визуализация данных,полученных в результате выполнения расчетов. Часто, например, при решениидифференциальных уравнений методом сеток, приходится сталкиваться с гигантскимиобъемами результатов, которые в числовой форме человек просто не в состоянииобработать. Здесь во многих случаях необходимо обратиться к графической формепредставления информации. В любом случае возникает задача транспортировкиинформации по компьютерной сети. Решению этого комплекса проблем в последнеевремя уделяется все большее внимание. В частности, знаменитый Национальныйцентр суперкомпьютерных приложений США (NCSA) совместно с компанией SiliconGraphics ведет работы по программе «суперкомпьютерного окружениябудущего». В этом проекте предполагается интегрировать возможностисуперкомпьютеров POWER CHALLENGE и средств визуализации компании SGI сосредствами информационной супермагистрали.

Суперкомпьютерыв России

СуперЭВМявляются национальным достоянием, и их разработка и производство несомненнодолжны быть одним из приоритетов государственной технической политики стран,являющихся мировыми лидерами в области науки и техники. Блестящим примеромглубокого понимания всего комплекса соответствующих проблем является статьяизвестного нобелевского лауреата в области физики К. Вильсона. Опубликованнаясвыше десять лет назад, она и сейчас представляет интерес для российскогочитателя.

Практическиединственными странами, разрабатывающими и производящими суперЭВМ в большихмасштабах, являются США и Япония. Свои суперкомпьютеры были созданы в Индии иКитае. Большинство развитых стран, в том числе и ряд государств ВосточнойЕвропы, предпочитают использовать суперкомпьютеры, произведенные в США иЯпонии.

Положениес разработками суперкомпьютеров в России, очевидно, оставляет сегодня желатьлучшего. Работы над отечественными суперЭВМ в последние годы велись сразу внескольких организациях. Под управлением академика В.А.Мельникова быларазработана векторная суперЭВМ «Электроника CC-100» с архитектурой, напоминающейСгау-1. В ИТМиВТ РАН проводятся работы по созданию суперкомпьютеров«Эльбрус-3». Этот компьютер может иметь до 16 процессоров с тактовойчастотой 10 нс. По оценкам разработчиков, на тестах LINPACK при N = 100быстродействие процессора составит 200 MFL0PS, при N = 1000 — 370 MFLOPS.Другая разработка, выполненная в этом институте, — Модульный КонвейерныйПроцессор (МКП), в котором используется оригинальная векторная архитектура,однако по быстродействию он, вероятно, должен уступать «Эльбрус-3».

Другимцентром работ над отечественными суперкомпьютерами является известный своимиработами по ЕС ЭВМ НИЦЭВТ. Там был выполнен ряд интересных разработок — различные модели векторных суперЭВМ ЕС 1191 на ECL-технологии и идут работы надновым суперкомпьютером «АМУР», в котором используетсяКМОП-технология. Ряд организаций во главе с ИПМ РАН ведут работы по созданиюMPP-компьютера МВС-100, в процессорных элементах которого используютсямикропроцессоры i860XP, а для организации коммуникаций применяются транспьютерыТ805. Хотя в наличии имеются опытные образцы некоторых из вышеупомянутыхотечественных компьютеров, ни один из них промышленно не производится.

Положениес оснащенностью российских организаций суперкомпьютерами, пожалуй, еще хуже. Мыограничимся информацией о состоянии дел и перспективах на будущее висследовательских институтах и вузах, которые, как было сказано выше, являютсяодними из основных потенциальных пользователей суперЭВМ.

Вбольшинстве инсталляций суперкомпьютеров используется вероятно, продукция фирмыConvex. В нескольких организациях эксплуатируются старые моделиминисуперкомпьютеров серий Clxx, С2хх, которые по производительности ужеуступают современным рабочим станциям. В Санкт-Петербурге в системе Госкомвузаинсталлирована минисуперЭВМ Convex серии С3800, в Москве в ИПМ РАН недавноустановлена суперкомпьютерная система SPP 1000/CD. Имеются планы инсталляции идругих суперкомпьютеров (например, SGI POWER CHALLENGE) в ряде институтов РАН.

Междутем отсутствие возможностей применения суперЭВМ сдерживает развитиеотечественной науки и делает принципиально невозможным успешное развитие целыхнаправлений научных исследований. Приобретение одногодвух, даже очень мощных,суперкомпьютеров не поможет решить данную проблему. И дело не только в стоимостиих приобретения и затрат на поддержание работоспособности (включаяэлектропитание и охлаждение). Существует еще целый ряд причин (например,доставка информации по компьютерной сети), препятствующих эффективномуиспользованию суперЭВМ.

Болеецелесообразным представляется подход, предложенный российским Фондомфундаментальных исследований. Разработанная «Программа созданиякомплексных сетей связи и баз данных фундаментальной науки и образования»на 1995-1998 гг. предусматривает организацию целого ряда региональных ипредметно-ориентированных суперкомпьютерных центров. В таких центрах могут бытьинсталлированы, например, относительно дешевые минисуперкомпьютеры, имеющиелучшее отношение стоимость/производительность. Собственно говоря, достаточнотолько обратиться к списку ТОР500, чтобы обнаружить явную тенденцию квытеснению больших (и дорогих) суперЭВМ относительно недорогимисуперкомпьютерами, которым уже сейчас под силу решение львиной долипотенциальных задач.

Чтокасается отечественных суперЭВМ, то без необходимой государственной поддержкипроектов по их разработке не приходиться рассчитывать на создание промышленныхобразцов в ближайшие 1-2 года, и вряд ли такие компьютеры смогут составитьоснову парка суперЭВМ в создающихся сегодня отечественных суперкомпьютерныхцентрах.

Суперкомпьютеры — как это?

Ну что, похожесуперкомпьютеры и в самом деле имеют право на существование. Теперь нужнопрояснить, по всей видимости, основной вертящийся на языке вопрос — почему онисчитают так быстро? Вариантов ответа может быть несколько, среди которых дваимеют явное преимущество: развитие элементной базы и использование новыхрешений в архитектуре компьютеров.

Попробуем разобраться, какой из факторов являетсярешающим в достижении современных фантастических показателейпроизводительности. Для разрешения этого вопроса обратимся к историческимфактам. Известно, что на компьютере EDSAC (1949 г.), имевшего время такта 2мкс,можно было выполнить 2*n арифметических операций за 18*n мс, то есть в среднем100 арифметических операций в секунду. Сравним с современным суперкомпьютеромCRAY C90: время такта приблизительно 4нс, а пиковая производительность около 1миллиарда арифметических операций в секунду.

Что же получается? Производительность компьютеров заэтот период выросла в приблизительно в десять миллионов раз. Уменьшение временитакта является прямым способом увеличением производительности, однако этасоставляющая (с 2мкс до 4нс) в общем объеме дает вклад лишь в 500 раз. Откудаже взялось остальное? Ответ очевиден — использование новых решений вархитектуре компьютеров, среди которых основное место занимает принциппараллельной обработки данных.

Данный принцип, воплощая идеюодновременного выполнения нескольких действий, имеет две разновидности:конвейерность и собственно параллельность. Оба вида параллельной обработкиинтуитивно понятны, поэтому сделаем лишь небольшие пояснения.

Параллельная обработка. Если некое устройство выполняет одну операцию заединицу времени, то тысячу операций оно выполнит за тысячу единиц. Еслипредположить, что есть пять таких же независимых устройств, способных работатьодновременно, то ту же тысячу операций система из пяти устройств можетвыполнить уже не за тысячу, а за двести единиц времени. Аналогично система из Nустройств ту же работу выполнит за 1000/N единиц времени. Подобные аналогииможно найти и в жизни: если один солдат вскопает огород за 10 часов, то ротасолдат из пятидесяти человек с такими же способностями, работая одновременно,справятся с той же работой за 12 минут — принцип параллельности в действии!

Конвейерная обработка. Что необходимо для сложения двух вещественных чисел,представленных в форме с плавающей запятой? Целое множество мелких операцийтаких, как сравнение порядков, выравнивание порядков, сложение мантисс, нормализацияи т.п. Процессоры первых компьютеров выполняли все эти«микрооперации» для каждой пары аргументов последовательно одна заодной до тех пор, пока не доходили до окончательного результата, и лишь послеэтого переходили к обработке следующей пары слагаемых.

Идея конвейерной обработки заключается в выделенииотдельных этапов выполнения общей операции, причем каждый этап, выполнив своюработу, передавал бы результат следующему, одновременно принимая новую порциювходных данных. Получаем очевидный выигрыш в скорости обработки за счетсовмещения прежде разнесенных во времени операций. Предположим, что в операцииможно выделить пять микроопераций, каждая из которых выполняется за однуединицу времени. Если есть одно неделимое последовательное устройство, то 100пар аргументов оно обработает за 500 единиц. Если каждую микрооперацию выделитьв отдельный этап (или иначе говорят — ступень) конвейерного устройства, то напятой единице времени на разной стадии обработки такого устройства будутнаходится первые пять пар аргументов, а весь набор из ста пар будет обработанза 5+99=104 единицы времени — ускорение по сравнению с последовательнымустройством почти в пять раз (по числу ступеней конвейера).

Казалось бы конвейерную обработкуможно с успехом заменить обычным параллелизмом, для чего продублироватьосновное устройство столько раз, сколько ступеней конвейера предполагаетсявыделить. В самом деле, пять устройств предыдущего примера обработают 100 параргументов за 100 единиц времени, что быстрее времени работы конвейерногоустройства! В чем же дело? Ответ прост, увеличив в пять раз число устройств, мызначительно увеличиваем как объем аппаратуры, так и ее стоимость. Представьтесебе, что на автозаводе решили убрать конвейер, сохранив темпы выпускаавтомобилей. Если раньше на конвейере одновременно находилась тысячаавтомобилей, то действуя по аналогии с предыдущим примером надо набрать тысячубригад, каждая из которых (1) в состоянии полностью собрать автомобиль отначала до конца, выполнив сотни разного рода операций, и (2) сделать это за тоже время, что машина прежде находилась на конвейере. Сегодня параллелизмом вархитектуре компьютеров уже мало кого удивишь. Все современные микропроцессоры,будь то Pentium II или PA-8200, MIPS R10000 или Power2 SuperChip используют тотили иной вид параллельной обработки. На презентациях новых чипов и впресс-релизах корпораций это преподносится как последнее слово техники ипередовой край науки, и это действительно так, если рассматривать реализациюэтих принципов именно в рамках одного кристалла.

Вместе с тем, сами эти идеи появились очень давно.Изначально они внедрялись в самых передовых, а потому единичных, компьютерахсвоего времени. Затем после должной отработки технологии и удешевленияпроизводства они спускались в компьютеры среднего класса, и, наконец, сегоднявсе это в полном объеме воплощается в рабочих станциях и персональныхкомпьютерах.

Все новое — это хорошо забытое старое.

Для того чтобы убедиться, что все основные нововведения вархитектуре современных процессоров на самом деле использовались еще со времен,когда ни микропроцессоров, ни понятия суперкомпьютеров еще не было, совершиммаленький экскурс в историю, начав практически с момента рождения первых ЭВМ.

Все самые первые компьютеры, например, EDSAC, EDVAC, UNIVAC,сначала считывали данные последовательно бит за битом из памяти, а затем иханалогично обрабатывали в арифметическом устройстве.

1953 г.Первым коммерчески доступным компьютером, использующим разрядно-параллельнуюпамять (на CRT) и разрядно-параллельную арифметику, стал компьютер IBM 701. Кслову будет сказано, наибольшую популярность в то время получила модель IBM 704(1955 г.), проданной в количестве 150 экземпляров (!), в которой, помимоупомянутых особенностей, была впервые применена память на ферритовыхсердечниках и аппаратное арифметическое устройство с плавающей точкой.

1958г.Процессоры первых компьютеров сами управляли вводом/выводом. Однако скоростьработы самого быстрого внешнего устройства, а по тем временам это магнитнаялента, была в 1000 раз меньше скорости процессора, поэтому во время операцийввода/вывода процессор фактически простаивал. В 1958г. к компьютеру IBM 704присоединили 6 независимых процессоров ввода/вывода, которые после получениякоманд могли работать параллельно с основным процессором, а сам компьютерпереименовали в IBM 709. Данная модель получилась удивительно удачной, так каквместе с модификациями было продано около 400 экземпляров, причем последний былвыключен в 1975 году — 20 лет существования!

1961г.Создается компьютер IBM STRETCH, имеющий две принципиально важные особенности:опережающий просмотр вперед для выборки команд и расслоение памяти на два банкадля согласования низкой скорости выборки из памяти и скорости выполненияопераций.

1963г. ВМанчестерском университете разработан компьютер ATLAS, использующий конвейерныйпринцип выполнения команд. Выполнение команд разбито на 4 стадии: выборкакоманды, вычисление адреса операнда, выборка операнда и выполнение операции,позволившие уменьшить время выполнения команд в среднем с 6 мкс до 1,6 мкс.Справедливости ради надо отметить, что данный компьютер вообще оставил заметныйслед в истории развития вычислительной техники: помимо сказанного, в немвпервые была использована мультипрограммная операционная система, основанная наиспользовании виртуальной памяти и системы прерываний.

1964г. ФирмаControl Data Corporation (CDC) при непосредственном участии одного из ееоснователей, Сеймура Р.Крэя (Seymour R.Cray) выпускает компьютер CDC-6600 — первый компьютер, в котором использовалось несколько независимых функциональныхустройств. Для сравнения с сегодняшним днем приведем некоторые параметрыкомпьютера: время такта 100нс, производительность 2-3 млн. операций в секунду,оперативная память разбита на 32 банка по 4096 60-ти разрядных слов, циклпамяти 1мкс, 10 независимых функциональных устройств. Машина имела громадныйуспех на научном рынке, активно вытесняя машины фирмы IBM.

1969г. CDC выпускаеткомпьютер CDC-7600 с восемью независимыми конвейерными функциональными устройствами- сочетание параллельной и конвейерной обработки.

Матричныесуперкомпьютеры

В1967 г. группа Слотника, объединеннаяв Центр передовых вычислительных технологий (Center of Advanced Computation)при Иллинойском университете, приступила к практической реализации проектавекторной суперЭВМ с матричной структурой ILLIAC IV. Работы финансировалисьМинистерством обороны США, а изготовление машины взяла на себя фирма BurroughsCorp. Техническая сторона проекта до сих пор поражает своей масштабностью: системадолжна была состоять из четырех квадрантов, каждый из которых включал в себя 64процессорных элемента (ПЭ) и 64 модуля памяти, объединенных коммутатором набазе сети типа гиперкуб. Все ПЭ квадранта обрабатывают векторную инструкцию,которую им направляет процессор команд, причем каждый выполняет однуэлементарную операцию вектора, данные для которой сохраняются в связанном сэтим ПЭ модуле памяти. Таким образом, один квадрант ILLIAC IV способенодновременно обработать 64 элемента вектора, а вся система из четырехквадрантов — 256 элементов.

В1972 г., после преодолениязначительных проблем, связанных с практической реализацией проекта нааппаратном и программном уровнях, первая система ILLIAC IV была установлена висследовательском центре NASA в Эймсе. Результаты ее эксплуатации в этойорганизации получили неоднозначную оценку. С одной стороны, использованиесуперкомпьютера позволило решить ряд сложнейших задач аэродинамики, с которымине могли справиться другие ЭВМ. Даже самая скоростная ЭВМ для научных исследованийтого времени — Control Data CDC 7600, которую, к слову сказать, проектировал«патриарх суперЭВМ» Сеймур Крей (S.Cray), могла обеспечитьпроизводительность не более 5 млн. операций с плавающей точкой в секунду(MFLOPS), тогда как ILLIAC IV демонстрировала среднюю производительностьпримерно в 20 MFLOPS.

Сдругой стороны, ILLIAC IV так и не была доведена до полной конфигурации из 256ПЭ; практически разработчики ограничились лишь одним квадрантом. Причинамиявились не столько технические сложности в наращивании числа процессорныхэлементов системы, сколько проблемы, связанные с программированием обменаданными между процессорными элементами через коммутатор модулей памяти. Всепопытки решить эту задачу с помощью системного программного обеспечения потерпелинеудачу, в результате каждое приложение требовало ручного программированияпередач коммутатора, что и породило неудовлетворительные отзывы пользователей.

Еслибы разработчикам ILLIAC IV удалось преодолеть проблемы программирования матрицыпроцессорных элементов, то, вероятно, развитие вычислительной техники пошло бысовершенно другим путем и сегодня доминировали бы компьютеры с матричнойархитектурой.

Однакони в 60-х годах, ни позднее удовлетворительное и универсальное решение двухтаких принципиальных проблем, как программирование параллельной работынескольких сотен процессоров и при этом обеспечение минимума затрат счетноговремени на обмен данными между ними, так и не было найдено. Выдвинув пионерскуюзадачу создания компьютера сверхвысокой производительности, разработчики ILLIACIV первыми же оказались не в состоянии ответить на эти два принципиальныхвопроса. Потребовалось еще примерно 15 лет усилий различных фирм по реализациисуперЭВМ с матричной архитектурой, чтобы поставить окончательный диагноз:компьютеры данного типа не в состоянии удовлетворить широкий круг пользователейи имеют весьма ограниченную область применения, часто в рамках одного илинескольких видов задач (например, в системах обработки изображений, как ЭВМSTARAN фирмы Goodyear Aerospace). «Лебединой песней» матричныхсуперЭВМ стал компьютер BSP производства Burroughs, который проектировался какальтернатива векторно-конвейерным суперЭВМ фирмы Cray Research, но так и неувидел свет из-за очевидной неконкурентоспособности системы. Конечно, было быбольшой ошибкой утверждать, что развитие суперЭВМ с матричной архитектурой недало никаких положительных результатов. Во-первых, удалось доказать возможностьпрактической реализации параллельной сверхскоростной обработки. Во-вторых, наволне интереса к матричным структурам была сформулирована достаточно стройнаятеоретическая база для построения коммутационных сетей, объединяющих множествопроцессорных элементов. В-третьих, в прикладной математике сформировалосьсамостоятельное направление по параллельным вычислениям. По мере освоениясредств сверхскоростной обработки данных разрыв между совершенствованиемметодов векторизации программ, т.е. автоматического преобразования в процессекомпиляции последовательных языковых конструкций в векторную форму, ичрезвычайной сложностью программирования коммутации и распределения данныхмежду процессорными элементами привел к достаточно жесткой реакциипользователей в отношении матричных суперЭВМ — широкому кругу программистовтребовалась более простая и «прозрачная» архитектура векторнойобработки с возможностью использования стандартных языков высокого уровня типаFORTRAN. Решение было найдено в конце 60-х годов, когда фирма Control Data, скоторой в то время сотрудничал Крей, представила машину STAR-100, основанную навекторно-конвейерном принципе обработки данных. Отличие векторно-конвейернойтехнологии от архитектуры матричных ЭВМ заключается в том, что вместо множествапроцессорных элементов, выполняющих одну и ту же команду над разными элементамивектора, применяется единственный конвейер операций, принцип действия которогополностью соответствует классическому конвейеру автомобильных заводов Форда.Если в матричном компьютере процессорные элементы можно представить как группурабочих- универсалов, каждый из которых собирает автомобиль от шасси до обивкисалона, то векторно-конвейерная обработка ассоциируется с бригадой узкихспециалистов, один из которых умеет привинчивать колеса, другой — устанавливатьдвигатель, третий — монтировать корпус, и т.д. Подобно автомобильному конвейеруФорда, векторно-конвейерная обработка способна обеспечить высокий темп выходаготовой продукции — результатов выполняемых операций, если каждый из«рабочих» (т. е. аппаратных блоков конвейера операций) выполняетпорученную ему фазу команды с максимальной скоростью. Даже такая архаичная посовременным понятиям суперЭВМ, как STAR- 100, показала предельнуюпроизводительность на уровне 50 MFLOPS, что недоступно для большинствасовременных мэйнфреймов. При этом существенно, что векторно-конвейерныесуперЭВМ значительно дешевле своих матричных «родственников». Кпримеру, разработка и производство ILLIAC IV обошлись в 40 млн. долл. прирасходах на эксплуатацию порядка 2 млн. долл. в год, тогда как рыночнаястоимость первых суперкомпьютеров фирм CRAY и Control Data находилась впределах 10 — 15 млн. долл., в зависимости от объема памяти, составапериферийных устройств и других особенностей конфигурации системы.

Второйсущественной особенностью векторно-конвейерной архитектуры является то, чтоконвейер операций имеет всего один вход, по которому поступают операнды, и одинвыход результата, тогда как в матричных системах существует множество входов поданным в процессорные элементы и множество выходов из них. Другими словами, вкомпьютерах с конвейерной обработкой данные всех параллельно исполняемыхопераций выбираются и записываются в единую память, в связи с чем отпадаетнеобходимость в коммутаторе процессорных элементов, ставшем камнем преткновенияпри проектировании матричных суперЭВМ.

В 1972 годуС.Крэй покидает CDC и основывает свою компанию Cray Research, которая в 1976г.выпускает первый векторно-конвейерный компьютер CRAY-1: время такта 12.5нс, 12конвейерных функциональных устройств, пиковая производительность 160 миллионовопераций в секунду, оперативная память до 1Мслова (слово — 64 разряда), циклпамяти 50нс. Главным новшеством является введение векторных команд, работающихс целыми массивами независимых данных и позволяющих эффективно использоватьконвейерные функциональные устройства.

На этом означенный экскурс в историю можно смелозакончить, поскольку роль параллелизма и его влияние на развитие архитектурыкомпьютеров уже очевидна.

Архитектура современных суперЭВМ

Рассмотримтипичные архитектуры суперЭВМ, широко распространенных сегодня, и приведемклассическую систематику Флинна.

Всоответствии с ней, все компьютеры делятся на четыре класса в зависимости отчисла потоков команд и данных. К первому классу (последовательные компьютерыфон Неймана) принадлежат обычные скалярные однопроцессорные системы: одиночныйпоток команд — одиночный поток данных (SISD). Персональный компьютер имеетархитектуру SISD, причем не важно, используются ли в ПК конвейеры для ускорениявыполнения операций.

Второйкласс характеризуется наличием одиночного потока команд, но множественногоnomoka данных (SIMD). К этому архитектурному классу принадлежатоднопроцессорные векторные или, точнее говоря, векторно-конвейерныесуперкомпьютеры, например, Cray-1. В этом случае мы имеем дело с одним потоком(векторных) команд, а потоков данных — много: каждый элемент вектора входит вотдельный поток данных. К этому же классу вычислительных систем относятсяматричные процессоры, например, знаменитый в свое время ILLIAC-IV. Они такжеимеют векторные команды и реализуют векторную обработку, но не посредствомконвейеров, как в векторных суперкомпьютерах, а с помощью матриц процессоров.

Ктретьему классу — MIMD — относятся системы, имеющие множественный поток команди множественный поток данных. К нему принадлежат не только многопроцессорныевекторные суперЭВМ, но и вообще все многопроцессорные компьютеры. Подавляющеебольшинство современных суперЭВМ имеют архитектуру MIMD.

Четвертыйкласс в систематике Флинна, MISD, не представляет практического интереса, покрайней мере для анализируемых нами компьютеров. В последнее время в литературечасто используется также термин SPMD (одна программа — множественные данные).Он относится не к архитектуре компьютеров, а к модели распараллеливанияпрограмм и не является расширением систематики Флинна. SPMD обычно относится кMPP (т.е. MIMD) — системам и означает, что несколько копий одной программыпараллельно выполняются в разных процессорных узлах с разными данными.

Интереснотакже упомянуть о принципиально ином направлении в развитии компьютерныхархитектур — машинах потоков данных. В середине 80-х годов многие исследователиполагали, что будущее высокопроизводительных ЭВМ связано именно с компьютерами,управляемыми потоками данных, в отличие от всех рассмотренных нами классов вычислительныхсистем, управляемых потоками команд. В машинах потоков данных могутодновременно выполняться сразу много команд, для которых готовы операнды. ХотяЭВМ с такой архитектурой сегодня промышленно не выпускаются, некоторые элементыэтого подхода нашли свое отражение в современных суперскалярныхмикропроцессорах, имеющих много параллельно работающих функциональных устройстви буфер команд, ожидающих готовности операндов. В качестве примеров такихмикропроцессоров можно привести HP РА-8000 и Intel Pentium Pro.

Всоответствии с классификацией Флинна, рассмотрение архитектуры суперЭВМследовало бы начать с класса SISD. Однако все векторно-конвейерные (вдальнейшем — просто векторные) суперЭВМ имеют архитектуру «не меньше»SIMD. Что касается суперкомпьютерных серверов, использующих современныевысокопроизводительные микропроцессоры, таких как SGI POWER CHALLENGE на базеR8000 или DEC AlphaServer 8200/8400 на базе Alpha 21164, то их минимальныеконфигурации бывают однопроцессорными. Однако, если не рассматривать собственноархитектуру этих микропроцессоров, то все особенности архитектуры собственносерверов следует анализировать в «естественной» мультипроцессорнойконфигурации. Поэтому начнем анализ суперкомпьютерных архитектур сразу с классаSIMD.

Векторные суперкомпьютеры[SIMD]

Средисовременных суперЭВМ эту архитектуру имеют однопроцессорные векторныесуперкомпьютеры. Практически все они выпускаются также в мультипроцессорныхконфигурациях, относящихся к классу MIMD. Однако многие особенности архитектурывекторных суперЭВМ можно понять, рассматривая даже однопроцессорные системы.

Типичнаясхема однопроцессорного векторного суперкомпьютера представлена на примереFACOM VP-200 японской фирмы Fujitsu. Похожую архитектуру имеют и другиевекторные суперкомпьютеры, например, фирм Cray Research и Convex. Общим длявсех векторных суперкомпьютеров является наличие в системе команд векторныхопераций, например, сложение векторов, допускающих работу с векторамиопределенной длины, допустим, 64 элемента по 8 байт. В таких компьютерахоперации с векторами обычно выполняются над векторными регистрами, что, однако,совсем не является обязательным. Наличие регистров маски позволяет выполнятьвекторные команды не над всеми элементами векторов, а только над теми, на которыеуказывает маска.

Конечно,в конкретных реализациях векторной архитектуры в различных суперкомпьютерахимеются свои модификации этой общей схемы. Так, например, в вычислительныхсистемах серии VP компании Fujitsu аппаратно реализована поддержка возможностиреконфигурации файла векторных регистров — можно, например, увеличить длинувекторных регистров с одновременным пропорциональным уменьшением их числа.

Современ Cray-1 многие векторные суперкомпьютеры, в том числе ЭВМ серии VP отFujitsu и серии S компании Hitachi, имеют важное средство ускорения векторныхвычислений, называемое зацепление команд. Рассмотрим, например, следующуюпоследовательность команд, работающих с векторными V-регистрами в компьютерахCray:

V2=V0*V1

V4=V2+V3

Ясно,что вторая команда не может начать выполняться сразу вслед за первой — дляэтого первая команда должна сформировать регистр V2, что требует определенногоколичества тактов. Средство зацепления позволяет, тем не менее, второй команденачать выполнение, не дожидаясь полного завершения первой: одновременно споявлением первого результата в регистре V2 его копия направляется вфункциональное устройство сложения, и запускается вторая команда. Разумеется,детали возможностей зацепления разных векторных команд отличаются у разных ЭВМ.

Чтокасается скалярной обработки, то соответствующая подсистема команд в японскихсуперкомпьютерах Fujitsu и Hitachi совместима с IBM/370, что имеет очевидныепреимущества. При этом для буферизации скалярных данных используетсятрадиционная кэш-память. Напротив, компания Cray Research, начиная с Сгау-1,отказалась от применения кэш-памяти. Вместо этого в ее компьютерах используютсяспециальные программно-адресуемые буферные В- и Т-регистры. И лишь в последнейсерии, Cray T90, была введена промежуточная кэш-память для скалярных операций.Отметим, что на тракте оперативная память — векторные регистры промежуточнаябуферная память отсутствует, что вызывает необходимость иметь высокуюпропускную способность подсистемы оперативной памяти: чтобы поддерживать высокуюскорость вычислений, необходимо быстро загружать данные в векторные регистры изаписывать результаты обратно в память.

Досих пор мы рассматривали векторные ЭВМ, в которых операнды соответствующихкоманд располагаются в векторных регистрах. Кроме упоминавшихся компьютеровFujitsu и Hitachi, векторные регистры имеют компьютеры серии SX другой японскойфирмы NEC, в том числе наиболее мощные ЭВМ серии SX-4, а также все векторныекомпьютеры как от Cray Research, включая C90, М90 и Т90, так и от Cray Computer,включая Cray-3 и Cray-4, и векторные минисуперЭВМ фирмы Convex серий Cl, С2, С3и C4/XA.

Нонекоторые векторные суперЭВМ, например, IBM ES/9000, работают соперандами-векторами, расположенными непосредственно в оперативной памяти.Скорее всего, такой подход является менее перспективным с точки зренияпроизводительности, в частности, потому, что для поддержания высокого темпавычислений для каждой векторной команды требуется быстрая выборка векторныхоперандов из памяти и запись результатов обратно.

Многопроцессорныевекторные суперкомпьютеры (MIMD)

Всеупомянутые векторные суперкомпьютеры выпускаются в многопроцессорныхконфигурациях, которые относятся уже к классу MIMD.

В архитектуремногопроцессорных векторных компьютеров можно отметить две важнейшие характеристики:симметричность (равноправность) всех процессоров системы и разделение всемипроцессорами общего поля оперативной памяти. Подобные компьютерные системыназываются сильно связанными. Если в однопроцессорных векторных ЭВМ длясоздания эффективной программы ее надо векторизовать, то в многопроцессорныхпоявляется задача распараллеливания программы для ее выполнения одновременно нанескольких процессорах.

Задачараспараллеливания является, пожалуй, более сложной, поскольку в ней необходимоорганизовать синхронизацию параллельно выполняющихся процессов. Практикапоказала возможности эффективного распараллеливания большого числа алгоритмовдля рассматриваемых сильно связанных систем. Соответствующий подход краспараллеливанию на таких компьютерах называется иногда моделью разделяемойобщей памяти.

МногопроцессорныеSMP-серверы на базе микропроцессоров RISC-архитектуры [MIMD]

Производительностьнекоторых современных микропроцессоров RISC-архитектуры стала сопоставимой спроизводительностью процессоров векторных компьютеров. Как следствие этого,появились использующие эти достижения суперЭВМ новой архитектуры, — сильносвязанные компьютеры класса MIMD, представляющие собой симметричныемногопроцессорные серверы с общим полем оперативной памяти. Этим перспективнымсистемам имеет смысл уделить больше внимания, чем другим компьютернымархитектурам, поскольку соответствующий крут вопросов в отечественнойкомпьютерной литературе обсуждался недостаточно полно.

Наиболееизвестные суперкомпьютерные серверы, имеющие подобную SMP-архитектуру — DEC AlphaServer 8200/8400 и SGIPOWER CHALLENGE. Для них характерноприменение высокопроизводительной системной шины, в слоты которой вставляютсямодули трех типов — процессорные, оперативной памяти и ввода-вывода. Обычные, болеемедленные шины ввода-вывода, например, PCI или VME64, подсоединяются уже кмодулям ввода-вывода. Очевидно, что подобная конструкция обладает высокойстепенью модульности и легко позволяет производить наращивание конфигурации,которое ограничивается только доступным числом слотов системной шины и еепроизводительностью.

Вмодулях памяти обычно используется технология DRAM, что позволяет достигнутьбольших объемов памяти при относительно низкой цене. Однако скорость обменаданными между процессорами и памятью в таких серверах во много раз ниже, чемпропускная способность аналогичного тракта в векторных суперЭВМ, гдеоперативная память строится на более дорогой технологии ЯВАМ. В этом состоитодно из основных отличий в подходах к суперкомпьютерным вычислениям,применяемым для многопроцессорных векторных ЭВМ и SMP-серверов. В первых обычноимеется относительно небольшое число векторных регистров, поэтому, как ужеотмечалось, для поддержания высокой производительности необходимо быстрозагружать в них данные или, наоборот, записывать из них информацию воперативную память. Таким образом, требуется высокая производительность трактапроцессор-память.

ВSMP-серверах пропускная способность модулей памяти гораздо ниже, а общаяскорость обмена данными с процессорными модулями ограничивается также (хотя ивысокой) пропускной способностью шины. К тому же системная шина может бытьзанята передачей данных за счет работы модулей ввода-вывода. Для иллюстрациипорядков величин можно привести следующие данные: гарантированная пропускнаяспособность системной шины TurboLaser в AlphaServer 8200/8400 составляет 1.6Гбайт/с и 1.2 Гбайт/с — для шины POWERpath-2 в POWER CHALLENGE, а пропускнаяспособность оперативной памяти в Сгау Т90 равна 800 Гбайт/с. Поэтому вSMP-серверах разработчики стремятся уменьшить саму потребность в обменахданными на тракте процессорыпамять. С этой целью вместо маленького по величинеобъема памяти векторных регистров (именно поэтому они требуют достаточно частойперезагрузки) микропроцессоры в суперкомпьютерных SMP-системах снабжаются кэш — памятью очень большого размера, например, по 4 Мбайт на микропроцессор вAlphaServer 8200/8400 и POWER CHAL ENGE. В результате для очень широкогоспектра приложений удается достичь поставленной цели.

Современныекомпьютеры SMP-архитектуры и кластеры на их основе имеют во многомхарактеристики, сравнимые с большими векторными суперЭВМ, за исключениемпропускной способности оперативной памяти; Если добавить к этому низкиеэксплуатационные расходы на обслуживание SMP-систем, то становится понятно,почему применение этих гораздо более дешевых (по сравнению с векторными)суперкомпьютеров получило за последние 2 года широкое распространение.

Анализируемыездесь SMP-системы не обязаны иметь шинную архитектуру. Вместо шины можетиспользоваться коммутатор. Подобный подход применяется, например, внутригиперузлов компьютеров Convex Exemplar SPP. Однако почти все сказанное вданном разделе сохраняет силу и в этом случае.

Кластеры [MIMD]

Кластерыявляются самым дешевым способом наращивания производительности ужеинсталлированных компьютеров. Фактически кластер представляет собой набор изнескольких ЭВМ, соединенных через некоторую коммуникационную инфраструктуру. Вкачестве такой структуры может выступать обычная компьютерная сеть, однако изсоображений повышения производительности желательно иметь высокоскоростныесоединения (FDDI/ATM/HiPPI и т.п.). Кластеры могут быть образованы как изразличных компьютеров (гетперогенные кластеры), так и из одинаковых (гомогенныекластеры). Очевидно, что все такие системы относятся к классу MIMD. Кластерыявляются классическим примером слабо связанных систем.

Преимуществомкластерного подхода по сравнению с SMP-серверами является улучшениевозможностей масштабирования. В отличие от серверов SMP-архитектуры, гденаращивание конфигурации ограничено пропускной способностью шины, добавлениекомпьютеров в кластер позволяет увеличивать пропускную способность оперативнойпамяти и подсистем ввода-вывода.

Вкластерных системах для организации взаимодействия между процессами,выполняющимися на разных компьютерах при решении одной задачи, применяютсяразличные модели обмена сообщениями (PVM, MPI и т.п.). Однако задачараспараллеливания в таких системах с распределенной между отдельнымикомпьютерами памятью в рамках этих моделей является гораздо более сложной, чемв модели общего поля памяти, как например, в SMP-серверах. К этому следуетдобавить чисто аппаратные проблемы наличия задержек при обменах сообщениями иповышения скорости передачи данных. Поэтому спектр задач, которые могутэффективно решаться на кластерных системах, по сравнению с симметричными сильносвязанными системами достаточно ограничен. Для параллельной обработки запросовк базам данных в подобных системах также имеются свои собственные подходы.

Вкластеры могут объединяться различные суперкомпьютеры, например, минисуперЭВМСгау J90, однако наиболее известными кластерами в мире суперЭВМ являются IBMSP2 и SGI POWER CHAL ENGEarray. Возможность наличия большого числа процессорныхузлов в SP2 позволяет одновременно отнести этот компьютер и к классуMPP-систем.

МРР-системы (MIMD)

Основнымпризнаком, по которому систему относят к архитектуре MPP, является числопроцессоров (n). Строгой границы не существует, но обычно считается, что при n>= 128 — это уже МРР, а при n <= 32 — еще нет.

Вовсене обязательно, чтобы MPP-система имела распределенную оперативную память, прикоторой каждый процессорный узел имеет свою локальную память. Так, например,компьютеры SPP1000/XA и SPP1200/XA — пример систем с массовым параллелизмом,память которых физически распределена между гиперузлами, но логически являетсяобщей для всей ЭВМ. Тем не менее, большинство MPP-компьютеров имеют каклогически, так и физически распределенную память.

Влюбом случае MPP-системы принадлежат к классу MIMD. Если говорить обMPP-компьютерах с распределенной памятью и отвлечься от организацииввода-вывода, то эта архитектура является естественным расширением кластернойна большое число узлов. Поэтому для таких систем характерны все преимущества инедостатки кластеров. Причем в связи с повышенным числом процессорных узлов какплюсы, так и минусы становятся гораздо весомее (процессорный узел это блок ЭВМ,который может содержать несколько процессоров, например, как в компьютерахSNI/Pyramid RM1000, и сам по себе иметь архитектуру SMP).

Благодарямасштабируемости, именно MPP-системы являются сегодня лидерами по достигнутойпроизводительности компьютера; наиболее яркий пример этому — Intel Paragon. Сдругой стороны, проблемы распараллеливания в MPP-системах по сравнению скластерами, содержащими немного процессоров, становятся еще более трудноразрешимыми. Кроме того, приращение производительности с ростом числапроцессоров обычно вообще довольно быстро убывает. Легко нараститьтеоретическую производительность ЭВМ, но гораздо труднее найти задачи, которыесумели бы эффективно загрузить процессорные узлы.

Сегодняне так уж много приложений могут эффективно выполняться на MPP-компьютере,кроме этого имеется еще проблема переносимости программ между MPP-системами,имеющими различную архитектуру. Предпринятая в последние годы попыткастандартизации моделей обмена сообщениями еще не снимает всех проблем.Эффективность распараллеливания во многих случаях сильно зависит от деталейархитектуры MPP-системы, например топологии соединения процессорных узлов.

Самойэффективной была бы топология, в которой любой узел мог бы напрямую связаться слюбым другим узлом. Однако в MPP-системах это технически трудно реализуемо.Обычно процессорные узлы в современных MPP-компьютерах образуют или двумернуюрешетку (например, в SNI/Pyramid RM1000) или гиперкуб (как в суперкомпьютерахnCube).

Посколькудля синхронизации параллельно выполняющихся в узлах процессов необходим обменсообщениями, которые должны доходить из любого узла системы в любой другойузел, важной характеристикой является диаметр системы с1 — максимальноерасстояние между узлами. В случае двухмерной решетки d ~ sqrt(n), в случаегиперкуба d ~ 1n(n). Таким образом, при увеличении числа узлов архитектурагиперкуба является более выгодной.

Времяпередачи информации от узла к узлу зависит от стартовой задержки и скоростипередачи. В любом случае за время передачи процессорные узлы успевают выполнитьмного команд, и это соотношение быстродействия процессорных узлов и передающейсистемы, вероятно, будет сохраняться — прогресс в производительностипроцессоров гораздо больше, чем в пропускной способности каналов связи. Поэтомуинфраструктура каналов связи является одного из главных компонентовMPP-компьютера.

Несмотря на все сложности,сфера применения MPP-компьютеров понемногу расширяется. Различные MPP-системыэксплуатируются во многих ведущих суперкомпьютерных центрах мира, что наглядноследует из списка ТОР500. Кроме уже упоминавшихся, следует особенно отметитькомпьютеры Cray T3D и Cray ТЗЕ, которые иллюстрируют тот факт, что мировойлидер производства векторных суперЭВМ, компания Cray Research, уже неориентируется исключительно на векторные системы. Наконец, нельзя не вспомнить,что новейший суперкомпьютерный проект министерства энергетики США будет основанна MPP-системе на базе Pentium Pro.

Транспьютеры

Транспьютер (слово,производное от слов транзистор и компьютер) представляет собой 32- разрядныймикропроцессор, в состав которого входят:

· ЦПУ с сокращенным набором команд (RISC),имеющее быстродействие до 35 мипс.

· 64- разрядный сопроцессор (FPU) плавающейарифметики с пиковой производительностью до 3,5 Мфлопс, работающий параллельнос ЦПУ.

· Внутрикристальное ОЗУ емкостью 4 Кбайт со скоростью обмена 120Мбайт/с.

· 32- разрядная шина памяти, позволяющая адресовать до 4 Гбайтвнешней по отношению к кристаллу памяти и имеющая быстродействие 40 Мбайт/с.

· Четыре последовательных двунаправленных линии связи,обеспечивающих взаимодействие транспьютера с внешним миром, работающих параллельнос ЦПУ и имеющих скорость передачи 5/10/20 Мбит/с.

· Таймер с разрешающей способностью 1 мкс.

· Системные управляющие сигналы: Инициализация, Анализ, Ошибка,управляющие загрузкой и анализом состояния транспьютера, сигнализирующие обошибках.

· Интерфейс внешних событий, обеспечивающий асинхронную связьвнутреннего процесса и внешнего события.

Транспьютеры размещаются натранспьютерных модулях (TRAM или TPAM)–дочерних платах, содержащих транспьютер, ОЗУ, возможно, переключатели длявыбора режимов, иинтерфейс, включающий гнезла/штекеры питания, 4-х линий связи,линий внешних событий и системных управляющих сигналов. В зависимости отсостава TPAM может иметь разные физические размеры,которые стандартизованы и пронумерованы.

TPAMыразмещаются на объединительных платах, которые либо непосредственно включаютсяв некоторый компьютер, либо соединенные вместе составляют сетевой компьютер.Объединительные платы, подключаемые к компьютеру (вычислительные транспьютерныеплаты), имеют два вида:

1. Загружаемые по линии связи платы общего назначения, начальная загрузкакоторых осуществляется программой главного компьютера по линии связи,соединяющей главный компьютер и транспьютер (корневой транспьютер), специальновыделенный для взаимодействия с главным компьютером.

2. Загружаемые из ПЗУ платы, предназначенные для автономных, встроенныхсистем.

Оценки производительности суперЭВМ

Поскольку суперкомпьютерытрадиционно использовались для выполнения вычислений над вещественными числами,большинство сегодняшних оценочных характеристик производительности связаноименно с этими вычислениями. Прежде всего, к ним относится пиковаяпроизводительность, измеряемая в млн. операций с плавающей точкой, которыекомпьютер теоретически может выполнить за 1 сек (MFLOPS). Пиковая производительность- величина, практически не достижимая. Это связано, в частности, с проблемамизаполнения функциональных конвейерных устройств, что является типичным нетолько для векторных суперЭВМ, но и для компьютеров на базе микропроцессоровRISC-архитектуры. Особенно важно это для суперконвейерной архитектурымикропроцессоров, например, DEC Alpha, для которой характерно применениеотносительно длинных конвейеров. Понятно, что чем больше конвейер, тем большенадо «инициализационного» времени для того, чтобы его заполнить.Такие конвейеры эффективны при работе с длинными векторами. Поэтому для оценкивекторных суперЭВМ было введено такое понятие, как длина полупроизводительности- длина вектора, при которой достигается половина пиковой производительности .

Болеереальные оценки производительности базируются на временах выполнения различныхтестов. Конечно же, самыми хорошими тестами являются реальные задачипользователя. Однако такие оценки, во-первых, весьма специфичны, а, во-вторых,часто вообще недоступны или отсутствуют. Поэтому обычно применяются болееуниверсальные тесты, однако традиционные методики оценки производительностимикропроцессоров — SPEC- в мире суперкомпьютеров, как правило, не используются.Это связано, в частности, с их малой информативностью — особенно SPEC 92 — длясуперкомпьютерных приложений, хотя новый стандарт SPEC 95 дает более реальнуюкартину производительности. Сегодня имеются оценки SPEC только длясуперкомпьютеров, использующих микропроцессоры RISC-архитектуры. Недавно быланонсирован специальный новый стандарт SPEChpc96 для высокопроизводительныхвычислений .

Посколькубольшую часть времени выполнения программ обычно занимают циклы, иногда именноони применяются в качестве тестов, например, известные ливерморские циклы.Наиболее популярным тестом производительности на сегодня следует признатьLinpack, который представляет собой решение системы И линейных уравненийметодом Гаусса. Поскольку известно, сколько операций с вещественными числаминужно проделать для решения системы, зная время расчета, можно вычислитьвыполняемое в секунду количество операций. Имеется несколько модификаций этихтестов. Обычно фирмы-производители компьютеров приводят результаты при N 100.Свободно распространяется стандартная программа на Фортране, которую надо выполнитьна суперкомпьютере, чтобы получить результат тестирования. Эта программа неможет быть изменена, за исключением замены вызовов подпрограмм, дающих доступ кпроцессорному времени выполнения. Другой стандартный тест относится к случаю N= 1000, предполагающему использование длинных векторов. Эти тесты могутвыполняться на компьютерах при разном числе процессоров, давая также оценкикачества распараллеливания.

ДляMPP-систем более интересным является тест Linpack-parallel, в которомпроизводительность измеряется при больших И и числе процессоров. Здесь лидеромявляется 6768-процессорный Intel Paragon (281 GFLOPS при N = 128600). Чтокасается производительности процессоров, то при N = 100 лидирует Cray T916 (522MFLOPS), при N = 1000 и по пиковой производительности — Hitachi S3800(соответственно 6431 и 8000 MFLOPS). Для сравнения, процессор в AlphaServer8400 имеет 140 MFLOPS при N =100 и 411 MFLOPS при N=1000.

Для высокопараллельныхсуперкомпьютеров в последнее время все больше используются тесты NAS parallelbenchmark, которые особенно хороши для задач вычислительной газо- игидродинамики. Их недостатком является фиксация алгоритма решения, а не текстапрограммы.

Заключение

Сегодня всуперкомпьютерном мире наблюдается новая волна, вызванная как успехами вобласти микропроцессорных технологий, так и появлением нового круга задач,выходящих за рамки традиционных научно-исследовательских лабораторий. Налицобыстрый прогресс в производительности микропроцессоров RISC-архитектуры,которая растет заметно быстрее, чем производительность векторных процессоров.Например, микропроцессор HP РА-8000 отстает от Cray T90 всего примерно в двараза. В результате в ближайшее время вероятно дальнейшее вытеснение векторныхсуперЭВМ компьютерами, использующими RISC-микропроцессоры, такими, как,например, IBM SP2, Convex/HP SPP, DEC AlphaServer 8400, SGI POWER CHALENGE.Подтверждением этого стали результаты рейтинга ТОР500, где лидерами по числуинсталляций стали системы POWER CHALLENGE и SP2, опережающие модели ведущегопроизводителя суперкомпьютеров — компании Cray Research.

Темне менее, очевидна, будет продолжаться развитие векторных суперЭВМ, по крайнеймере от Cray Research. Возможно, оно начинает сдерживаться из-за требованийсовместимости со старыми моделями. Так, не нашла потребителя система Cray-4компании Cray Computer, имеющая характеристики конфигурации ипроизводительность, близкие к новейшей системе Cray T90 от Cray Research при в2 раза более низкой цене, но несовместимая с компьютерами Cray Research. Врезультате Cray Computer разорилась.

Успешноразвиваются системы на базе MPP-архитектур, в том числе с распределеннойпамятью. Появление новых высокопроизводительных микропроцессоров, использующихдешевую КМОП-технологию, существенно повышает конкурентноспособность данныхсистем.

Относительно новых решений со стороныVLIW-архитектур можно уверенно предположить, что, по крайней мере в ближайшиедва года, RISC-процессорам бояться нечего.

Используемая литература

1. Вл. В. Воеводин “Суперкомпьютернаягрань компьютерного мира”

2. IEEE Computer”Рынок аппаратных средств”

3. М. Кузминьский, Д. Волков“Современные суперкомпьютеры: состояние и перспективы”

4. Левин В. К. “Отечественные суперкомпьютеры”

5. Б. В. Пальцев “PC противсуперкомпьютеров”

6. “Computerworld Россия”

7. НИВЦ МГУ “Основные классы современных параллельныхкомпьютеров”

еще рефераты

Еще работы по информатике, программированию

Реферат по информатике, программированию

Суперкомпьютеры