Паралельно-векторні суперкомп'ютери

ОГЛЯД

версія NEC

Суперкомп'ютери працюють дуже швидко завдяки використанню не тільки найсучаснішою елементної бази, а й принципових рішень, закладених в їх архітектуру. Серед них основну роль грає принцип паралельної обробки даних, що втілює ідею одночасного (паралельного) виконання кількох дій. Як відомо, паралельна обробка має два різновиди: конвеєрні і власне паралельність * 1 Основним параметром при класифікації паралельних комп'ютерів є наявність загальної або розподіленої пам'яті. Щось середнє представляють собою архітектури, в яких пам'ять фізично розподілена, але логічно загальнодоступна. З апаратної точки зору для реалізації паралельних систем використовуються дві основні схеми. Перша - кілька окремих систем з локальною пам'яттю і процесорами, взаємодіючих в якому-небудь середовищі за допомогою посилки повідомлень. Друга - системи, які взаємодіють через пам'ять, що розділяється.

_____

* 1 Є ще третя - асоціативність. Прим. гл. ред.

Основна ознака паралельно-векторних систем (PVP, Parallel Vector Processing) - наявність спеціальних векторно-конвеєрних процесорів, ефективно виконують команди однотипної обробки векторів незалежних даних, на конвеєрних функціональних пристроях. Як правило, кілька таких процесорів (1-16) працюють одночасно над загальною пам'яттю (аналогічно SMP) в рамках багатопроцесорних конфігурацій. Окремі вузли можуть бути об'єднані за допомогою комутатора. Типовим прикладом PVP-рішень можуть служити системи SX, які створює підрозділ корпорації NEC - HNSX Supercomputers (www.sw.nec.co.jp). Кілька років тому вважалося, що PVP-системи незабаром будуть повністю витіснені масивно-паралельними комп'ютерами. Однак цього не сталося. Розвиток PVP-архітектури триває, а суперкомп'ютери, створені на її основі, в ряді випадків істотно випереджають конкурентів.

Суперкомп'ютери NEC SX

Корпорація NEC (www.nec.com) має давні традиції виробництва великих універсальних ЕОМ (досить згадати випускалися в 80-х роках мейнфрейми ACOS). Приблизно в той же час з'явилися і перші суперкомп'ютери сімейства SX. Процесори в SX-1 мали пікову продуктивність 570 Мфлопс. У другій половині 80-х були розроблені NEC SX-2 з циклом 6 нс; пікова продуктивність старшої моделі SX-2 становила вже 1,3 Гфлопс. У 1989 р була випущена NEC SX-3 з піковою продуктивністю центрального процесора близько 5 Гфлопс, що мала до 4 процесорів.

До сучасному поколінню суперкомп'ютерів слід віднести КМОП-системи NEC SX-5 і SX-6. Тут варто нагадати, що багато суперкомп'ютери довгий час використовували ЕСЛ-технологію (транзистори з емітерний-зв'язаної логіки), яка відрізняється досить високим енергоспоживанням. Багато в чому саме завдяки застосуванню КМОП-технології системи SX-4 стали першими в світі суперкомп'ютерами PVP-архітектури, які працюють з повітряним, а не з рідинним охолодженням. Сучасні напівпровідникові КМОП-мікросхеми забезпечили не тільки більш високу ступінь інтеграції, а й хорошу масштабованість по частоті.

Коли NEC в 1995 р анонсувала суперкомп'ютери SX-4, більшість фахівців в області високопродуктивних обчислень вважали, що він стане останнім "динозавром" векторної архітектури. Однак зараз, з появою масштабованих векторних систем, інтерес користувачів до векторних архитектурам повертається. До речі, на момент свого випуску модель SX-4 показала продуктивність на рівні 1 Тфлопс.

Суперкомп'ютери різних поколінь NEC сумісні знизу вгору. До основних компонентів архітектури NEC SX відносяться центральний процесор, підсистеми оперативної пам'яті і введення-виведення. Дані компоненти об'єднуються в вузли SMP-архітектури, які, в свою чергу, пов'язані через межсоединение Internode Crossbar Switch (IXS). При цьому вся пам'ять всіх вузлів є спільною; іншими словами, багатовузловий моделі SX володіють архітектурою NUMA.

Кожен центральний процесор в NEC SX складається з двох головних блоків: векторного і скалярного пристроїв. В архітектурі SX є операційні векторні регістри (над ними виконуються основні команди) і векторні регістри даних. У більшості випадків застосування векторних регістрів дозволяє значно зменшити трафік при обміні даними між центральним процесором і оперативною пам'яттю.

Виконавчі блоки векторного пристрої конвейерізовани. Основні конвеєри в SX - блоки складання / зсуву, множення, ділення і логічних операцій. Як це характерно для багатьох PVP-систем, операції над векторами можуть виконуватися за участю маски, для чого в архітектурі передбачено наявність регістрів маски.

Скалярний пристрій в SX містить кеш даних і кеш команд, а також 64-розрядні регістри загального призначення. Так, для SX-5 розміри зазначеної кеш-пам'яті складають по 64 Кб, а кількість регістрів загального призначення одно 128. Всі команди видає на виконання скалярний пристрій, здатний декодувати до чотирьох команд за такт. Наприклад, як скалярний, так і векторний пристрої SX-5 оперують 32- і 64-розрядних числами з плаваючою комою в форматі IEEE. Скалярний пристрій SX-5 підтримує також 128-розрядні числа розширеної точності.

У складі процесора крім скалярного і векторного пристроїв можна також виділити інтерфейс з оперативною пам'яттю і так звані комунікаційні регістри. Вони служать в першу чергу для забезпечення синхронізації при розпаралелювання завдань.

Підсистема пам'яті SMP-вузлів SX доступна процесорам через неблокірующіх комутатор. Так, кожна плата пам'яті SX-5 може мати ємністю 4 Гб, а весь 16-процесорний вузол - до 128 Гб. Вся оперативна пам'ять розбита на банки. Плати пам'яті SX вміють обробляти запити до оперативної пам'яті в позачерговому порядку, що підвищує ефективну пропускну здатність в разі конфліктів при зверненні до банку пам'яті. Конвеєрна видача даних з пам'яті, підтримка можливості переупорядковування запитів до пам'яті для зменшення конкуренції з-за доступу до неї, наявність апаратних засобів, що дозволяють приховати затримки при зверненні до оперативної пам'яті, - все це дає можливість підтримувати високу реальну пропускну здатність пам'яті.

У NEC SX використовується сторінкова адресація оперативної пам'яті. За рахунок цього програмні модулі можуть завантажуватися в несуміжні області фізичної оперативної пам'яті, т. Е. Усуваються проблеми фрагментації. IXS забезпечує роботу з таблицями сторінок при глобальної адресації оперативної пам'яті, з комунікаційними регістрами і командами глобальної пересилання даних.

IXS забезпечує роботу з таблицями сторінок при глобальної адресації оперативної пам'яті, з комунікаційними регістрами і командами глобальної пересилання даних

Мал. 1. Архітектура SX-6

Основними блоками підсистеми введення-виведення в NEC SX є спеціалізовані процесори. Ці функціональні пристрої звільняють центральний процесор від безпосереднього управління введенням-виведенням. Варто відзначити, що в NEC SX-5 пропускна здатність процесорів вводу-виводу була збільшена вдвічі в порівнянні з SX-4 і становить близько 3,2 Гб / с. У SMP-вузлі SX-5 може бути до чотирьох таких пристроїв. Кожне з них здатне підтримувати роботу багатьох каналів введення-виведення при наявності відповідних канальних плат. У SX використовуються канальні карти - HIPPI-800 (100 Мб / с), FC-AL (1 Гбіт / с) і Ultra SCSI.

Серія SX-5

Ці суперкомп'ютери призначені для великомасштабних паралельних обчислень за рахунок набору паралельно працюють вузлів, кожен з яких, в свою чергу, є повноцінним векторно-конвеєрним SMP-суперкомп'ютером.

Деякі подробиці про Earth Simulator

Всі 640 вузлів Earth Simulator засновані на архітектурі NEC SX. Кожен процесорний вузол PN (Processor Node) складається з восьми арифметичних процесорів векторного типу AP (Arithmetic Processor), 16 Гб основної пам'яті MS (Memory System), віддаленого пристрою управління RCU (Remote Control Unit) і процесора вводу-виводу I / O. Пікова продуктивність кожного AP становить 8 Гфлопс. До складу Earth Simulator входить 5120 AP. Теоретична продуктивність системи може досягати 40 Тфлопс. Час циклу - 2 нс.

Модуль векторного процесора має розміри 115х139 мм. Однокристальний процесори системи створені по 0,15 мкм технології з вісьмома шарами мідної металізації і містять приблизно 60 млн. Транзисторів. Кількість висновків становить 5185. Тактова частота сягає

· ГГц, споживана потужність - 140 Вт.

Підсистема MDPS (Mass Data Processing System) включає чотири файлових сервісних процесора, 250 Тб дискової і 1,5 Пб стрічкової пам'яті. Остання виконана на базі бібліотеки StorageTek 9310. Обсяг оперативної пам'яті для всієї системи складає 10 Тб, а загальний обсяг дискової пам'яті, що включає робочий дисковий простір (близько 460 Тб), перевищує 700 Тб.

В якості операційної системи використовується SUPER-UX. Програмне забезпечення та середовище розробки засновані на UNIX і створені спеціально для суперкомп'ютерів NEC SX-серій. Застосовувані мови програмування - Fortran90, HPF, C і C ++. Транслятори цих мов можуть виконувати автоматичне розпаралелювання і векторизацію. Крім того, є бібліотека передачі повідомлень MPI2 і математична бібліотека ASL / ES.

Всякий вузол в максимальній конфігурації надає обчислювальну продуктивність до 128 Гфлопс, обсяг основної пам'яті до 128 Гб і пропускну здатність каналів введення-виведення до 12,6 Гб / с. Фахівці відзначають, що таких показників не давала раніше жодна система з пам'яттю. Досить сказати, що продуктивність обмінів з пам'яттю для повного вузла досягає 1 Тб / с. У вузол вбудовано таку кількість незалежних банків пам'яті, яка необхідна для того, щоб мінімізувати конфлікти по використанню мікросхем пам'яті між 16 індивідуальними процесорами (з піковою векторної продуктивністю 8 Гфлопс кожен). Скалярная продуктивність досягає 500 Мфлопс. У системах SX-5 застосовується високошвидкісний неблокірующій комутатор IXS, щоб зв'язати між собою до 32 таких вузлів. В цьому випадку пікова продуктивність може досягати 4 Тфлопс.

У системах сімейства SX-5 пікова продуктивність процесора, обсяг пам'яті і пропускна здатність каналу процесор - пам'ять покращилися приблизно в чотири рази в порівнянні з системами SX-4. За даними користувачів SX-5, на більшості реальних додатків досягається не менше 90% пікової продуктивності, в той час як для масштабованих паралельних систем на базі RISC непоганим результатом вважається досягнення від 15 до 30% від пікової продуктивності.

Серія SX-6

Суперкомп'ютери сімейства SX-6 є паралельні векторні системи із загальною піковою продуктивністю всієї системи до 8 Тфлопс. Система може включати до 128 вузлів, кожен з яких містить від двох до восьми процесорів і загальну пам'ять до 64 Гб. Пікова продуктивність одного процесора досягає 8 Гфлопс, т. Е. Така ж, як в SX-5.

Висока продуктивність SX-6 досягається за рахунок використання до 8 Тб пам'яті SDRAM (256-бітні мікросхеми) і системного комутатора з високою пропускною здатністю. У многоузловой системі пропускна здатність пам'яті забезпечується на рівні 32 Тб / с. Серія SX-6 успадкувала від SX-5 архітектуру з пам'яттю і застосування КМОП-технології. Відносно низька ціна і порівняльна компактність системи SX-6 обумовлені розміщенням процесора цілком на одній мікросхемі, дотриманням жорстких проектних норм 0,15 мкм технології, тоді як процесор SX-5 базується на 0,25 мкм технології, а для своєї реалізації вимагає 32 мікросхеми середнього рівня інтеграції.

У порівнянні з SX-5 більш ніж на 80% зменшилися лінійні габарити суперкомп'ютера SX-6 і споживання електроенергії, що, в свою чергу, дозволяє використовувати в усіх моделях повітряне охолодження. Представники NEC заявляють, що ці два фактори (габарити і енергоспоживання) значно вплинули на різке зниження вартості установки і обслуговування SX-6. А 0,15 мкм технологія привела до значного зменшення числа компонентів системи, а отже, до суттєвого підвищення надійності устаткування.

Разом з SX-6 поставляється системне програмне забезпечення, що дозволяє з'єднаним по мережі персональних комп'ютерів, робочих станцій Unix і суперкомп'ютерів серії SX-6 служити в якості єдиної системи. Інструменти і бібліотеки для розробки паралельних завдань включають MPI, відладчик Total View і інструмент Vampir / SX для оцінки продуктивності програми. Було вироблено зміну операційної системи і програмного забезпечення для підтримки збільшеної многоузловой системи. Базова ОС SUPER-UX пропонує поліпшену підтримку SSI (Single System Image), разом з тим забезпечуючи сумісність з SX-5. Крім С ++ і Fortran 90 представлені такі засоби розробки, як OpenMP і HPF 2.0 Серія SX-6 також пропонує Web Supercomputing Environment (WSE) як засіб зв'язування в єдиний обчислювальний комплекс суперкомп'ютерів, UNIX-серверів і ПК, підключених до Інтернету або інтранету . За допомогою цієї системи можна завантажувати програми, які містяться в многомашинной системі, маніпулювати файлами і виконувати різні команди, використовуючи інтуїтивно зрозумілі GUI-операції.

За допомогою цієї системи можна завантажувати програми, які містяться в многомашинной системі, маніпулювати файлами і виконувати різні команди, використовуючи інтуїтивно зрозумілі GUI-операції

Мал. 2. Суперкомп'ютер Earth Simulator

Різниця між одновузлових моделями А і В полягає в тому, що модель А налаштована на вісім процесорів (64 Гфлопс) і 64 Гб основної пам'яті, в той час як модель В має до чотирьох процесорів (32 Гфлопс) і тільки 32 Гб основної пам'яті.

Серія SX-7

Що стосується серії систем SX-7, то з нею пов'язана деяка плутанина. Справа в тому, що ці системи (на шафах яких дійсно написано SX-7), за запевненням самих же розробників з NEC, хоча і містять нові технології, насправді є лише розширенням SX-6-архітектури, але ніяк не її революційним продовженням . Створення таких систем було розраховане лише на деяких користувачів в Японії, проте ці суперкомп'ютери зуміли привернути до себе увагу фахівців всього світу. Так, пікова продуктивність одного вузла системи SX-7 складає 282,5 Гфлопс, що в три з гаком рази більше, ніж у SX-6. Всього машина може містити до 64 подібних вузлів. Вузол SX-7 підтримує до 32 процесорів, що вчетверо більше в порівнянні з SX-6. У максимальній многоузловой конфігурації суперкомп'ютер показує пікову продуктивність 18,1 Тфлопс. Як уже зазначалося, підвищення продуктивності досягається за рахунок ряду удосконалень, зокрема шляхом збільшення ємності спільно використовуваної пам'яті на кожному вузлі з 64 до 256 Гб, а також підвищення максимальної швидкості передачі даних з 256 Гб / с до 1,13 Тб / с. Поліпшено також процесори (в системі використовуються оригінальні процесори розробки NEC); швидкодія колишніх становило 8 Гфлопс, нових - 8,83 Гфлопс.

Earth Simulator

Як відомо, щоб дізнатися, які суперкомп'ютери мають максимальну продуктивність, університети Маннгейма (Німеччина) і Теннесі (США), а також Національний науково-обчислювальний центр енергетичних досліджень США (NERSC) в Берклі (Каліфорнія) два рази на рік публікують офіційний список п'ятисот самих потужних систем світу - Top500 (www.top500.org) .C уперкомпьютер Earth Simu-lator, створений при безпосередній участі фахівців корпорації NEC, перший раз став найбільш продуктивною в світі системою ще влітку 2002 р (в 19-й версії рейтингу Top500) .

Власне про завершення робіт над високопродуктивної векторно-паралельної системою "Імітатор Землі" (Earth Simulator) і її передачі в Центр моделювання Землі (ESC, Earth Simulator Center) було оголошено ще навесні того ж року. Система створювалася протягом п'яти років Науково-дослідним центром моделювання Землі (ESRDC, Earth Simulator Research and Development Center) у співпраці з японським Національним агентством з дослідження космосу (NASDA), Японським інститутом по дослідженню атомної енергії (JAERI) і Японським морським науково-технічним центром (JAMSTEC). Витрати на проект склали 40 млрд. Ієн, в роботах було задіяно понад 1000 фахівців з NEC.

Система Earth Simulator розміщена в будівлі, схожому на авіаційний ангар, з площею підлоги дорівнює 50 на 65 м. Будівля належить Інституту наук про Землю в Йокогамі (Yokohama Institute for Earth Sciences). Цей суперкомп'ютер включає 640 вузлів з продуктивністю кожного 64 Гфлопс і 5120 процесорів, з'єднаних 2800 км кабелю. Вузли складаються з восьми 8 Гфлопс векторних процесорів і піковою продуктивністю в 40 Тфлопс. Високошвидкісна мережа з'єднує процесори зі швидкістю передачі даних в 12,3 Гб. Для охолодження системи через робочі приміщення протягом 10 з прокачується 35 млн. Кубічних футів повітря.

Треба відзначіті, что Earth Simulator может моделюваті ЗАГАЛЬНІ Зміни навколишнього середовища на сітці, в 1000 разів більш докладної, чем це Було можливо на попередніх суперкомп'ютерах. Потужності створеної системи Досить, щоб розраховуваті и передбачаті погоду значний точніше. Earth Simulator також дозволяє вивчати рух океанських течій протягом тисячолітнього циклу і прогнозувати зміни клімату. До речі, обнадійливі результати вже отримані. Метеорологічна спільнота стверджує, що японський суперкомп'ютер Earth Simulator перевершив найсміливіші очікування і, можна сказати, відкрив нову еру в області передбачення погоди.

Вчені з усього світу чекають своєї черги, щоб попрацювати на японському суперкомп'ютері. Деякі з них збираються з його допомогою вивчати не майбутній клімат Землі, а навпаки, минулий. Так, британські вчені з Брістольського університету, наприклад, збираються змоделювати зміну клімату на планеті протягом останніх 20 тис. Років. Потім ці результати можна буде порівняти з реальними, отриманими при вивченні оледенений, річних кілець на деревах і сталактитів. На думку експертів, вже в найближчі роки за допомогою суперкомп'ютерів палеокліматології вдасться дізнатися багато цікавого.

Версія для друку

Тільки зареєстровані Користувачі могут залішаті Коментарі.