Inteli uued arhitektuurid ja tehnoloogiad. 1. osa: Dunnington, Nehalem
Loe kommentaare (1)

Autor: 3DNews.ee
Kuupäev: 07.05.2008 [09:30]
Meie lugejad, kes tunnevad huvi nüüdisaegsete arvutitehnoloogiate vastu, ootasid kindlasti kannatamatult Inteli arendajate järjekordset foorumit, mis toimus Shanghais päris aprilli alguses. Tavaliselt on sellised üritused mõeldud skeemitehnikutele, konstruktoritele, arvutussüsteemide projekteerijatele, juhtidele, kes otsustavad uute tehnoloogiate juurutamist. Kahtlemata annavad uued eelteated mõtlemisainet kõrgtehnoloogiate tööstusharu analüütikutele. Foorumi üritused on huvitavad ka tarbijatele, kuna just IDF-il on meil võimalus otse arendajatelt teada saada turuletulekuks valmistuvatest toodetest ja väljatöötatud tehnoloogiatest.
Mis Shanghais toimunud kevadfoorumil IDF 2008 jutuks oli? Inteli põhitootmissuundade juhid rääkisid uue põlvkonna mobiilsete internetiseadmete (Mobile Internet Device, MID), sülearvutite ja traadita tehnoloogiate arendusest ning levitamisest; tarkvara- ja riistvaraarhitektuuri FSB-FPGA (põhineb serveriplatvormide tehnoloogial Intel QuickAssist) juurutamisest. Lisaks tutvusid Foorumi külastajad uue SoC (System-on-Chip, "süsteemikiip") -klassi protsessoriga Tolapai, järgmise põlvkonna mikroarhitektuuriga Intel Nehalem, Inteli integreeritud süsteemide lahendustega ning platvormide Ruggedized Embedded Computing, Digital Security Surveillance ja Network Security projekteerimise põhimõtetega; tööstusstandardi UEFI spetsifikatsioonide uuenduste ja selle edasiste arendussuundadega; virtualiseerimis- ja kõrgresolutsiooniliste visualiseerimistehnoloogiatega; välkmälu baasil töötavate kõvaketastega.
IDF-i eelõhtul viis Intel läbi pressikonverentsi, mis oli pühendatud kiipide järgmisele põlvkonnale Itanium (koodnimi Tukwila), esimesele kuuetuumalisele protsessorile Dunnington, uuele mikroarhitektuurile Nehalem, samuti visuaalarvutuste arhitektuurile Larrabee Architecture. Täna uurime tähelepanelikult kahe arhitektuuri - Nehalem ja Dunnington uuendusi, teistest arhitektuuridest ja tehnoloogiatest räägime hiljem.
Dunnington – Inteli esimesed kuuetuumalised protsessorid
Kui jälgida Inteli toodete ilmumise kronoloogiat, siis peaksid meie artikli esimesteks tegelasteks olema kuuetuumalised protsessorid Dunnington (neid on meie uudistes juba mainitud). Need kiibid hakkavad põhinema mikroarhitektuuri Coer 45-nm versioonil ning on arvatavasti põlvkonna Penryn viimased esindajad.
Kiibid Dunnington on lahendused multiprotsessorserveritele ning esindatud platvormi Caneland raames tootenime Intel Xeon all. Kuuetuumaliste kiipide tootmisel rakendab Intel 45-nm tehnoloogiat, kus kasutatakse metallventiile ja High-K dielektrikuid. See lubab ühele kristallile paigutada 1,9 miljardit transistorit. Kõik kuus tuuma koos vahemälu pesadega mahuvad ühele kristallile, kuigi varem arvasid mõned kommentaatorid, et Intel pakib lihtsalt kolm kahetuumalist kristalli Wolfdale ühte korpusse.
Protsessorites Dunnington on kasutatud mitmetasemelise jagatud vahemälu kontseptsiooni. Igal tuumapaaril on teise taseme vahemälus üks 3 MB pesa, seega ulatub L2 vahemälu üldmaht 9 MB-ni. Samuti seab ennast kristallil sisse kolmanda taseme jagatav vahemälu (kuni 16 MB). Märgime, et protsessorite Dunnington eelkäijatel (multiprotsessorserverite neljatuumalised kiibid sarjast Xeon 7300 (Tigerton)) on L3vahemälu kuni 8 MB.
Dunnington´i muudest tehnilistest eripäradest (mis on meile praegu teada) märgime järgmist: FSB-siini tootlikkus 1066 megatransaktsiooni sekundis, füüsilise mälu 40-järguline adresseerimisskeem, harjumuspärane korpus mPGA604, TDP 130W, virtualiseerimistehnoloogia VT FlexMigration tugi. Tehnoloogial VT FlexMigration on avarad ühilduvusvõimalused ning see toetab portimist tulevastele platvormidele (arhitektuuriga Core või hilisemate mikroarhitektuuridega).
Lõpetades juttu kiipidest Dunnington, ütleme paar sõna nende turuletuleku ajast. Vastavalt ametlikele andmetele on väljalaske kuupäev määratud 2008. aasta teise poolde. Arvestades, et kuuetuumalised kiibid peaksid saama teatud vahelahenduseks nüüdisaegsete neljatuumaliste Xeon (Core) ja mikroarhitektuuri Nehalem järgmise põlvkonna (peaks ilmuma selle aasta neljandas kvartalis) protsessorite vahel, võib Dunnington´ide ilmumist oodata juba kolmandas kvartalis või siis neljanda kvartali alguses.
Mikroarhitektuur Intel Nehalem
Meie esimesest põhjalikust tutvusest mikroarhitektuuriga Nehalem on möödunud aasta. Selle aja jooksul on erinevad allikad regulaarselt pakkunud meile kõige erinevat infot uuest mikroarhitektuurist, kuid need andmed olid osaliselt vasturääkivad ning lisaks ei aidanud nad mõista lahenduste Nehalem realiseerimise detaile.
Ennetades Shanghais toimuva foorumi IDF Spring 2008 eelteateid, esinesid vanemasepresident ja osakonna Digital Enterprise Group (DEG) peajuht Pat Gelsinger, asepresident ja osakonna Digital Enterprise Group Operations direktor Stephen L. Smith ning DEG-i peainsener Ronak Singhal hiljuti ettekandega lahenduse Nehalem põhieripäradest.
Niisiis, toome esile mikroarhitektuuri Intel Nehalem põhieripärad ja täiendused, seejärel asume neid detailselt uurima:
- skaleerimisvõimalus kaheksa tuumani
- mikroarhitektuurilt Core päritud võime töödelda nelja käsku ühes taktitsüklis
- andmevoogude paralleeltöötluse tehnoloogia Simultaneous Multi-Threading (SMT)
- integreeritud mälukontroller
- kolmanda taseme ühisvahemälu kasutamine inklusiivse väljatõrjumismehhanismiga
- uus ühendussiin välisseadmetega – QuickPath Interconnect (QPI)
- dünaamiline toitejuhtimine
- uus laienduskomplekt SSE4.2
Praegu on Inteli lauaarvutite protsessorites kõige rohkem neli tuuma. Tuuma Dunnington väljatulek teisel poolaastal lubab suurendada seda kuueni. Uue mikroarhitektuuri juurutamisega kasvab tuumade maksimumhulk kaheksani, kuigi võib olla, et protsessorite Nehalem esimeses põlvkonnas ei tule kaheksatuumalisi mudeleid. Võimalik, et Intel viivitab kaheksatuumaliste lahenduste väljatulekuga 2009. aastani, kui toimub plaaniline üleminek uuele 32-nm tootmisprotsessile, millega on kergem monoliitkristallile paigutada kõik kaheksa tuuma.
Huvitav uuendus on tehnoloogia Simultaneous Multi-Threading. Selle teostusdetaile ning erinevusi tehnoloogiast Hyper-Threading ei avalikustata. Reklaamivoldikutes tuuakse vaid SMT-tehnoloogia üldpõhimõtted:
- iga tuum on võimeline korraga töötlema kahte andmevoogu (sel viisil saavad kaheksatuumalised protsessorid paralleelselt töödelda kuni 16 andmevoogu)
- suureneb protsessorite energiasäästlikus
- andmete multivoogudele optimeeritud ülesannete tootlikkus suureneb 20-30% (multimeedia rakendused, andmebaasid, otsingusüsteemid)
Eraldi rõhutab Intel mikroarhitektuuri Nehalem skaleerimist, mis lubab tagada kolme põhinäitaja - hind, tootlikkus, energiatarve - optimaalse suhte. Protsessorite Nehalem projekteerimisel hakatakse kasutama niinimetatud moodullähenemist, mille olemust demonstreerib näitlikult järgnev joonis.

Nagu näeme, jaguneb protsessori Nehalem struktuur tinglikult viieks põhiliseks ehitusplokiks: protsessorituum, integreeritud mälukontroller, vahemälu pesad, siin QuickPath Interconnect (sellest räägime põhjalikumalt allpool) ning videotuum iGraphics. Ühendades neid komponente erinevates variantides, toob tootja turule terve hulga erinevaid tooteid. Integreeritud mälukontroller tuleb kolme kanaliga ning ta hakkab toetama kuni kolme DIMM-pesa kanali kohta. Nagu oli arvata, on integreeritud mälukontroller võimeline töötama DDR3-mäluga (sealhulgas DDR3-800, DDR3-1066, DDR3-1333). Märgitakse samuti, et eksisteerib võimalus kasutada ka palju kiiremaid mälumooduleid, kusjuures on ette nähtud tugi nii traditsiooniliste puhverdamata moodulite UDIMM paigalduseks laua- ja sülearvutitesse, kui ka RDIMM-mälu paigalduseks serveritesse.

Intelis lubatakse viivituste olulist vähenemist ja mälu läbilaskevõime radikaalset suurenemist. Firmasiseste testide alusel on protsessori Nehalem baasil töötava süsteemi mälu läbilaskevõime neli korda suurem, võrreldes lahendusega Harpertown.
Asume põhjalikult uurima puhverdamise alamsüsteemi. See süsteem oli vastu võetud uue mikroarhitektuuri raames ning kujutab endast tehnoloogia Intel Smart Cache edasiarendust. Esmatasandi vahemälu struktuur on jäänud muutumatuks – 32 KB käskude ja 32 KB andmete säilitamiseks. Teise tasandi vahemälu alamsüsteem näeb ette, et igale tuumale eraldatakse oma pesa (maht 256 KB), seejuures on märgata vahemälu madalat latentsust. Peale selle on ette nähtud 8 MB kolmanda tasandi vahemälu, mis on ühine protsessori kõigile tuumadele.
Puhverdamise alamsüsteemi eripäraks on kasutada info väljatõrjumise inklusiivset moodust. Inteli kinnitusel lubab selline lähenemine märgatavalt vähendada niinimetatud piilumisliiklust (snoop traffic), mis on eriti aktuaalne suure tuumade hulgaga süsteemides. Veel üks oluline arhitektuuriline täiustus on 512 kirjet mahutav kahetasemeline aadresside muundamispuhver (TLB, Translation Look-aside Buffer). Inteli kinnitusel mõjub see tootlikkusele positiivselt.
Järgmised mikroarhitektuurilised täiustused on samuti olulised. Intel jagab need tinglikult kolmeks põhisuunaks:
- Paralleeltöötluse edasiarendus – mikrooperatsioonide (säilitatakse reorganiseerimise/ümberkorrastamise puhvris - ReOrder Buffer) hulga kasv 33% võrra, võrreldes Core´iga (ROB mahu suurenemine 96 kirjelt 128 kirjeni).
- Algoritmide täiustamine – kasutatakse nn tasandamata juurdepääsu vahemälule, samuti suurendatakse elementaarfunktsioonide (primitiivide) teostuskiiruse sünkroonimist, mis peab parendama multivoograkenduste tootlikkust.
- Lõimtöötluse ennustusmehhanismi parendus – selle suuna raames täheldatakse teise tasandi lisamist lõimtöötluse sihtpuhvrisse (BTB, branch target buffer), mis peaks suurendama ennustustäpsust, vähendama seisuaega juhul, kui ennustus on vale. Samuti lisandub uus puhver Renamed Return Stack Buffer, mis on mõeldud vähendama tagastusaadresside ennustusvigade hulka.
On aeg kirjeldada ühte kõige tähtsamat ja ägedalt diskuteeritavat uuendust - traditsioonilise FSB-siini asendamist uue ülikiire ühendusega QuickPath Interconnect (varem tuntud kui Common System Interface (CSI)).
Võimsamate protsessorite ilmumine tingib selle, et süsteemi võimalikuks "pudelikaelaks" osutub süsteemisiin, millel on tähtis roll protsessori ja teiste arvuti komponentide koostöös. Teisisõnu, kui protsessor täidab käske kiiremini, kui ta neid saab, töötab ta poole koormusega (on ooteseisundis).
Praegu kasutatakse Inteli platvormides kahesuunalist välissiini (tuntud kui FSB, Front-Side Bus). See kujutab endast ühenduslüli protsessorituumade ja kiibistiku vahel, mis sisaldab mälukontrolleri ja on juurdepääsuks emaplaadi teistele siinidele (näiteks PCI, AGP jm). Süsteemisiini FSB tootlikkuse tõstmise põhimooduseks on selle sageduse suurendamine ning korraga mitme FSB ühendamine ühes süsteemis. FSB-le langeva koormuse vähendamiseks varustab Intel oma protsessorid mahukama, suurema assotsiatiivsusega vahemäluga.
FSB potentsiaal ammendub, aeg on juurutada täiesti uus süsteemiarhitektuur. QuichPath Architecture raames pakutakse paigutada mälukontroller vahetult protsessorisse, samuti kasutada põhimõtteliselt uut süsteemisiini QuickPath Interconnect. Siini QPI hakatakse kasutama ka protsessorites Tulkwila (Itanium), kuid nendest räägime juba teises kirjutises.
QuickPath Architecture korraldus lubab tagada ülikiire andmevahetuse protsessori ja välismälu, protsessori ja sisend/väljundkontsentraatori vahel. Arhitektuuri põhieripäraks on skaleeritava jagatava mälu (scalable shared memory) kontseptsiooni kasutamine traditsioonilise ühismälu asemel. Viimasele pääsevad protsessorid juurde ainult ühe FSB-siini kaudu. Uue arhitektuuri raames on igal CPU-l isiklik eraldi mälu, mille juurde ta pöördub otse oma integreeritud mälukontrolleri kaudu. Juhul, kui protsessor vajab juurdepääsu teise CPU eraldatud mälule, saab ta sellega ühenduse kanali QuickPath Interconnect kaudu (Intel lubab, et sellisele juurdepääsule ei kulu mitte just palju aega, kuna QPI tagab väga kiire andmeedastuse). Nagu ka siin HyperTransport (kasutatakse juba mitu aastat AMD protsessorites) hakkab QPI kasutama jadasideskeemi "punktist-punkti" (point-to-point), mis tagab suure kiiruse vähese latentsuse juures.
Huvitav on märkida, et QuickPath Architecture pole esimene skaleeritava jagatava mälu kontseptsiooni teostus Inteli toodetes. Sellist lähenemist kasutati juba sarja Intel 8870 kiibistike baasil töötavates serverites (ehkki integreeritud mälukontroller on kasutusel esmakordselt).
Loetleme Intel QuickPath Architecture põhikarakteristikud:
- QuickPath Interconnect´i kanalite tootlikkus saavutab 6,4 gigatransaktsiooni sekundis, mistõttu üldine läbilaskevõime võib jõuda tasemeni 25,6 GB/s (just gigabaiti, mitte gigabitti; Inteli esitletud slaidil (toodud allpool) on trükiviga)
- QPI vähendab teenistusinfo hulka (vajalik mitme protsessoriga süsteemide funktsioneerimiseks), mis lubab vastavalt suurendada kasulike andmete edastuskiirust
- kontroll tsükkelkoodiga (CRC) ja korduva edastusega kanalitasemel vigade tuvastamisel: see tagab andmete terviklikkuse ilma märgatava mõjuta tootlikkusele
- võimalus tagada kõrgtasemeline töökindlus, valmidus ja teenindusmugavus (RAS, Reliability, Availability and Servicebility) tänu kanalite rekonfigureerimisele (juhul, kui on kahjustatud üksikud alad) ning kiirasendustoele
Intelis märgitakse, et paljud kiibiarendajad töötavad juba QPI kasutusega serverilahenduste kallal. Protsessorite Nehalem toeks esitleb firma süsteemiloogikat Tylersburg. Seda hakatakse kasutama serverites, tööjaamades ja High-End klassi lauaarvutites.
Lõpetuseks uurime uut laienduskomplekti SSE4.2. See toetab neljakümmend seitset SSE4 käsku, millest me oleme rääkinud Inteli 45-nm protsessorite eelmises artiklis. Samuti sisaldab see seitset uut rakendustele orienteeritud kiirendit (ATA, Application Targeted Accelerator) ridade ja tekstiinfo töötluseks. Arendajate kinnitusel on lisakiirendid kasulikud näiteks sõnavara- ja lauseanalüüsis, töös regulaaravaldistega, viiruste otsingul.
Lõppsõna
Nii kaua, kui AMD demonstreerib 45-nm kiipide esimesi töötavaid näidiseid, toodab Intel mitmes vabrikus massiliselt oma 45-nm protsessoreid. Oma hiljutises esinemises teatas järjekorralt viies Inteli CEO Paul Otellini, et on välja lastud üle nelja miljoni 45-nm protsessori (perekond Penryn) alates nende turuletulekust eelmise aasta lõpus. Tootmistempo avaldab muljet – 100 000 45-nm protsessorit iga päev.
Loomulikult ei kavatse protsessorite tööstusharu liider peatuda saavutatul ning järgib edasi oma arengumudelit "tikk-takk". Eelmise aasta lõpp paistis silma järjekordse eduka "tikiga", kui turule tuli perekonna Penryn esimene 45-nm protsessor. Sellel aastal plaanib Intel minna üle uuele "takk"-etapile, mille raames esitletakse mikroarhitektuuri Nehalem, kus on (nagu me võisime veenduda) rohkesti paljulubavaid uuendusi.
Teemakohased materjalid:
Infoallikad, mida kasutati artikli kirjutamisel:
Esitluse "Sun und Intel: Vorteile der Allianz" (2008) materjalid
Allikas: 3DNews - Daily Digital Digest

|
|