Intels Ponte Vecchio og AMDs Zen 3 viser løftet om avansert halvlederpakketeknologi

Intel og AMD diskuterte noen av deres mest avanserte brikkedesign på International Solid State Circuits Conference denne uken, og de fremhevet rollen som avansert emballasje spiller i deres fremtidige high-end brikkeprodukter. I begge tilfeller kommer de imponerende nye ytelsesegenskapene fra modulære tilnærminger som kombinerer byggeklosser laget på forskjellige fabrikker ved hjelp av forskjellige produksjonsprosesser. Det illustrerer det enorme potensialet til brikkepakking i fremtiden for halvlederinnovasjon.

Intels målmarked for Ponte Vecchio er som en høyytelsesmodul som skal bygges inn i store datasentersystemer. Det er en grafisk prosesseringsenhet (GPU), og er designet for applikasjoner innen kunstig intelligens, maskinlæring og datagrafikk. Den er oppkalt etter den middelalderske steinbroen som forbinder Piazza della Signoria på den ene siden av elven Arno i Firenze, Italia med Pallazzo Pitti på den andre siden. Et av høydepunktene i designet er hvordan den kobler sammen en mengde spesialiserte brikker – integrerte kretsbyggeblokker som er ment å kombineres for å lage komplette systemer.

Ponte Vecchio bruker åtte "fliser" produsert på Taiwan Semiconductor Manufacturing Companys (TSMC) mest avanserte 5 nm-prosess. Hver flis har åtte "Xe”-kjerner, og hver av de åtte kjernene har i sin tur åtte vektor- og åtte spesialiserte matrisemotorer. Flisene er plassert på toppen av en "grunnflis", som kobler dem til minnet og omverdenen med et gigantisk bryterstoff. Denne grunnflisen er bygget ved hjelp av selskapets "Intel 7"-prosess, som er et nytt navn for selskapets forbedrede 10 nm SuperFin-produksjonsprosess. Det er også et høyytelses minnesystem kalt "RAMBO", som står for Random Access Memory, Bandwidth Optimized, som ble bygget på en grunnflis ved hjelp av Intel 7 Foveros interconnect-teknologi. Mange andre byggeklosser er også inkorporert.

Ponte Vecchio-designet er et casestudie innen heterogen integrasjon – som kombinerer 63 forskjellige fliser (47 som utfører datafunksjoner og 16 for termisk styring) med totalt over 100 milliarder transistorer i en enkelt pakke som er 77.5 x 62.5 mm (omtrent 3 x 2.5 tommer). Det er ikke så lenge siden da så mye datakraft fylte et lager og krevde egen tilkobling til det elektriske nettet. De tekniske utfordringene i et slikt design er mange:

Koble til alle delene. Designere trenger en måte å flytte signaler mellom alle de forskjellige brikkene. I gamle dager ble dette gjort med ledninger eller spor på trykte kretskort, og brikker ble festet ved å lodde dem til platene. Men det gikk tom for lenge siden, da antallet signaler og hastigheten økte. Hvis du legger alt i en enkelt brikke, kan du koble dem med metallspor i bakenden av produksjonsprosessen. Hvis du vil bruke flere brikker, betyr det at du trenger mange tilkoblingsstifter, og du vil at tilkoblingsavstandene skal være korte. Intel bruker to teknologier for å støtte dette. Den første er dens "embedded multi-die interconnect bridge" (EMIB) som er laget av en liten silisiumskive som kan gi hundrevis eller tusenvis av tilkoblinger om gangen, og den andre er dens Foveros die-to-die stablingsteknologi først brukt i sin Lakefield mobile prosessor.

Sørg for at alle delene er synkronisert. Når du kobler til mange forskjellige deler, må du sørge for at alle delene kan snakke med hverandre synkront. Dette betyr vanligvis å distribuere et tidssignal kjent som en klokke, slik at alle brikkene kan fungere i låsetrinn. Dette viser seg ikke å være trivielt, ettersom signalene har en tendens til å bli skjeve og miljøet er veldig støyende, med mange signaler som spretter rundt. Hver beregningsbrikke har for eksempel mer enn 7,000 tilkoblinger i en plass på 40 kvadratmillimeter, så det er mye å holde synkronisert.

Håndtere varme. De modulære flisene krever hver for seg mye kraft, og det er en stor utfordring å levere den jevnt over hele overflaten samtidig som man fjerner varmen som genereres. Minnebrikker har vært stablet en stund, men varmen som genereres er ganske jevnt fordelt. Prosessorbrikker eller fliser kan ha hot spots avhengig av hvor mye de brukes, og det er ikke lett å håndtere varme i en 3D-stabel med brikker. Intel brukte en metalliseringsprosess for baksiden av brikker, og integrerte disse med varmespredere for å håndtere de anslåtte 600 wattene produsert av Ponte Vecchio-systemet.

De første laboratorieresultatene som Intel rapporterte inkluderte >45 Teraflops-ytelse. Aurora-superdatamaskinen som bygges ved Argonne National Laboratories vil bruke mer enn 54,000 18,000 Ponte Vecchios sammen med mer enn 2 1,000 neste generasjons Xeon-prosessorer. Aurora har en målrettet toppytelse på over 1990 Exaflops, som er 100 ganger mer enn en Teraflop-maskin. På midten av XNUMX-tallet da jeg var i superdatabransjen, var en Teraflop-maskin et vitenskapelig prosjekt på XNUMX millioner dollar.

AMDs Zen 3

AMD snakket om sin Zen 3 andre generasjons mikroprosessorkjerne bygget på TSMCs 7 nm prosess. Denne mikroprosessorkjernen ble designet for å brukes på tvers av AMDs markedssegmenter, fra mobilenheter med lav effekt, stasjonære datamaskiner og hele veien til de kraftigste datasenterserverne. Den sentrale grunnsetningen i denne strategien var å pakke Zen 3-kjernen med støttefunksjoner som et "kjernekompleks" på en enkelt brikke, som fungerte som modulære byggeklosser omtrent som Intels fliser. Dermed kunne de pakke åtte chiplets sammen for en høyytelses skrivebord eller server, eller fire chiplets for et verdisystem, som et billig hjemmesystem jeg kan kjøpe. AMD stabler også brikker vertikalt ved å bruke det som kalles through-silicon vias (TSV), en måte å koble sammen flere brikker plassert oppå hverandre. Den kan også kombinere to til åtte av disse brikkene med en serverform laget på en GlobalFoundries 12 nm prosess for å lage sine 3rd generasjons EPYC-serverbrikker.

Den store muligheten Ponte Vecchio og Zen 3 fremhever er muligheten til å mikse og matche sjetonger laget ved hjelp av forskjellige prosesser. I Intels tilfelle inkluderte dette deler laget på både egne og TSMCs mest avanserte prosesser. AMD kunne kombinere deler fra TSMC og GlobalFoundries. En stor fordel med å koble mindre brikker eller fliser sammen i stedet for bare å bygge en stor brikke er at de mindre vil ha bedre produksjonsutbytte og derfor er mindre kostbare. Du kan også mikse og matche nye chiplets med eldre velprøvde som du vet er gode, eller som er laget på en rimeligere prosess.

Både AMD- og Intel-designene er tekniske tours de force. Uten tvil representerer de mye hardt arbeid og læring, og representerer enorme investeringer av ressurser. Men akkurat som IBM introduserte modulære undersystemer i sin stormaskin System/360 på 1960-tallet, og personlige datamaskiner ble modulære på 1980-tallet, varslet den modulære partisjonen av silisiummikrosystemer som eksemplifisert av disse to designene og muliggjort av avansert brikkepakking et betydelig teknologiskifte. Riktignok er mange av funksjonene som vises her fortsatt utenfor rekkevidden for de fleste nystartede bedrifter, men vi kan forestille oss at når teknologien blir mer tilgjengelig, vil den utløse en bølge av miks-og-match-innovasjon.

Kilde: https://www.forbes.com/sites/willyshih/2022/02/22/intels-ponte-vecchio-and-amds-zen-3-show-the-promise-of-advanced-semiconductor-packaging- teknologi/