Hintergrund: Prozessortest und -validierung

Die Fehler in Intels 1,13-GHz-Pentium führen die Probleme der Hersteller bei den Testphasen vor Augen. Es dauert nicht mehr lange, da übersteigen die Kosten für Test und Validierung eines Prozessors die Herstellungskosten.

In Pocket speichern vorlesen Druckansicht 62 Kommentare lesen
Lesezeit: 7 Min.
Von
  • Andreas Stiller

Die Fehler in Intels 1,13-GHz-Pentium führen die Probleme der Hersteller bei den Testphasen vor Augen. Es dauert nicht mehr lange, da übersteigen die Kosten für Test und Validierung eines Prozessors die Herstellungskosten – so stellten es die Intel-Ingenieure Sengupta und Kundu im Intel Technologie Journal 1/99 fest. Laut Roadmap der Semiconductor Industry Association (SIA) sind die Herstellungskosten in den letzten 10 Jahren von etwa 100 US-Dollar pro Millionen Transistoren auf etwa 10 US-Dollar gefallen. Demgegenüber blieb der Testaufwand mit etwa 10 Cent/Mio konstant. Der "Cross-Over" wird für 2012 erwartet (siehe Grafik). De facto dürfte Intel aber bei den Produktionskosten jetzt schon deutlich unter 10 US-Dollar/Mio liegen, denn sonst würde ein Pentium 4 420 US-Dollar allein in der Herstellung kosten und beim Celeron würde der Marktführer sogar deutlich drauflegen.

Test und Validierung haben eine etwas unterschiedliche Bedeutung. Der Test zielt auf die Produktion und die Einhaltung bestehender Vorgaben für jeden einzelnen Prozessor, die Validierung überprüft das prinzipielle Design und das Zusammenspiel mit anderen Komponenten (Chipsatz und so weiter). Solche Validierungen mit Hilfe des Beschreibungsmodells auf Register Transfer Level (RTL) finden schon statt, bevor überhaupt das erste Silizium gebacken wird (Prevention Phase). Per Software simulierte Prozessor-Designs arbeiten mit etwa 2 bis 5 Hertz auf einer üblichen Workstation. Um hier ein bisschen mehr Performance zu erzielen, schaltet Intel weltweit alle für den Hersteller verfügbaren Systeme zu einem riesigen Cluster zusammen. Dennoch reicht das nicht, um etwa Windows zu booten. Das schaffen allerdings spezielle Hardware-Emulatoren (meist von Quickturn), die über mehrere Hundert Kilohertz, heutzutage auch schon über ein MHz Prozessortakt emulieren können.

Die Testabteilung beginnt bei der Produktion des Wafers ihre Arbeit, denn jeder Wafer unterliegt bereits während der Produktion aufwändigen Überprüfungen. Per Line Defect Control suchen Inspekteure in verschiedenen Prozessstadien mit dem Mikroskop nach Beschädigungen und Partikelchen. Dies übernehmen inzwischen aber zunehmend auch automatische Bildverarbeitungsverfahren und Laser-Reflexions-Techniken. Über den Fortgang eines jeden Wafers wird im Laufe seines etwa sechswöchigen Bearbeitungszeitraumes genau Buch geführt, wobei insbesondere Schwankungen der Prozessparameter relevant sind.

Schon allein dadurch lassen sich die Wafer in verschiedene Qualitätsstufen einteilen. Die eigentliche Sortierung, der Wafer Sort, geschieht zum Schluss. Hierfür ist eine Adaption spezieller Testgatter über feine Messnadeln auf dem Wafer nötig. Früher geschah das bei Raumtemperatur, inzwischen kühlt man auch die Wafer, um eine bessere Ausbeute bei den Speed-Tests auf Waferebene zu erzielen. Die maximale Geschwindigkeit verschlechtert sich nämlich um etwa 0,15 Prozent pro Grad Celsius. Sollten Fehler zu Tage treten, macht sich das "Failure Analyse"-Team an die Arbeit, um den Grund dafür aufzuspüren. Die Analysewerkzeuge ab dem 0,18-µm-Prozess sind vorrangig Elektronenstrahlen (e-beam probing von Schlumberger oder Advantest/ACT) oder fokussierte Ionenstrahlen.

Der Wafer Sort ist eine Vorauswahl, an der sich dann beim fertigen Chip der Class Test anschließt. Doch zuvor muss jeder Chip in den Ofen. Beim Burn in wird er mit 40-Prozentiger Überspannung etwa 8 Stunden bei 85 Grad Celsius "gebacken". In der Zukunft will Intel neue Öfen mit 100 Grad Celsius einsetzen, sodass sich die Burn-in-Phase auf 4 Stunden reduziert. Da allerdings zukünftige Chips bei dieser Überspannung locker auch mal 250 W verbraten, muss so ein Ofen bei einer Ladung von vielleicht 1000 Prozessoren gut 250 KW verheizen.

Nach dem Burn in kommt der Class Test, der die korrekte Funktion überprüft und der auch das Speed Binning (Einteilen in Geschwindigkeitsklassen) beinhaltet. Für jeden Prozessor stehen hierfür insgesamt nur wenige Sekunden zur Verfügung. Dennoch sollen ausgefuchste Algorithmen hierbei mit hoher Sicherheit interne Kurzschlüsse (Bridge faults) oder Unterbrechungen (stuck at faults, open fault) aufspüren. Moderne Prozessoren unterstützten spezielle Testmodi, die Zugriffe direkt auf die einzelnen Speicherzellen (Register, Buffer, Caches) zulassen (Direct Access Test). Rund eine Sekunde Prüfzeit ist für das Speed Binning vorgesehen, bei dem eine Vielzahl kritischer Pfade im Prozessor, auch Speed Paths genannt, abgecheckt werden (delay faults). Rund 1000 solcher Speed Paths sollen nach Angaben der Intel Validation Crew beispielsweise im Coppermine-Logbuch vermerkt sein. Im Specification Upgrade findet man hier und da mal einen übersehenen Speed Path. So geschehen beim Pentium Pro, der zuweilen beim MOVS einen Transfer zuviel ausführte. Bei Intel heißen solche übersehenen Bugs nach der offiziellen Prozessor-Einführung übrigens Escapes. Speed Paths setzen sich aus der Summe der Verzögerungszeiten in den Gattern und den Interconnects zusammen. Störend kommen hier Rauschen, Übersprechen, Resonanzen und andere Effekte hinzu. Ein Speed Path mit Resonanzproblemen war beispielsweise auch beim Rambus-Desaster mit den Camino-Boards die Fehlerursache. Bestimmte aufeinanderfolgende Bitmuster konnten mit der Leitungslänge korrelieren und so stehende Wellen erzeugen.

Trotz der kurzen Betriebsdauer von wenigen Sekunden müssen stromhungrige Chips wie der Pentium 4 und seine Nachfolger gut gekühlt werden, um die Yieldrate zu erhöhen (wie Intel in dem gerade vor wenigen Tagen erschienenem Technologie-Journal 3Q2000 ausführt). Parallel zu den Tests finden in Intels Performance Microprocessor Division in Oregon auf zwei Ebenene fortlaufend Überprüfungen des Designs ("Bug-Suche") statt. Die System Validation Crew untersucht in speziellen Validation Boards mit Zufalls-Instruktionen, Streßtests (Überspannung, Übertemperatur, Übertaktung) und anderen Bösartigkeiten die Zuverlässigkeit. Die Kollegen von der Compatibility Validation benutzen reale, handelsübliche Systeme. Spätestens hier hätte sich eigentlich der Fehler bei den 1,13-GHz-Prozessoren entlarven müssen.

Speed Paths sind allerdings irgendwo in der Grauzone zwischen den Test- und Validierungs-Bereichen angesiedelt. Hinzu kommt, dass Intel gerade eine Umstrukturierung des Testverfahrens durchführt, um den immer komplexer werdenden Testanforderungen gerecht zu werden und die Kosten nicht ins Uferlose wachsen zu lassen. Bislang war ein Functional Test mit von Hand vorgegebenen Testvektoren im Einsatz, der diverse "reale" Funktionen des Prozessors abcheckte (und somit auch für die Validierungskollegen recht nützlich war). Nun soll sich ein so genannter Structural Test mit automatisch erzeugten Pattern (Automatic Test Pattern Generator, ATPG) nur noch auf die korrekte Funktion einzelner Gatter und Verbindungen konzentrieren (Defect Based Test, DBT).

Es kann gut sein, dass sich der Bug des offenbar vorschnell verkündeten 1,13 GHz-Prozessors im Gerangel zwischen Test- und Validierungsbereichen und auf Grund von Wettbewerbs- und Kostendruck durchgeschummelt hat. Das könnte in Zukunft noch häufiger geschehen, denn die Zahl der zu entlarvenden Bugs steigt laut John Barton, Intels Validation Director, pro Chip-Generation um den Faktor 4... Allerdings, meint Barton, steige die Erkennungsrate noch schneller, sodass nach seiner Ansicht immer weniger Escapes übrig bleiben sollten. (as)