Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-3585
Authors: Dalirsani, Atefe
Title: Self-diagnosis in Network-on-Chips
Other Titles: Selbstdiagnose in Network-on-Chips
Issue Date: 2015
metadata.ubs.publikation.typ: Dissertation
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-101468
http://elib.uni-stuttgart.de/handle/11682/3602
http://dx.doi.org/10.18419/opus-3585
Abstract: Network-on-Chips (NoCs) constitute a message-passing infrastructure and can fulfil communication requirements of the today’s System-on-Chips (SoCs), which integrate numerous semiconductor Intellectual Property (IP) blocks into a single die. As the NoC is responsible for data transport among IPs, its reliability is very important regarding the reliability of the entire system. In deep nanoscale technologies, transient and permanent failures of transistors and wires are caused by variety of effects. Such failures may occur in the NoC as well, disrupting its normal operation. An NoC comprises a large number of switches that form a structure spanning across the chip. Inherent redundancy of the NoC provides multiple paths for communication among IPs. Graceful degradation is the property of tolerating a component’s failure in a system at the cost of limited functionality or performance. In NoCs, when a switch in the path is faulty, alternative paths can be used to connect IPs, keeping the SoC functional. To this purpose, a fault detection mechanism is needed to identify the faulty switch and a fault tolerant routing should bypass it. As each NoC switch consists of a number of ports and multiple routing paths, graceful degradation can be considered even in a rather granular way. The fault may destroy some routing paths inside the switch, leaving the rest non-faulty. Thus, instead of disabling the faulty switch completely, its fault-free parts can be used for message passing. In this way, the chance of disconnecting the IP cores is reduced and the probability of having disjoint networks decreases. This study pursues efficient self-test and diagnosis approaches for both manufacturing and in-field testing aiming at graceful degradation of defective NoCs. The approaches here identify the location of defective components in the network rather than providing only a go/no-go test response. Conventionally, structural test approaches like scan-design have been employed for testing the NoC products. Structural testing targets faults of a predefined structural fault model like stuck-at faults. In contrast, functional testing targets certain functionalities of a system for example the instructions of a microprocessor. In NoCs, functional tests target NoC characteristics such as routing functions and undistorted data transport. Functional tests get the highest gain of the regular NoC structure. They reduce the test costs and prevent overtesting. However, unlike structural tests, functional tests do not explicitly target structural faults and the quality of the test approach cannot be measured. We bridge this gap by proposing a self-test approach that combines the advantages of structural and functional test methodologies and hence is suitable for both manufacturing and in-field testing. Here, the software running on the IP cores attached to the NoC is responsible for test. Similar to functional tests, the test patterns here deal only with the functional inputs and outputs of switches. For pattern generation, a model is introduced that brings the information about structural faults to the level of functional outputs of the switch. Thanks to this unique feature of the model, a high structural fault coverage is achieved as revealed by the results. To make NoCs more robust against various defect mechanisms during the lifetime, concurrent error detection is necessary. Toward this, this dissertation contributes an area efficient synthesis technique of NoC switches to detect any error resulting from single combinational and transition fault in the switch and its links during the normal operation. This technique incorporates data encoding and the standard concurrent error detection using multiple parity trees. Results reveal that the proposed approach imposes less area overhead as compared to traditional techniques for concurrent error detection. To enable fine-grained graceful degradation, intact functions of defective switches must be identified. Thanks to the fault tolerant techniques, fault-free parts of switches can be still employed in the NoC. However, reasoning about the fault-free functions with respect to the exact cause of a malfunction is missing in the literature. This dissertation contributes a novel fine-grained switch diagnosis technique that works based on the structural logic diagnosis. After determining the location and the nature of the defect in the faulty switch, all routing paths are checked and the soundness of the intact switch functions is proved. Experimental results show improvements in both performance and reliability of degraded NoCs by incorporating the fine-grained diagnosis of NoC switches.
Network-on-Chips (NoCs) bilden eine Nachrichtenaustausch-Infrastruktur, welche Kommunikationsanforderungen der heutigen System-on-Chips (SoCs), die vorentworfen Blöcke (Intellectual Property, IP) in einem einzigen Chip integrieren, erfüllen können. Da der Datentransport zwischen den IPs durch NoCs realisiert wird, ist deren Zuverlässigkeit entscheidend für die Zuverlässigkeit des Gesamtsystems. Bei im Nanomaßstab gefertigten Transistoren und Leitungen werden transiente und permanente Ausfälle durch verschiedene Effekte verursacht. Derartige Fehler können auch in einem NoC auftreten, und so den normalen Betrieb stören. Ein NoC umfasst eine große Anzahl schaltender Elemente (Switches), die eine aufspannende Struktur über den Chip bilden. Inhärente Redundanz von NoCs ermöglicht mehrere Pfade für die Kommunikation zwischen IPs. Graceful Degradation ist eine Eigenschaft des Systems, welches den Ausfall einer Komponente auf Kosten eingeschränkter Funktionalität oder Leistung erlauben kann. Wenn ein Switch in einem Pfad fehlerhaft ist, können im NoC alternative Pfade verwendet werden, um IPs zu verbinden, wobei das SoC weiterhin funktioniert. Zu diesem Zweck wird ein Fehlererkennungsmechanismus benötigt, um fehlerhafte Switches zu identifizieren und mit fehlertolerantem Routing fehlerhafte Switches zu umgehen. Da jeder NoC Switch aus mehreren Ports und Routingpfaden besteht, kann Graceful Degradation auch auf granularer Weise berücksichtigt werden. Ein Fehler kann einige Routing-Pfade innerhalb des Switches zerstören, wobei der Rest fehlerfrei bleibt. Auf diese Weise wird die Möglichkeit des Abtrennens von IP-Kernen als auch die Wahrscheinlichkeit eines getrennten Netzwerks verringert. Die hier durchgeführte Forschung verfolgt effiziente Selbsttest- und Diagnose-Ansätze, sowohl für die Herstellung als auch für den Feldtest. Das Ziel ist die Graceful Degradation von defekten NoCs. Die Ansätze können nicht nur die Präsenz eines Fehlers, sondern auch die Position der fehlerhaften Komponenten im Netzwerk erkennen. Üblicherweise werden Strukturtests wie beispielsweise ein Scan-Test für die Prüfung von NoCs eingesetzt. Strukturtests zielen auf vordefinierte Strukturfehlermodelle wie Haftfehler ab. Im Gegensatz dazu zielt ein Funktionstest auf bestimmte Funktionalitäten eines Systems, wie zum Beispiel auf den Befehlssatz eines Mikroprozessors ab. In NoCs prüfen Funktionstests Eigenschaften wie Routing-Funktionen und unverfälschten Datentransport. Funktionstests profitieren am stärksten von regulären Strukturen in NoCs. Bei diesen Tests werden die Testkosten reduziert, und ein Übertesten (overtesting) verhindert. Im Gegensatz zu Strukturtests betrachten die Funktionstests nicht explizit Strukturfehler, wodurch die Qualität des Testansatzes nicht bestimmt werden kann. Wir schließen diese Lücke mit einem Selbsttest-Ansatz, der die Vorteile der strukturellen und funktionellen Testmethoden kombiniert, und sich sowohl für die Herstellung als auch für den Einsatz im Feld eignet. Dabei ist die laufende Software der IP-Cores für die Testdurchführung verantwortlich. Testmuster umfassen, ähnlich wie bei Funktionstests, nur funktionale Ein- und Ausgänge von Switches. Zur Mustererzeugung wird ein Modell vorgestellt, das die Informationen über strukturelle Fehler auf die Ebene der Funktionsausgänge der Switches überträgt. Dank dieser Besonderheit des Modells wird eine hohe strukturelle Fehlerabdeckung erreicht, wie durch die präsentierten Ergebnisse gezeigt wird. Um NoCs zur Laufzeit robuster gegen verschiedene Fehlermechanismen zu machen, ist nebenläufige Fehlererkennung notwendig. In diesem Zusammenhang beinhaltet diese Dissertation eine flächeneffiziente Synthesetechnik für NoCs, wodurch alle einzelnen kombinatorischen und transienten Fehler in Switches und deren Verbindungen während des normalen Betriebs erkannbar sind. Diese Technik beinhaltet eine Datencodierung und die standardmäßige, nebenläufige Fehlererkennung mit mehreren Paritätsbäumen. Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz im Vergleich zu herkömmlichen Techniken zur nebenläufigen Fehlererkennung weniger Flächenaufwand verursacht. Um feingranulare Graceful Degradation zu aktivieren, müssen intakte Funktionen von defekten Switches identifiziert werden. Dank fehlertoleranter Techniken können fehlerfreie Teile von NoC-Switches weiterhin eingesetzt werden. Allerdings fehlt in der Literatur ein Verfahren zur Bestimmung der fehlerfreie Funktion in Bezug auf die genaue Ursache einer Störung. Diese Dissertation umfasst eine neuartige feingranulare Switch-Diagnose-Technik, die basierend auf struktureller Logik-Diagnose funktioniert. Nach der Bestimmung der Lage und der Art des Defekts in dem fehlerhaften Switch sind alle Routingpfade überprüft und die Korrektheit der intakten Switchfunktionen bewiesen. Experimentelle Ergebnisse zeigen beim Einsatz der feingranularen Diagnose Verbesserungen in der Leistung und Zuverlässigkeit defekter NoCs.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Dalirsani_Diss_2015.pdf2,59 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.