Micro architecture for fault tolerant NoCs

Zimmermann, Stefan

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-3163

Autor(en):	Zimmermann, Stefan
Titel:	Micro architecture for fault tolerant NoCs
Erscheinungsdatum:	2013
Dokumentart:	Abschlussarbeit (Diplom)
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-87847 http://elib.uni-stuttgart.de/handle/11682/3180 http://dx.doi.org/10.18419/opus-3163
Zusammenfassung:	Durch die Skalierung der Technologie ist es möglich andere Architekturen umzusetzen. So werden immer mehr Kerne auf einem Chip untergebracht. Mit der steigenden Anzahl an Kernen steigt der Kommunikationsbedarf. Die Alternative zu busbasierten Kommunikationen eines Ein-Chip-Systems ist ein Network-on-Chip. Ein Network-on-Chip basiertes System mit hunderten oder tausenden an Kernen hat bessere Performanceeigenschaften und einen besseren Datendurchsatz als ein vergleichbares busbasiertes Ein-Chip-System. Das Netzwerk auf einem Chip wird durch Switche aufgespannt. An jeden dieser Switche ist jeweils ein Kern angeschlossen. Durch Produktionsschwankungen oder nach einer gewissen Zeit kann der Chip defekt werden. Die dadurch auftretenden Defekte können einen wesentlichen Einfluss auf die Systemperformance und die Systemverfügbarkeit haben. Es muss sichergestellt werden, dass eine fehlerhafte Verbindung zwischen einem Switch und einem Kern oder ein defekter Kern den Systembetrieb nicht beeinflusst. Dies ist der Grund, dass diese Fehler erkannt und toleriert werden müssen. Um fehlerhafte Verbindungen zwischen dem Switch und dem Kern zu erkennen, wird die Anschlussfunktionalität bei Auftreten eines Fehlers überprüft. Informationen über die fehlerhaften Anschlüsse werden lokal in jedem Switch gespeichert. Eine redundante Verbindung zwischen dem Kern und den Switchen hält die Kernverbindung aufrecht, wenn ein Switch oder eine Verbindung zu dem Kern beschädigt ist. Drei Konfigurationen, mit zwei, mit drei und mit vier Switchverbindungen zu einem Kern, werden durch eine numerische Verfügbarkeitsberechnung untersucht. Die fehlertolerante Architektur codifiziert außerdem den Routingalgorithmus. Die Pakete müssen zu jedem Kern auch durch die alternative Verbindung zugestellt werden. Durch diese Erweiterungen kann die Verfügbarkeit und die Performance erhöht werden. Um die Zuverlässigkeit des Systems zu erhöhen, werden transiente Fehler von permanenten Fehlern unterschieden. Hierfür wird die Überprüfung der Verbindungen erweitert. Die Architektur wird dazu verwendet dass fehlerhafte Kerne erkannt werden. Die Operationen werden auf drei identischen Kernen, die an den gleichen Switch angeschlossen sind, ausgeführt. Ist das Ergebnis eines Kerns anders als das von den anderen Kernen, dann wird der fehlerhafte Kern von diesem Switch getrennt. Durch diese dreifach modulare Redundanz steigt die Zuverlässigkeit des Systems. Due to the scaling of technology, it is possible to implement other architectures. Thus, more and more cores are placed on a chip. With the increasing number of cores is increasing the demand for communication. The alternative to the bus-based communication of a system-on-chip is a network-on-chip. A network-on-chip based system with hundreds or thousands of cores has a better performance and higher throughput than a comparable bus-based system-on-chip. The network on a chip is spanned by the switches. To each of these switches is connected to a core each. With the increasingly complex systems, the error rate of a system increases. The defects occurring thereby can have a significant impact on system performance and system availability. It must be ensured that a faulty connection between a switch and a core or a defective core will not affect the system operation. For this reason that these faults must be detected and tolerated. To detect faulty connections between the switch and the core, the port functionality of the connection is checked when an error occurs. Information about the faulty port is stored locally in the switch. A redundant connection between the core and the switches keeps the core connected if a switch breaks down or the connection to the core is broken. Three configurations, with two, three and four switches connected to a core are examined by numerical reliability calculations. The fault-tolerant architecture also modifies the routing algorithm. The packets must be delivered to each core through alternative connections too. Through these extensions, the availability and performance can be increased. In order to increase the reliability of the system transient errors of permanent errors distinguish. For this purpose, the verification of connections is expanded. The architecture is used to detect the faulty cores. The operations are scheduled to be performed on three identical cores connected to the same switch. If the result of one core is different to the other cores then the faulty core is disconnected from that switch. Through this triple modular redundancy, the reliability of the system increases.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
DIP_3451.pdf		6,75 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart