Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-2797
Autor(en): Baranovskiy, Evgeny
Titel: Methodik zur automatisierten Extraktion und Klassifikation semistrukturierter Produkt-und Adressdaten aus Webseiten
Sonstige Titel: Methods for the automated extraction and classification of semistructured product data and adresses from web pages
Erscheinungsdatum: 2011
Dokumentart: Abschlussarbeit (Diplom)
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-70086
http://elib.uni-stuttgart.de/handle/11682/2814
http://dx.doi.org/10.18419/opus-2797
Zusammenfassung: Diese Arbeit stellt eine neue Methodik für die automatisierte Extraktion und Klassifikation von Daten aus Webseiten vor. Die Methodik EH ("Extraction Heuristics") ist für die Domänen der Produkt- und Adressdaten konzipiert und erlaubt die Erweiterung um zusätzliche Domänen. Der Bedarf nach einer solchen Methodik ist groß, weil die Vielfalt von Informationen auf Websites eine lukrative Datenquelle darstellt. Mit den vorhandenen Werkzeugen und Verfahren lassen sich die Inhalte von Websites nur in einem begrenzten Umfang extrahieren, wobei sich eine Reihe von Nachteilen für den Benutzer ergeben. Zudem bieten die vorhandenen Werkzeuge keinerlei Möglichkeit zur Klassifikation der extrahierten Daten. Die Methodik EH bietet einen einfachen und erweiterbaren Prozess, der alle Teilaufgaben der Extraktion und Klassifikation von Daten aus Webseiten abdeckt und durch das hohe Maß an Automatisierung den Benutzer entlastet. Mit der prototypischen Implementierung der Methodik EH in einer Anwendung xScraper wurden fünfzig Websites der Datenextraktion und Klassifikation unterzogen. Die Evaluation anhand von verschiedenen Kriterien hat die Wirksamkeit der Methodik bewiesen.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
DIP_3171.pdf3,53 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.