Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-2797
Langanzeige der Metadaten
DC ElementWertSprache
dc.contributor.authorBaranovskiy, Evgenyde
dc.date.accessioned2011-12-27de
dc.date.accessioned2016-03-31T07:59:24Z-
dc.date.available2011-12-27de
dc.date.available2016-03-31T07:59:24Z-
dc.date.issued2011de
dc.identifier.other366025325de
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-70086de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/2814-
dc.identifier.urihttp://dx.doi.org/10.18419/opus-2797-
dc.description.abstractDiese Arbeit stellt eine neue Methodik für die automatisierte Extraktion und Klassifikation von Daten aus Webseiten vor. Die Methodik EH ("Extraction Heuristics") ist für die Domänen der Produkt- und Adressdaten konzipiert und erlaubt die Erweiterung um zusätzliche Domänen. Der Bedarf nach einer solchen Methodik ist groß, weil die Vielfalt von Informationen auf Websites eine lukrative Datenquelle darstellt. Mit den vorhandenen Werkzeugen und Verfahren lassen sich die Inhalte von Websites nur in einem begrenzten Umfang extrahieren, wobei sich eine Reihe von Nachteilen für den Benutzer ergeben. Zudem bieten die vorhandenen Werkzeuge keinerlei Möglichkeit zur Klassifikation der extrahierten Daten. Die Methodik EH bietet einen einfachen und erweiterbaren Prozess, der alle Teilaufgaben der Extraktion und Klassifikation von Daten aus Webseiten abdeckt und durch das hohe Maß an Automatisierung den Benutzer entlastet. Mit der prototypischen Implementierung der Methodik EH in einer Anwendung xScraper wurden fünfzig Websites der Datenextraktion und Klassifikation unterzogen. Die Evaluation anhand von verschiedenen Kriterien hat die Wirksamkeit der Methodik bewiesen.de
dc.language.isodede
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleMethodik zur automatisierten Extraktion und Klassifikation semistrukturierter Produkt-und Adressdaten aus Webseitende
dc.title.alternativeMethods for the automated extraction and classification of semistructured product data and adresses from web pagesen
dc.typemasterThesisde
ubs.fakultaetFakultät Informatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Parallele und Verteilte Systemede
ubs.opusid7008de
ubs.publikation.typAbschlussarbeit (Diplom)de
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
DIP_3171.pdf3,53 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.