Similarity search with set intersection as a distance measure

dc.contributor.advisorDiekert, Volker (Prof. Dr.)de
dc.contributor.authorHoffmann, Benjamin Saschade
dc.date.accessioned2010-06-09de
dc.date.accessioned2016-03-31T07:58:56Z
dc.date.available2010-06-09de
dc.date.available2016-03-31T07:58:56Z
dc.date.issued2010de
dc.date.updated2015-06-02de
dc.description.abstractThis thesis deals with a fundamental algorithmic problem. Given a database of sets and a query set, we want to determine a set from the database that has a maximal intersection with the query set. It is allowed to preprocess the database so that queries can be answered efficiently. We solve the approximate version of this problem. We investigate two randomized input models which are derived from real inputs. We present a deterministic algorithm for each of them. Under the assumption that the database and the query set follow one of these models, the corresponding algorithm determines with high probability a set from the database that has no maximal intersection with the query set, but an intersection that achieves a large proportion of the maximal size. Depending on the model, the query time is either quasi-linear in the sum of the database size and the number of different elements from all sets, or it is polylogarithmic in the database size. Thus, both algorithms are significantly faster than a naive algorithm intersecting the query set with each single database set.en
dc.description.abstractDie vorliegende Arbeit beschäftigt sich mit einem elementaren Problem aus dem Gebiet der Algorithmentheorie. Gegeben sei eine Datenbank von Mengen und eine Anfragemenge. Das Ziel ist, möglichst effizient eine Menge der Datenbank zu bestimmen, die einen Schnitt maximaler Größe mit der Anfragemenge besitzt. Dabei ist es erlaubt, die Datenbank vorzuverarbeiten. Wir präsentieren Lösungen für die Approximationsvariante dieses Problems. Wir untersuchen zwei aus der Praxis hergeleitete Eingabemodelle und stellen für jedes Modell einen deterministischen Algorithmus vor. Verhalten sich die Datenbank und die Anfragemenge gemäß einem dieser Modelle, dann bestimmt der entsprechende Algorithmus mit hoher Wahrscheinlichkeit eine Menge der Datenbank, deren Schnittgröße mit der Anfragemenge zwar nicht maximal ist, jedoch einen hohen Anteil der maximalen Größe erreicht. Die Anfragezeit ist je nach Modell entweder quasilinear in der Summe der Datenbankgröße und der Anzahl der verschiedenen Elemente aller Mengen, oder polylogarithmisch in der Datenbankgröße. Somit sind beide Algorithmen deutlich schneller als ein naiver Algorithmus, der die Größe des Schnittes zwischen der Anfragemenge und jeder einzelnen Menge der Datenbank bestimmt.de
dc.identifier.other324096585de
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-53244de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/2686
dc.identifier.urihttp://dx.doi.org/10.18419/opus-2669
dc.language.isoende
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.classificationApproximationsalgorithmus , Nächste-Nachbarn-Problem , Zipfsches Gesetzde
dc.subject.ddc004de
dc.subject.otherMaximaler-Schnitt-Problem , Randomisierte Eingabemodellede
dc.subject.otherapproximation algorithms , nearest neighbor search , maximal intersection problem , randomized input models , Zipf's lawen
dc.titleSimilarity search with set intersection as a distance measureen
dc.title.alternativeÄhnlichkeitssuche mit der Schnittmengengröße als Distanzmaßde
dc.typedoctoralThesisde
ubs.dateAccepted2010-03-25de
ubs.fakultaetFakultät Informatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Formale Methoden der Informatikde
ubs.opusid5324de
ubs.publikation.typDissertationde
ubs.thesis.grantorFakultät Informatik, Elektrotechnik und Informationstechnikde

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
DissHoff.pdf
Size:
612.59 KB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
935 B
Format:
Plain Text
Description: