Accelerating segment anything models via token merging : a comparative study and a spectrum preservation-based approach

dc.contributor.authorXie, Siwei
dc.date.accessioned2025-06-17T09:17:04Z
dc.date.issued2025
dc.description.abstractThe Segment Anything Model (SAM) has emerged as a significant advancement in image segmentation, demonstrating exceptional generalization across diverse datasets with minimal task-specific tuning. However, its computational demands, inherited from Vision Transformers (ViTs), pose considerable challenges for deployment in resource-constrained environments. This thesis addresses these challenges by integrating token merging strategies, which have proven effective in enhancing the efficiency of ViTs without additional training. Specifically, we conduct a comprehensive analysis of SAM’s architecture and adapt existing token merging techniques to reduce computational overhead while maintaining high segmentation accuracy. We propose an architecture for SAM that incorporates these strategies and evaluate its performance and computational efficiency across various datasets, showing that our approach effectively accelerates SAM’s inference speed while preserving segmentation quality. Furthermore, we propose GradToMe based on PiToMe, an innovative method that leverages gradient approximation and grid-based sampling to combine similar tokens. This approach emphasizes spectrum preservation to retain critical information during the token reduction process, thereby improving the effectiveness of token merging and further saving computational costs. Consequently, our results demonstrate that this approach enhances the feasibility of deploying SAM in real-time applications, making it more suitable for use in resource-limited environments without compromising performance. Code is available at: https://github.com/xxjsw/tome_sam.en
dc.description.abstractDas Segment Anything Model (SAM) hat sich als ein bedeutender Fortschritt in der Bildsegmentierung etabliert und zeigt außergewöhnliche Generalisierungsfähigkeiten über verschiedene Datensätze hinweg, bei minimaler aufgabenspezifischer Feinabstimmung. Allerdings stellen die hohen rechnerischen Anforderungen, die vom Vision Transformer (ViT) übernommen wurden, erhebliche Herausforderungen für den Einsatz in ressourcenbeschränkten Umgebungen dar. Diese Thesis geht diese Herausforderungen an, indem sie Token-Merging-Strategien integriert, die sich als effektiv erwiesen haben, um die Effizienz von ViTs ohne zusätzliche Trainingsphase zu verbessern. Insbesondere führen wir eine umfassende Analyse der SAM-Architektur durch und passen bestehende Token-Merging-Techniken an, um den Rechenaufwand zu verringern, ohne die Segmentierungsgenauigkeit zu beeinträchtigen. Wir schlagen eine Architektur für SAM vor, die diese Strategien integriert, und evaluieren ihre Leistung sowie ihre rechnerische Effizienz über verschiedene Datensätze hinweg. Dabei zeigen wir, dass unser Ansatz die Inferenzgeschwindigkeit von SAM effektiv beschleunigt, während die Segmentierungsgenauigkeit erhalten bleibt. Darüber hinaus schlagen wir mit GradToMe, basierend auf PiToMe, eine innovative Methode vor, die Gradientenapproximation und gitterbasierte Stichproben nutzt, um ähnliche Tokens zu identifizieren. Diese Methode legt besonderen Wert auf die Erhaltung des Spektrums, um sicherzustellen, dass während des Token-Merging-Prozesses kritische Informationen erhalten bleiben, was den Token-Merging-Prozess optimiert und die Inferenzgeschwindigkeit weiter steigert. Unsere Ergebnisse zeigen, dass dieser Ansatz die Machbarkeit des Einsatzes von SAM in Echtzeitanwendungen verbessert, wodurch es besser für den Einsatz in ressourcenbegrenzten Umgebungen geeignet ist, ohne die Leistung zu beeinträchtigen. Der Code ist verfügbar unter folgendem Link: https://github.com/xxjsw/tome_sam.de
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-165170de
dc.identifier.urihttps://elib.uni-stuttgart.de/handle/11682/16517
dc.identifier.urihttps://doi.org/10.18419/opus-16498
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subject.ddc004
dc.titleAccelerating segment anything models via token merging : a comparative study and a spectrum preservation-based approachen
dc.typemasterThesis
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnik
ubs.institutInstitut für Künstliche Intelligenz
ubs.publikation.noppnyesde
ubs.publikation.seiten81
ubs.publikation.typAbschlussarbeit (Master)
ubs.unilizenzOK

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Xie_Final Thesis.pdf
Size:
19 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.3 KB
Format:
Item-specific license agreed upon to submission
Description: