Department of Computer Science Technische Universitaet Muenchen
Home People Teaching Research Publications
Wissenschaftliche Veröffentlichungen | TV, Radio, Newspapers | Online-Publikationen | Messen und Ausstellungen


Dr. Matthias Wimmer

Technische Universität München - Informatik IX - Boltzmannstr. 3 - 85748 Garching
Telefon: +49 (89) 289-17784   —   Raum: 02.09.053
E-Mail: matthias.wimmer@in.tum.de   —   Homepage: wwwradig.in.tum.de/people/wimmerm


Fertiggestellte Projektarbeiten / Finished theses

Face Model Fitting, Learning the Objective Function: Facial Expression Recognition: Computer Vision (further topics): Semantic Web, Smart Environments:


Learning Generic and Person-specific Objective Functions

Diplomarbeit von Sylvia Pietzsch

Model-based image interpretation systems are a widespreadly used approach to extract high-level information, such as the facial expression of a person, from image data. This thesis issues a main component of these systems: the objective function. It describes how objective functions are made robust by learning them from annotated images and extensively inspect their improvements to model fitting. Beside the generic approach, that takes all possible occurences of an object into consideration, when learning the objective function, this thesis shows a way to learn objective functions that are specific to several objects and will further improve model tracking algorithms.




Learning Robust Objective Functions for Fitting Three-Dimensional Face Models

Diplomarbeit von Christoph Mayer





Designing versus learning the objective function for face model fitting

Diplomarbeit von Stephan Tschechne

In image understanding applications, models serve as an intermediate step for retrieving information from images. Fitting algorithms perform the task of fitting models into images. An important part of every fitting algorithm is the objective function which calculates the accuracy of a model instance for an image. Nevertheless, building objective functions for fitting algorithms has not been researched well, so far. This thesis proposes a set of requirements that need to be considered in order to obtain robust objective functions. They allow for a direct comparison of different objective functions. Furthermore, we analyse traditional objective functions that are used for model fitting and propose a new approach, which learns the objective function from training data.




Entwicklung eines dynamischen Klassifikators zur Lokalisation von Retina, Iris, Lippen, Augenbrauen und Zähnen innerhalb eines Gesichtes

Systementwicklungsprojekt von Elena Dimitrova

Das Ziel dieses Projekts ist, Farbklassifikatoren zu erstellen, die die unterschiedlichen Gesichtskomponenten bestmöglich erkennen. Da es schon einen Klassifikator für die Hautfarbe gibt, konzentriert sich die Arbeit im Wesentlichen auf den Unterschied zwischen diesen Komponenten und der Haut.




Fingerprint Recognition by Matching Gabor Filter-based Patterns

Diplomarbeit von Markus Huppmann

In the modern computerized world, it has become more and more important to authenticate people in a secure way. Modern applications like online banking or online shopping use techniques that depend on personal identification numbers, keys, or passwords. Nevertheless, these technologies imply the risk of data being forgotten, lost, or even stolen. Therefore biometric authentication methods promise a unique way to be able to authenticate people. A secure and confidential biometric authentication method is the utilization of fingerprints. Usually a technique called minutiae matching is used to be able to handle automatic fingerprint recognition with a computer system. This thesis proposes a different fingerprint recognition technique, which uses the matching of Gabor filter-based patterns.




Detection of Paving and Lane Lines Using Adaptive Color Classification

Systementwicklungsprojekt von Thomas Hrabe

Advanced driver assistant systems are an emerging field and gaining importance within cars to assist drivers and to help during difficult situations. These assistants use different sensors for different tasks amongst which common cameras are used for taking images during drives. This work focuses on the detection of paving and lane lines with the help of adaptive classification in images taken during different weather conditions. Adaptive interpretation of camera images is mandatory due to the changing weather conditions. Only color information is provided to the classifier to rise accuracies on color classification in the car environment. Robust classifiers are the first step towards online street analysis with line models for the cognition of the road direction. Different approaches on robust classifiers are compared and the most accurate is recommended for the use within advanced driver assistant systems.




Kamerabasierte Erkennung von Körpersprache für die Mensch-Maschine-Schnittstelle

Diplomarbeit von Florio Delle Vedove

Diese Diplomarbeit beschäftigt sich damit, menschliche Bewegungen durch einen Rechner zu erfassen und Programme damit zu steuern. Hierfür sind Szenarien erdacht worden, in denen eine kamerabasierte berührungslose Steuerung zum Einsatz kommen kann. Dabei wurde grosser Wert darauf gelegt, dass in bestimmten Anwendungsgebieten diese Art der Steuerung Vorteile gegenüber konventionellen Verfahren bringt.

Das Hauptinteresse liegt dabei auf der Erkennung von Kopfbewegungen und -gesten. Die Erkennung basiert auf dem Modeltracker der am Lehrstuhl IX der Technischen Universität München entwickelt wurde. Dieser passt ein Gesichtsmodell an die Konturen eines Gesichtes auf dem Kamerabild an. Dabei fand vor allem die Intuitivität der Steuerung grosse Beachtung. Zudem sollen diese Anwendungen das Potential haben, bei Vorführungen ein möglichst breites Publikum anzusprechen.




Modellbasierte Mimikerkennung in Videobildern mittels Optical Flow

Systementwicklungsprojekt von Christoph Mayer und Sylvia Pietzsch

Die Arbeit mit Computern bestimmt heute einen Großteil unserer Berufswelt und der Freizeit. Dabei ist die Interaktion zwischen Mensch und Maschine noch weitestgehend auf althergebrachte Ein- und Ausgabegeräte wie Tastatur, Maus und Bildschirm beschränkt. Seit etwa zehn Jahren hat sich jedoch die Forschung auf dem Gebiet der Mensch-Maschine-Interaktion verst¨rkt. Die Mechanismen zwischenmenschlicher Kommunikation und Interaktion sollen in Mensch-Maschine-Schnittstellen nachgebildet werden, die Anwendern eine intuitive und komfortable Bedienung ermöglichen sollen.

Die menschliche Kommunikation ist ein komplexer Vorgang, der weit über das Gesprochene hinausgeht. In einem Gespräch werden Informationen nicht allein mittels Sprache ausgetauscht, auch die Körpersprache, die Mimik und Gestik umfasst, erzählt uns etwas über unser Gegenüber. Der Gesichtsausdruck stellt das Gesagte in einen Kontext. Er kann eine Stimmung hervorheben oder gar den Sprecher als Lügner entlarven, indem er die zum Gesprochenen gegenteilige Information transportiert. Mimik ist auch für sich allein genommen ein Informationsträger. Sie verrät uns in Sekundenbruchteilen etwas über die Stimmung unseres Gegenübers. Mimiken automatisiert durch Computer erkennen zu lassen ist daher einer der Ansätze zur Entwicklung von modernen, interaktiven Benutzerschnittstellen.

Wie bei vielen Fähigkeiten, die der Mensch ganz intuitiv einsetzt, ist es auch bei der Mimikerkennung schwierig, diesen Vorgang mit dem Computer nachzubilden. Zunächst muss das Gesicht der Person im Videobild lokalisiert werden. Danach müssen die Gesichtsmerkmale gefunden werden, die eine Mimik ausmachen, und schließlich müssen diese Merkmale bewertet und einer Mimik zugeordnet werden. Diesen Vorgang bewältigt der Mensch in kürzester Zeit. Um Akzeptanz bei Anwendern zu finden, darf auch die Antwortzeit von modernen, interaktiven Benutzerschnittstellen nicht zu groß sein. Weiterhin besteht die Schwierigkeit, eine entsprechende Repräsentation für die Muskelbewegungen im Gesicht zu finden. Zudem ist nicht eindeutig festgelegt, wie sich bestimmte Mimiken äußern. Mimiken sind nicht standardisiert, normiert oder definiert. Betrachtet man das Beispiel Lachen, so gibt es verschiedene Varianten, von einem leichten Lächeln bis hin zu einem herzhaften Lachen über einen guten Witz oder das humorlose Lachen bei großer Entrüstung.




Facial Expression Recognition - A Comparison Between Humans and Algorithms

Systementwicklungsprojekt von Ursula Zucker

Computer Science offers a lot of different approaches for solving the problem of automatic facial expression recognition. Of course these algorithms do not have a recognition rate of 100%. This paper aims at answering the question, how reliable humans can specify the six universal facial expression determined by the psychologists Ekman and Friesen. We conduct a survey to determine the capability of humans concerning this task. The results of that survey are interpreted and evaluated regarding the confusion of facial expressions by humans. Recent algorithms in this field are briefly presented and compared to the recognition rate of humans.




Monokulare Verfolgung eines dreidimensionalen Gesichtsmodells

Systementwicklungsprojekt von Christian Schmidts

Dieses Systementwicklungsprojekt befasst sich mit der Verfolgung von menschlichen Gesichtern. Die spezielle Herausforderung ist, dass das jeweilige Gesicht mittels einer Kamera im Dreidimensionalen verfolgt werden soll. Es soll die relative dreidimensionale Position des Gesichtes zur Kamera ermittelt werden. Dieses Ziel soll ohne Zuhilfenahme einer weiteren Kamera oder anderen Hilfsmitteln erfüllt werden.

Zunächst geschieht die Verfolgung durch bereits implementierte Algorithmen im Zweidimensionalen. Dieses Projekt beschäftigt sich mit der Weiterverarbeitung der zuvor aus der 2D-Bildebene gewonnen zweidimensionalen Position des Gesichtes und berechnet mit Hilfe der hier entwickelten Algorithmen aus diesen Informationen eine entsprechende Positionierung und Orientierung des Gesichtes in unserer dreidimensionalen Welt.




Observed Assessment

Studienarbeit von Johannes Mager

Vielfältige Aufgaben des modernen Lebens setzen Computerkenntnisse voraus, Die Computermaus ist im Zuge dieser Entwicklung neben der Tastatur zum Standardwerkzeug für die Kommunikation zwischen Mensch und PC geworden. Fraglich ist, ob das Problem der Befehlsübermittlung zum Computer in vielen Fällen nicht intuitiver gelöst werden kann. Die Leistungsfähigkeit heutiger PCs eröffnet eine Vielzahl neuer Möglichkeiten. Denn von der Art und Weise, in der der Mensch seit seinen Kindestagen seine Wünsche und Bedürfnisse zu kommunizieren lernt, ist der Umgang mit Tastatur und Maus meilenweit entfernt. Untersuchungen zufolge geschieht über 80 % der zwischenmenschlichen Kommunikation auf nonverbalem Wege. Die gezielte Unterstützung der Sprache durch Mimik, Gestik und Köorpersprache ist ein fester Bestandteil jeder menschlichen Kultur. Diese Arbeit untersucht den Einsatz einer Mimikerkennungsprogramms zur Interaktion mit dem PCs. Im Rahmen eines Assessment Centers, einer automatisierten Lern- und Prüfungsplattform, soll die Interpretation der Benutzermimik als Möglichkeit der Mensch-Maschine-Interaktion betrachtet und ihre softwaretechnische Realisierung besprochen werden. Durch die sehr einfachen Befehlsstrukturen dieser Anwendung ergibt sich eine leicht realisierbare und zugleich intuitive Steuerungsmöglichkeit der Assessments, die die Verwendung von Maus und Tastatur überflüssig machen.




Video Streaming

Systementwicklungsprojekt von Simon Valentini

Smart Environments (dt. intelligente Räume) nehmen ihre Umgebung wahr, erkennen menschliche Tätigkeiten und reagieren darauf. Diese Informationen werden über Sensoren (z.B.: Kameras, Mikrofone) erfasst. Die einzelnen Programme zur Verarbeitung dieser Sensorinformationen schöpfen meist die Rechenleistung moderner Computer vollständig aus (z.B. Lokalisation von Personen, Emotionserkennung, Gestenerkennung).

Dieses Projekt ermöglicht es, die Programme verteilt auszuführen und ihnen trotzdem die selben Sensorinformationen (Kamerabilder) zur Verfügung zu stellen. Das Ergebnis dieser Arbeit ist ein Client-Server-System, das die Videodaten beliebiger Eingabegeräte (z.B.: FireWire-Kameras, analoge Kameras) an einen oder mehrere Teilnehmer schickt. Auf der Client-Seite wird eine C++-Bibliothek zur Verfügung gestellt, die Bilder aus dem Videostream ausliest und weiterverarbeiten kann.




Repräsentation von Fußballwissen:
Automatische Akquisition und Präsentation im World Wide Web

Bachelorarbeit von Nicolas Weber

Es wurde ein System entwickelt, das Informationen über die Bundesliga aus dem WWW sammelt. Dabei werden verschiedene Sites angesprochen, um ein möglichst hochwertiges Ergebnis zu erzielen. Diese Informationen werden lokal in einem wissensbasiertem Format gespeichert, wodurch neues Wissen aus vorhandenem durch Inferenz generiert werden kann.

Unterschiedlichste Anwendungen können auf diese Wissensbank zugreifen. Das umfasst sowohl Browser für die menschenlesbare Darstellung der Informationen als auch autonome Agenten und Roboter. Ein Anschlussprojekt wird ein digitaler Fußballkommentator sein, der dieses Fußballwissen in seine Berichterstattung integrieren wird.




Smart Environment mit Spracherkennung

Systementwicklungsprojekt von Yun-Yi Lisa Wang

Spracherkennung wird heute immer öfters als ein Hilfsmittel für die Texteingabe verwendet. Dabei werden ausgesprochene Befehle aufgenommen und von dem Spracherkenner basierend auf einem Hidden Markov Modell möglichst richtig erkannt. Anschlie?end wird der Sinn, die Semantik, des Befehls verstanden und danach kann das System entsprechend reagieren. So könnten die Befehle ausgeführt werden oder die Abfragen beantwortet werden. Somit wird das System "Smart Environment" erweitert. Dieses System "Smart Environment" stellt eine Intelligente Umgebung dar. Sie soll möglichst mit den Menschen interagieren. Dem Benutzer können die Informationen verschiedenartig - z.B. visuell oder auditiv dargebracht werden. So könnten visuelle Informationen entsprechend mittels Bildschirm und auditive Informationen entsprechend mittels Lautsprecher präsentiert werden.




Grid-basierte Multiagenten-Plattformen für sensorbasierte intelligente Umgebungen

Diplomarbeit von Markus Tröscher

Steuerungssysteme für intelligente Umgebungen besitzen Wissen über Ihren Kontext. Dies umfasst die Anzahl der momentan gegenwärtigen Personen, deren Namen, deren Positionen, deren gegenwärtige Tätigkeiten, deren Gemütszustände, u.v.m. Dadurch kann der Mensch in seiner täglichen Arbeit unterstützt und seine Freizeit angenehmer gestaltet werden.

In dieser Diplomarbeit wurde eine Plattform für zur Realisierung intelligenter Umgebungen erstellt. Mittels Kameras, Mikrofonen, Lautsprechern und Laser-Range-Sensors kann sie Personen erkennen, ihre Aufenthaltsorte bestimmen und mit ihnen kommunizieren. Die Interaktion erfolgt intuitiv über natürliche Sprache und Handgesten. Die Plattform hält ihr Wissen zentral und repräsentiert es mittels Web Ontology Language (OWL) in einer semantischen Art und Weise. Zur Veranschaulichung wurden einige Szenarien dafür erdacht und umgesetzt.




Wissen in intelligenten Räumen: räumliche und zeitliche Aspekte

Systementwicklungsprojekt von Oliver Heyn

Intelligente Umgebungen könnten dem Menschen das Leben sehr erleichtern. Stellen Sie sich vor, Sie könnten mit Ihrer Umgebung über Gesten und Sprache in Interaktion treten, als hätten Sie es mit Menschen zu tun.

In diesem SEP wurde ein System für einen intelligenten Raum entwickelt, der als zentrale Instanz für die Aufbewahrung von Informationen eine OWL-Wissensbank verwendet. Besonderes Augenmerk liegt hierbei auf der Darstellung von zeitlichen und räumlichen Gegebenheiten.




Wissen in intelligenten Räumen: organisatorische Aspekte

Systementwicklungsprojekt von Marius Morawski und Matthias Seidl

Es wurde eine OWL-Wissensbank erstellt, um Wissen über die universitäre Organisationsstruktur (Mitarbeiter, deren Zugehörigkeit und Rolle in Gruppen, persönliche Daten, etc.) für Computersysteme wie z.B. intelligente Umgebungen nutzbar zu machen.

Eine Beispiel-Anwendung, die auf dieses Wissen zugreift, ist die in diesem SEP entwickelte Methode, eben dieses Wissen automatisch durch eine den Lehrstuhlseiten nachempfundene Website auch Menschen zugänglich zu machen. Dabei kamen das Web Publishing Framework Cocoon und eine Query Engine für OWQL zum Einsatz.




Autonome Suche nach semantisch beschriebenen Web Services basierend auf OWLS

Diplomarbeit von Mustafa Ali Halgurt

Die Kommunikation zwischen Rechnern im verteilten Systemen wurde durch den Einsatz von Middleware-Technologien ermöglicht. Eine bekannte Middleware im B2B-Bereich ist CORBA. Web Service Technologien wurden entwickelt um die Kommunikation über Unternehmens- und Organisationsgrenzen hinaus zu ermöglichen, sodass B2B-Strategien besser durchgesetzt werden können.

Web Service Technolgien erreichen die Interoperabilität zwichen unterschiedlichen Systemen durch eine sprachneutrale und plattformunanhängige Interaktion. Sie bieten Vokabularien zur Beschreibung von Web Services auf einer syntaktischen Ebene, sodass diese Web Services veröffentlicht, gesucht und ausgeführt werden können. Beschreibungen auf einer syntaktischen Ebene bieten keine maschineninterpretierbare Informationen, sodass Maschinen Web Service automatisch suchen, kombinieren und ausführen können.

Semantic Web ist eine Erweiterung der gegenwärtigen Form des Webs, die Information mit einer wohldefinierten Bedeutung versieht um die verbesserte Zusammenarbeit zwischen Mensch und Computer zu ermöglichen. Ziel des semantischen Webs ist es WWW-übertragene Daten durch Menschen mit Semantiken anzureichern für die Verarbeitung durch Maschinen und Nutzung durch Menschen. Semantic Web bietet Mechanismen zur Konzeptualisierung von Anwendungsdomänen. Die Konzepte, Attribute dieser Konzepte und die Relationen zwischen diesen Konzepten werden auf einer semantischen Ebene beschrieben.

Semantischbeschriebene Web Services verbinden Web Service Technologien und das Semantic Web. Ein semantischbeschriebener Web Service kann automatisch durch Agenten gesucht und ausgeführt werden. Falls kein Service gefunden wird, bieten semantischbeschriebene Web Services die möglichkeit, dass ein Agent prüfen kann, ob eine Kombination von mehreren Services die gesuchte Funktionalität bieten kann. Diese Funktionalitäten von semantischbeschriebenen Web Services, nämlich autonome Web Service Suche, Ausführung, Komposition wurden in dieser Arbeit an Hand einer Fallstudie vorgestellt.


zurück zur Homepage von Matthias Wimmer

Computer Science IX | Technische Universität München