
Dr. Matthias Wimmer Technische Universität München - Informatik IX - Boltzmannstr. 3 - 85748 Garching Telefon: +49 (89) 289-17784 — Raum: 02.09.053 E-Mail: matthias.wimmer@in.tum.de — Homepage: wwwradig.in.tum.de/people/wimmerm |
|
Fertiggestellte Projektarbeiten / Finished theses
Face Model Fitting, Learning the Objective Function:- Learning Generic and Person-specific Objective Functions
- Designing versus learning the objective function for face model fitting
- Monokulare Verfolgung eines dreidimensionalen Gesichtsmodells
- Entwicklung eines dynamischen Klassifikators zur Lokalisation von Retina, Iris, Lippen, Augenbrauen und Zähnen innerhalb eines Gesichtes
- Facial Expression Recognition - A Comparison Between Humans and Algorithms
- Modellbasierte Mimikerkennung in Videobildern mittels Optical Flow
- Kamerabasierte Erkennung von Körpersprache für die Mensch-Maschine-Schnittstelle
- Observed Assessment
- Fingerprint Recognition by Matching Gabor Filter-based Patterns
- Detection of Paving and Lane Lines Using Adaptive Color Classification
- Video Streaming
- Smart Environment mit Spracherkennung
- Repräsentation von Fußballwissen: Automatische Akquisition und Präsentation im World Wide Web
- Grid-basierte Multiagenten-Plattformen für sensorbasierte intelligente Umgebungen
- Wissen in intelligenten Räumen: räumliche und zeitliche Aspekte
- Wissen in intelligenten Räumen: organisatorische Aspekte
- Autonome Suche nach semantisch beschriebenen Web Services basierend auf OWLS
Learning Generic and Person-specific Objective Functions
Model-based image interpretation systems are a widespreadly used approach to extract high-level information, such as the facial expression of a person, from image data. This thesis issues a main component of these systems: the objective function. It describes how objective functions are made robust by learning them from annotated images and extensively inspect their improvements to model fitting. Beside the generic approach, that takes all possible occurences of an object into consideration, when learning the objective function, this thesis shows a way to learn objective functions that are specific to several objects and will further improve model tracking algorithms.
Learning Robust Objective Functions for Fitting Three-Dimensional Face Models
Designing versus learning the objective function for face model fitting
In image understanding applications, models serve as an intermediate step for retrieving information from images. Fitting algorithms perform the task of fitting models into images. An important part of every fitting algorithm is the objective function which calculates the accuracy of a model instance for an image. Nevertheless, building objective functions for fitting algorithms has not been researched well, so far. This thesis proposes a set of requirements that need to be considered in order to obtain robust objective functions. They allow for a direct comparison of different objective functions. Furthermore, we analyse traditional objective functions that are used for model fitting and propose a new approach, which learns the objective function from training data.
Entwicklung eines dynamischen Klassifikators zur Lokalisation von Retina, Iris, Lippen, Augenbrauen und Zähnen innerhalb eines Gesichtes
Das Ziel dieses Projekts ist, Farbklassifikatoren zu erstellen, die die unterschiedlichen Gesichtskomponenten bestmöglich erkennen. Da es schon einen Klassifikator für die Hautfarbe gibt, konzentriert sich die Arbeit im Wesentlichen auf den Unterschied zwischen diesen Komponenten und der Haut.
Fingerprint Recognition by Matching Gabor Filter-based Patterns
In the modern computerized world, it has become more and more important to authenticate people in a secure way. Modern applications like online banking or online shopping use techniques that depend on personal identification numbers, keys, or passwords. Nevertheless, these technologies imply the risk of data being forgotten, lost, or even stolen. Therefore biometric authentication methods promise a unique way to be able to authenticate people. A secure and confidential biometric authentication method is the utilization of fingerprints. Usually a technique called minutiae matching is used to be able to handle automatic fingerprint recognition with a computer system. This thesis proposes a different fingerprint recognition technique, which uses the matching of Gabor filter-based patterns.
Detection of Paving and Lane Lines Using Adaptive Color Classification
Advanced driver assistant systems are an emerging field and gaining importance within cars to assist drivers and to help during difficult situations. These assistants use different sensors for different tasks amongst which common cameras are used for taking images during drives. This work focuses on the detection of paving and lane lines with the help of adaptive classification in images taken during different weather conditions. Adaptive interpretation of camera images is mandatory due to the changing weather conditions. Only color information is provided to the classifier to rise accuracies on color classification in the car environment. Robust classifiers are the first step towards online street analysis with line models for the cognition of the road direction. Different approaches on robust classifiers are compared and the most accurate is recommended for the use within advanced driver assistant systems.
Kamerabasierte Erkennung von Körpersprache für die Mensch-Maschine-Schnittstelle
Diese Diplomarbeit beschäftigt sich damit, menschliche Bewegungen durch einen
Rechner zu erfassen und Programme damit zu steuern.
Hierfür sind Szenarien erdacht worden, in denen eine kamerabasierte berührungslose Steuerung zum Einsatz kommen kann. Dabei
wurde grosser Wert darauf gelegt, dass in bestimmten Anwendungsgebieten
diese Art der Steuerung Vorteile gegenüber konventionellen Verfahren bringt.
Das Hauptinteresse liegt dabei auf der Erkennung von Kopfbewegungen und -gesten.
Die Erkennung basiert auf dem Modeltracker der am Lehrstuhl IX der Technischen Universität München entwickelt wurde. Dieser
passt ein Gesichtsmodell an die Konturen eines Gesichtes auf dem Kamerabild
an. Dabei fand vor allem die Intuitivität der Steuerung
grosse Beachtung. Zudem sollen diese Anwendungen das Potential haben, bei Vorführungen ein möglichst breites Publikum anzusprechen.
Modellbasierte Mimikerkennung in Videobildern mittels Optical Flow
Die Arbeit mit Computern bestimmt heute einen Großteil unserer Berufswelt und der Freizeit.
Dabei ist die Interaktion zwischen Mensch und Maschine noch weitestgehend auf althergebrachte Ein- und Ausgabegeräte
wie Tastatur, Maus und Bildschirm beschränkt.
Seit etwa zehn Jahren hat sich jedoch die Forschung auf dem Gebiet der Mensch-Maschine-Interaktion verst¨rkt.
Die Mechanismen zwischenmenschlicher Kommunikation und Interaktion sollen in Mensch-Maschine-Schnittstellen nachgebildet werden,
die Anwendern eine intuitive und komfortable Bedienung ermöglichen sollen.
Die menschliche Kommunikation ist ein komplexer Vorgang, der weit über das Gesprochene hinausgeht.
In einem Gespräch werden Informationen nicht allein mittels Sprache ausgetauscht,
auch die Körpersprache, die Mimik und Gestik umfasst, erzählt uns etwas über unser Gegenüber.
Der Gesichtsausdruck stellt das Gesagte in einen Kontext.
Er kann eine Stimmung hervorheben oder gar den Sprecher als Lügner entlarven, indem er die zum Gesprochenen
gegenteilige Information transportiert.
Mimik ist auch für sich allein genommen ein Informationsträger.
Sie verrät uns in Sekundenbruchteilen etwas über die Stimmung unseres Gegenübers.
Mimiken automatisiert durch Computer erkennen zu lassen ist daher einer der Ansätze zur Entwicklung von
modernen, interaktiven Benutzerschnittstellen.
Wie bei vielen Fähigkeiten, die der Mensch ganz intuitiv einsetzt, ist es auch bei der Mimikerkennung
schwierig, diesen Vorgang mit dem Computer nachzubilden.
Zunächst muss das Gesicht der Person im Videobild lokalisiert werden.
Danach müssen die Gesichtsmerkmale gefunden werden, die eine Mimik ausmachen, und schließlich müssen
diese Merkmale bewertet und einer Mimik zugeordnet werden.
Diesen Vorgang bewältigt der Mensch in kürzester Zeit.
Um Akzeptanz bei Anwendern zu finden, darf auch die Antwortzeit von modernen, interaktiven Benutzerschnittstellen nicht zu groß sein.
Weiterhin besteht die Schwierigkeit, eine entsprechende Repräsentation für die Muskelbewegungen im Gesicht zu finden.
Zudem ist nicht eindeutig festgelegt, wie sich bestimmte Mimiken äußern.
Mimiken sind nicht standardisiert, normiert oder definiert.
Betrachtet man das Beispiel Lachen, so gibt es verschiedene Varianten, von einem leichten Lächeln bis hin zu
einem herzhaften Lachen über einen guten Witz oder das humorlose Lachen bei großer Entrüstung.
Facial Expression Recognition - A Comparison Between Humans and Algorithms
Computer Science offers a lot of different approaches for solving the problem of automatic facial expression recognition. Of course these algorithms do not have a recognition rate of 100%. This paper aims at answering the question, how reliable humans can specify the six universal facial expression determined by the psychologists Ekman and Friesen. We conduct a survey to determine the capability of humans concerning this task. The results of that survey are interpreted and evaluated regarding the confusion of facial expressions by humans. Recent algorithms in this field are briefly presented and compared to the recognition rate of humans.
Monokulare Verfolgung eines dreidimensionalen Gesichtsmodells
Dieses Systementwicklungsprojekt befasst sich mit der Verfolgung von
menschlichen Gesichtern. Die spezielle Herausforderung ist, dass das jeweilige
Gesicht mittels einer Kamera im Dreidimensionalen verfolgt werden soll. Es soll
die relative dreidimensionale Position des Gesichtes zur Kamera ermittelt
werden. Dieses Ziel soll ohne Zuhilfenahme einer weiteren Kamera oder
anderen Hilfsmitteln erfüllt werden.
Zunächst geschieht die Verfolgung durch
bereits implementierte Algorithmen im Zweidimensionalen. Dieses Projekt
beschäftigt sich mit der Weiterverarbeitung der zuvor aus der 2D-Bildebene
gewonnen zweidimensionalen Position des Gesichtes und berechnet mit Hilfe
der hier entwickelten Algorithmen aus diesen Informationen eine entsprechende
Positionierung und Orientierung des Gesichtes in unserer dreidimensionalen
Welt.
Observed Assessment
Vielfältige Aufgaben des modernen Lebens setzen Computerkenntnisse voraus,
Die
Computermaus ist im Zuge dieser Entwicklung neben der Tastatur zum Standardwerkzeug
für die Kommunikation zwischen Mensch und PC geworden.
Fraglich ist, ob das Problem der Befehlsübermittlung zum Computer
in vielen Fällen nicht intuitiver gelöst werden
kann.
Die Leistungsfähigkeit heutiger PCs eröffnet eine Vielzahl
neuer Möglichkeiten.
Denn von
der Art und Weise, in der der Mensch seit seinen Kindestagen seine Wünsche
und Bedürfnisse zu kommunizieren lernt, ist der Umgang mit Tastatur und
Maus meilenweit entfernt.
Untersuchungen zufolge
geschieht über 80 % der zwischenmenschlichen Kommunikation auf nonverbalem
Wege. Die
gezielte Unterstützung der Sprache durch Mimik, Gestik und Köorpersprache
ist ein fester Bestandteil jeder menschlichen Kultur.
Diese Arbeit untersucht den Einsatz einer Mimikerkennungsprogramms
zur Interaktion mit dem PCs.
Im Rahmen eines Assessment Centers, einer automatisierten Lern- und Prüfungsplattform, soll die Interpretation der Benutzermimik
als Möglichkeit der Mensch-Maschine-Interaktion betrachtet und ihre
softwaretechnische Realisierung besprochen werden. Durch die sehr einfachen
Befehlsstrukturen dieser Anwendung ergibt sich eine leicht realisierbare und zugleich
intuitive Steuerungsmöglichkeit der Assessments, die die Verwendung von
Maus und Tastatur überflüssig machen.
Video Streaming
Smart Environments (dt. intelligente Räume) nehmen ihre
Umgebung wahr, erkennen menschliche Tätigkeiten und reagieren
darauf. Diese Informationen werden über Sensoren (z.B.: Kameras,
Mikrofone) erfasst.
Die einzelnen Programme zur Verarbeitung dieser Sensorinformationen schöpfen
meist die Rechenleistung moderner Computer vollständig
aus (z.B. Lokalisation von Personen, Emotionserkennung,
Gestenerkennung).
Dieses Projekt ermöglicht es, die
Programme verteilt auszuführen und ihnen trotzdem die
selben Sensorinformationen (Kamerabilder) zur Verfügung zu stellen.
Das Ergebnis dieser Arbeit ist ein Client-Server-System, das
die Videodaten beliebiger Eingabegeräte (z.B.: FireWire-Kameras,
analoge Kameras) an einen oder mehrere Teilnehmer schickt.
Auf der Client-Seite wird eine C++-Bibliothek zur Verfügung gestellt, die Bilder aus dem
Videostream ausliest und weiterverarbeiten kann.
Repräsentation von Fußballwissen:
Automatische Akquisition und Präsentation im World Wide Web
Es wurde ein System entwickelt, das Informationen über die Bundesliga aus dem WWW sammelt.
Dabei werden verschiedene Sites angesprochen, um ein möglichst hochwertiges Ergebnis zu erzielen.
Diese Informationen werden lokal in einem wissensbasiertem Format gespeichert, wodurch neues Wissen aus
vorhandenem durch Inferenz generiert werden kann.
Unterschiedlichste Anwendungen können auf diese Wissensbank zugreifen.
Das umfasst sowohl Browser für die menschenlesbare Darstellung der Informationen als auch autonome Agenten und Roboter.
Ein Anschlussprojekt wird ein digitaler Fußballkommentator sein, der dieses Fußballwissen in seine Berichterstattung integrieren wird.
- Projekt: (Online-Version Offline-Version, Download der Offline-Version, Ontologie)
- Ausarbeitung
- Vortrag
- Programmdateien
Smart Environment mit Spracherkennung
Spracherkennung wird heute immer öfters als ein Hilfsmittel für die Texteingabe verwendet. Dabei werden ausgesprochene Befehle aufgenommen und von dem Spracherkenner basierend auf einem Hidden Markov Modell möglichst richtig erkannt. Anschlie?end wird der Sinn, die Semantik, des Befehls verstanden und danach kann das System entsprechend reagieren. So könnten die Befehle ausgeführt werden oder die Abfragen beantwortet werden. Somit wird das System "Smart Environment" erweitert. Dieses System "Smart Environment" stellt eine Intelligente Umgebung dar. Sie soll möglichst mit den Menschen interagieren. Dem Benutzer können die Informationen verschiedenartig - z.B. visuell oder auditiv dargebracht werden. So könnten visuelle Informationen entsprechend mittels Bildschirm und auditive Informationen entsprechend mittels Lautsprecher präsentiert werden.
Grid-basierte Multiagenten-Plattformen für sensorbasierte intelligente Umgebungen
Steuerungssysteme für intelligente Umgebungen besitzen Wissen über
Ihren Kontext. Dies umfasst die Anzahl der momentan
gegenwärtigen Personen, deren Namen, deren Positionen,
deren gegenwärtige Tätigkeiten, deren Gemütszustände, u.v.m.
Dadurch kann der Mensch in seiner täglichen Arbeit
unterstützt und seine Freizeit angenehmer gestaltet werden.
In dieser Diplomarbeit wurde eine Plattform für zur Realisierung
intelligenter Umgebungen erstellt.
Mittels Kameras, Mikrofonen, Lautsprechern und Laser-Range-Sensors kann sie Personen
erkennen, ihre Aufenthaltsorte bestimmen und mit ihnen
kommunizieren.
Die Interaktion erfolgt intuitiv über natürliche Sprache und Handgesten.
Die Plattform hält ihr Wissen zentral und repräsentiert es
mittels Web Ontology Language (OWL) in einer semantischen Art und Weise.
Zur Veranschaulichung wurden einige Szenarien
dafür erdacht und umgesetzt.
- Ausarbeitung
- Vortrag
- Video des Szenarios: Begrüßung
- Video des Szenarios: Steuerung durch Handgesten
- Video des Szenarios: Automatisches Einloggen
Wissen in intelligenten Räumen: räumliche und zeitliche Aspekte
Intelligente Umgebungen könnten dem Menschen das Leben sehr erleichtern.
Stellen Sie sich vor, Sie könnten mit Ihrer Umgebung über Gesten und Sprache in Interaktion treten, als hätten Sie es mit Menschen zu tun.
In diesem SEP wurde ein System für einen intelligenten Raum entwickelt, der als zentrale Instanz für die Aufbewahrung von Informationen
eine OWL-Wissensbank verwendet.
Besonderes Augenmerk liegt hierbei auf der Darstellung von zeitlichen und räumlichen Gegebenheiten.
Wissen in intelligenten Räumen: organisatorische Aspekte
Es wurde eine OWL-Wissensbank erstellt, um Wissen über die
universitäre Organisationsstruktur (Mitarbeiter, deren Zugehörigkeit und
Rolle in Gruppen, persönliche Daten, etc.) für Computersysteme wie z.B.
intelligente Umgebungen nutzbar zu machen.
Eine Beispiel-Anwendung, die auf dieses Wissen zugreift, ist die in diesem
SEP entwickelte Methode, eben dieses Wissen automatisch durch eine den
Lehrstuhlseiten nachempfundene Website auch Menschen zugänglich zu machen.
Dabei kamen das Web Publishing Framework Cocoon und eine Query Engine für
OWQL zum Einsatz.
Autonome Suche nach semantisch beschriebenen Web Services basierend auf OWLS
Die Kommunikation zwischen Rechnern im verteilten Systemen wurde durch den Einsatz von
Middleware-Technologien ermöglicht.
Eine bekannte Middleware im B2B-Bereich ist CORBA.
Web Service Technologien wurden entwickelt um die Kommunikation über
Unternehmens- und Organisationsgrenzen hinaus zu ermöglichen, sodass B2B-Strategien besser durchgesetzt werden können.
Web Service Technolgien erreichen die Interoperabilität zwichen unterschiedlichen Systemen
durch eine sprachneutrale und plattformunanhängige Interaktion.
Sie bieten Vokabularien zur Beschreibung von Web Services auf einer syntaktischen Ebene,
sodass diese Web Services veröffentlicht, gesucht und ausgeführt werden können.
Beschreibungen auf einer syntaktischen Ebene bieten keine maschineninterpretierbare Informationen,
sodass Maschinen Web Service automatisch suchen, kombinieren und ausführen können.
Semantic Web ist eine Erweiterung der gegenwärtigen Form des Webs, die
Information mit einer wohldefinierten Bedeutung versieht um die verbesserte Zusammenarbeit zwischen
Mensch und Computer zu ermöglichen.
Ziel des semantischen Webs ist es WWW-übertragene Daten durch Menschen mit Semantiken anzureichern für die
Verarbeitung durch Maschinen und Nutzung durch Menschen.
Semantic Web bietet Mechanismen zur Konzeptualisierung von Anwendungsdomänen.
Die Konzepte, Attribute dieser Konzepte und die Relationen zwischen diesen Konzepten werden auf einer semantischen Ebene beschrieben.
Semantischbeschriebene Web Services verbinden Web Service Technologien und das Semantic Web.
Ein semantischbeschriebener Web Service kann automatisch durch Agenten gesucht und ausgeführt werden.
Falls kein Service gefunden wird, bieten semantischbeschriebene Web Services die möglichkeit,
dass ein Agent prüfen kann, ob eine Kombination von mehreren Services die gesuchte Funktionalität bieten kann.
Diese Funktionalitäten von semantischbeschriebenen Web Services, nämlich autonome Web Service Suche,
Ausführung, Komposition wurden in dieser Arbeit an Hand einer Fallstudie vorgestellt.
zurück zur Homepage von Matthias Wimmer