Department of Computer Science Technische Universitaet Muenchen
Home People Teaching Research Publications
Wissenschaftliche Veröffentlichungen | TV, Radio, Newspapers | Online-Publikationen | Messen und Ausstellungen


Deutsch

Automatic recognition of human mimics via the computer

Interaction between human and computer is still restricted to traditional input and output devices like keyboard, screen, and mouse. Other technical devices such as VCRs or dishwashers even offer worse interaction mechanisms via their small number of buttons and their tiny display. In order to enable an intuitive and comfortable use it is a research topic to apply the main features of interpersonal communication to the communication between human and machine.

Those aspects are called communication channels by psychologists and they contain natural language, gestures, mimics, body language, and many more. We focus on the aspect of automatically recognizing human mimics. Six mimics are currently recognized by our project: laughing, surprise, fear, anger, sadness, and disgust. These are the six basic mimics according to Ekman and Friesen, which are executed and interpreted in the same way all over the world.

Fields of application

  • Long term vision:
    Automatic mimic recognition supports the communication with machines in a human-like way.

  • Short term vision:
    But our system is also capable to be applied to current scenarios. Those scenarios are less common, less passive, classify less mimics, ...

    Those are the following ones:
    • Safety in vehicles:
      automatic localization of the face of the driver and detecting if he is getting tired or aggressive in order to avoid accidents.
    • Control of wheel chairs:
      Quadriplegic people control an electric wheel chair with predefined mimics used as control commands.
    • eLearning-Software:
      The program analyses the facial expression of the learner in order to adapt the quantity of material and the tempo.
    • Games:
      advancement of interactivity, the player is more involved into the game.

Technical realization

Step 1: Locating the face within the image
A two-dimensional model for human faces builds the basis of finding and tracking faces in video images. The model contains adjustable parameters that describe all natural constitutions of human faces. By using special tracking algorithms the face model is tracked from one image to the next image.

Step 2: Detecting muscle activity within the face
Then we generate a grid of 140 points that covers the visible face. At the grid points the optical flow is calculated and added over several images. The resulting motion patterns represent the activity of facial muscles. That activity emerges from the mimic that is currently visible.

Step 3: Classifying the mimics
In order to reduce the huge amount of data and extract important features principal component analysis is carried out using the obtained optical flow data at each grid point. A decision tree then classifies the mimic.

see also:



Dieselben Informationen auf Deutsch



Automatische Mimikerkennung durch den Computer

Die Interaktion zwischen Mensch und Computer beschränkt sich auch heute noch im Wesentlichen auf althergebrachte Ein- und Ausgabegeräte wie Tastatur, Bildschirm und Maus. Andere technische Geräte, wie Videorekorder oder Spülmaschinen, bieten wegen ihrer kleinen Anzahl an Tasten und ihrer kleinen Anzeige sogar noch schlechtere Interaktionsmechanismen. Um Anwendern eine intuitive und komfortable Benutzung zu ermöglichen, wird daran geforscht, die Grundzüge zwischenmenschlicher Kommunikation auf die Kommunikation zwischen Mensch und Maschine zu übertragen. Psychologen nennen diese Aspekte Kommunikationskanäle, die die natürliche Sprache, die Gestik, die Mimik, die Körpersprache und noch vieles mehr umfassen. Wir konzentrieren uns hier auf das automatische Erkennen menschlicher Mimik. Momentan werden sechs verschiedene Mimiken von unserem System erkannt: Lachen, Überraschung, Angst, Wut, Trauer und Ekel. Dies sind die sechs Hauptmimiken nach Ekman und Friesen, die in allen Kulturkreisen der Welt in gleicher Weise ausgedrückt und gedeutet werden.

Einsatzgebiete

  • Langzeitvision:
    Die automatische Erkennung von Mimiken durch den Computer soll eine menschenähnliche Kommunikation mit dem Rechner unterstützen.

  • Kurzzeitvision:
    Aber unser System kann auch heutzutage schon eingesetzt werden. Diese Szenarien sind weniger allgemein, weniger passiv, erkennen weniger Mimiken,...
    • Sicherheit im Fahrzeug:
      Automatisches Erkennen von Müdigkeit und Aggression anhand des Gesichtsausdruckes und der Augenlidbewegung des Fahrers, zur Vermeidung von Unfällen.
    • Rollstuhlsteuerung:
      Menschen, die vom Hals abwärts gelähmt sind, können mittels vorher definierten Mimiken und Gesichtsbewegungen einen elektrischen Rollstuhl steuern.
    • Lernsoftware:
      Das Programm analysiert den Gesichtsausdruck des Lernenden und passt die Stoffmenge und das Tempo an.
    • Spiele:
      Förderung der Interaktivität, Der Spieler fühlt sich mehr in das Spielgeschehen integriert.


Technische Umsetzung

Schritt 1: Lokalisation des Gesichtes im Bild
Den Ausgangspunkt für das Finden und Verfolgen von menschlichen Gesichtern in Videobildern bildet ein zweidimensionales Gesichtsmodell mit veränderlichen Parametern, mit denen alle natürlichen Ansichten eines menschlichen Gesichts beschrieben werden können. Mithilfe spezieller Tracking-Algorithmen wird das Gesichtsmodell von Bild zu Bild verfolgt.

Schritt 2: Detektion von Muskelaktivität im Gesicht
Dann erzeugen wir ein Gitter mit 140 Punkten, das das sichtbare Gesicht überdeckt. An den Gitterpunkten wird der Optical Flow berechnet und über mehrere Bilder hinweg aufsummiert. Die entstehenden Bewegungsmuster repräsentieren die zu einer Mimik gehörenden Muskelbewegungen innerhalb des Gesichts.

Schritt 3: Klassifikation der Mimiken
Um die gewaltige Menge an Daten zu reduzieren und die wichtigen Merkmale zu extrahieren, wird mit den gewonnenen Optical-Flow-Daten eine Hauptachsentransformation durchgeführt. Zur Klassifikation der Mimik wird ein Entscheidungsbaum benutzt.

siehe auch:




Computer Science IX | Technische Universität München