Mensch-Maschine-Kommunikation – die Zukunft am Start.

Gesten-Steuerung: Die Zukunft der Mensch-Maschine-Interaktion.

Es ist noch nicht lange her, da war das Thema Mensch-Maschine-Kommunikation bzw. Interaktion mittels Gesten ein rein wissenschaftliches Forschungsgebiet. Im Alltag kamen die daraus entstandenen Ideen und Technologien als erstes in der Spieleindustrie an. Spiele Konsolen wurden entwickelt, die der klassischen Video Gaming Industrie neuen Schwung einhauchen sollten. Konsolen, die den User motivierten, sich körperlich aktiv einzubringen. Die Grenzen zwischen Video Gaming und Sport wurden fließend, als Nintendo mit Wii Sports ResortTM an den Start ging. Ermöglich wurde das durch den neuen Wii Motion Plus Controller, der sehr präzise die Bewegungen eines Spielers im Raum ermitteln konnte.


Reine Bewegungen im Raum sind im klassischen Sinn eigentlich keine Gesten, denn es fehlt u.a. die sprachliche Komponente. Im Artikel „Mord im Smart Home – Inspektor Columbo ermittelt!“ wird dieser Frage nachgegangen. Was eine Geste ist, das muss in der Mensch-Maschine- Kommunikation neu definiert werden, auch wenn der Zweck unverändert ist. Samsung Fernseher werden durch Bewegungen im Raum, durch Gesten, gesteuert. DJI Spark Drohnen reagieren selbst aus der Ferne auf Handzeichen, um danach z.B. über Gesichtserkennung den Besitzer zu tracken.

Klassische Methoden der Mensch-Maschine Gestenkommunikation.

Nintendo Wii – das Ende des Knöpfe-Drückens.

2006 revolutionierte Nintendo mit der Spielekonsole Wii die Art zu spielen. Lief die Kommunikation beim Nintendo GameCube mittels Kabel, Knöpfen und Analog-Stick ab, wurde Wii mit einem kabellosen Controller ausgestattet. Eingebaute Bewegungssensoren ermittelten seine Position im Raum, wie auch die Geschwindigkeit ausgeführter Bewegungen. Der Controller ermöglichte eine ganz neue Art, spielerisch mit einer Maschine zu kommunizieren. Neue Anwendungen entstanden, aus denen Wii Sports ResortTM hervor ging: Golfen, Tischtennis, den Tennisaufschlag perfektionieren u.v.m. Das kam so gut an, dass Wii über 100 Millionen Mal verkauft wurde. Sonys PlayStation Move und Microsofts Kinect für die Xbox 360 waren die Antwort auf diesen Erfolg.


Smartphones – wischen und ziehen, vielleicht auch schütteln.

Seitdem Menschen das Haus nicht mehr ohne ihr Smartphone verlassen, sind Gesten zur Mensch-Maschine-Kommunikation nicht mehr wegzudenken. In ihnen sind nicht nur Bewegungssensoren, sondern auch Annäherungssensoren, GPS, barometrischer Höhenmesser, biometrische Sensoren und bald noch weitere verbaut, die Smartphones leistungsfähiger als alle aktuellen Controller machen. Der Trend geht dazu, Controller durch Smartphones zu ersetzen, beispielsweise, um Drohnen oder Kamera Gimbals zu steuern. Den reinen Touch Gesten folgen jene, welche Bewegungssensoren nutzen: „Schütteln“ beispielsweise, angelehnt an das Kopf schütteln, um Aktionen zu widerrufen. Touch Gesten und andere Gesten am Smartphone haben einen großen Vorteil: Durch ein Vibrieren oder Ähnliches, können sie sofort Feedback geben, ob Gesten verstanden wurden.

Die Zukunft der Mensch-Maschine-Kommunikation heißt „Distanzbild“.

Wischen, ziehen, schütteln, mit Controllern Tennis spielen und mehr: Das kann aufregend sein. Menschliche Gesten sind aber etwas deutlich Komplexeres. Sie werden von Händen, dem Kopf, besonders dem Gesicht, sowie dem Körper jeweils einzeln oder in Kombination eingeleitet und verbal abgeschlossen. Gesten sind ein komplexes zeitliches Gesamtereignis, das im Raum stattfindet. Szenen, die getrackt werden müssen, um sie zu verstehen. Damit echte Mensch-Maschine Interaktion auf Basis menschlicher Gesten stattfinden kann, bedarf es mehr als eines Gyro- oder Proximity-Sensors.


Die Zukunft der Mensch-Maschine Gesten-Interaktion findet in Form von Distanzbildern, die über eine Zeitachse getrackt werden, statt. Gesten können als Szene im Raum mit definiertem Anfang und Ende verstanden werden. Um sie maschinell interpretieren und nutzen zu können, muss die räumliche Position von Händen und / oder Kopf, Gesicht sowie Körpersilhouette gemessen, und als Zeitreihe gespeichert werden. Danach, oder im besten Fall real-time, kann die Interpretation erfolgen.

Objekte im Raum kamerabasiert vermessen und tracken.

Stereo Kameras – alt, gut, aber langsam.

Jeder kennt die Rot-Grün Brille, mit der Stereobilder oder -filme angesehen werden können. Das Prinzip ist einfach und preiswert: Zwei Kameras nehmen zeitgleich 65 mm horizontal versetzt (der durchschnittliche menschliche Augenabstand) die idente Szene auf. Damit die 3D-Bilder im Gehirn richtig zusammengesetzt werden können, müssen sie so aufbereitet werden, dass durch den Rot- bzw. Grün-Filter das jeweilige Auge nur das entsprechende Halbbild sieht. Derart können auch Distanzinformationen gewonnen werden. Der Prozess ist jedoch rechenintensiv. Für das Tracken ganzer Szenen eignet sich dieses Verfahren nicht, da die benötigte Frequenz beispielsweise bei Handgesten nicht unter 120 HZ betragen sollte.


ToF Kameras – das Mittel der Wahl.

ToF Kameras, Time of Flight Kameras, sind die Lösung des Problems. Sie können hochfrequent Distanzbilder aufnehmen. Dies ist die Grundvoraussetzung, um anspruchsvolle menschliche Gesten zu tracken und zu interpretieren. Die Kameras werden auf Grund des eingesetzten PMD- Chips (Photonic Mixing Device) auch PMD-Kameras genannt. Die Idee sowie technische Lösung gehen auf das Forscherteam rund um Prof. Rudolf Schwarte 1996 zurück. Im Gegensatz zu Laservermessungen, wird das Objekt nicht zeitintensiv (untauglich für Gestenerkennung) gescannt, sondern ohne jegliche Zeitverzögerung vermessen. Vereinfacht dargestellt wird in Richtung Messobjekt ein Lichtpuls Raster ausgesendet und folgend auf Basis der Wellenlänge und Laufzeitdifferenzen die Distanz ermittelt. Das funktioniert auf Distanzen bis zu 500 m und auch in einem kontrastarmen Umfeld. Durch die hohe Bildrate, aktuell 160 fps (Bilder pro Sekunde), sind moderne ToF-Kameras Echtzeit fähig.


Das Hybridwesen – Microsoft Kinect.

Ein Hybridwesen zur Gestenerkennung ist die Microsoft Kinect Steuerung für die Xbox 360, die Antwort auf die Spielekonsole Wii von Nintendo. Sie kombiniert die Idee der Stereo- und ToF- Kamera zu einem neuen Ansatz, um Distanz-Informationen zu gewinnen. Ein Projektor projiziert ein Punktraster auf ein Objekt. Eine horizontal versetzte Kamera nimmt die Projektions-Szene auf. Daraus werden Distanzinformationen abgeleitet. Die Technologie ist preiswert, hat jedoch gegenüber der ToF-Kamera deutliche Nachteile. Sie setzt einen gewissen Kontrastumfang der Szene voraus, ist in der Reichweite begrenzt und auch hohe Bildfrequenzen, um komplexe Gesten zu erkennen, sind nicht möglich. Für einfache Gesten funktioniert Kinect aber sehr gut, was Bill Gates 2009 veranlasste anzukündigen, es würde geprüft, die Technologie zur Gestensteuerung in MS Office und das MS Mediacenter zu integrieren. 2011 veröffentlichte Microsoft ein eigenes Kinect-SDK für nicht kommerzielle Entwickler. Daraus entstanden interessante und auch unerwartete Anwendungen. Zur Überwachung der koreanischen Demarkationslinie setzt Südkorea beispielsweise Kinect Technologie ein.


BMW „HoloActive“ Touch – Innovation in Reinkultur.

Nicht nur das exakte Tracken und Interpretieren menschlicher Gesten ist eine Herausforderung, sondern auch die Interaktion mit dem Gestengeber. Wird eine Touchpad Geste erkannt, dann ändert sich der Monitorzustand oder Feedback in Form eines Vibrierens wird gesendet. Soll die Gestenkommunikation auf Basis von ToF-Kameras stattfinden, ergeben sich zwei neue Probleme: Der Gestengeber muss exakt wissen, wohin er die Geste „senden“ soll und benötigt Feedback, ob die Geste erkannt wurde und eine Aktion auslöste. Designer verwenden aktuell unspektakulär Monitoren als Feedback Geber.


Technologisch revolutionär geht der BMW Prototyp „HoloActive Touch“ diese Probleme an. Die Präsentation erfolgte auf der CES in Las Vegas 2017. Ein virtuelles Touchpad wird holographisch neben das Lenkrad projiziert. Auf diesem „Touchpad“ ausgeführte Gesten werden auf Basis einer Distanz-Kamera interpretiert. So erkannt, wird ein Ultraschall-Array auf die Fingerspitze gesendet, das entsprechend der Vibration am realen Touchpad, dem Gestengeber ein haptisches Feedback liefert. Wann die Technologie in den BMW Fahrzeugen zu sehen sein wird, die in Kooperation mit der Motius GmbH entwickelt wird, ist noch nicht bekannt.

Tracken und Auswerten.

Leistungsfähige ToF Kameras liefern bis zu 160 Distanzbilder pro Sekunde in Form eines Datensatzes, der für jeden ausgesendeten Lichtimpuls die Position im Raum abbildet. Die Herausforderung ist einerseits, die enorme Datenmenge einer getrackten Szene zu verarbeiten, real-time oder near-real-time, damit sie steuerungsrelevant ist, und andererseits die Geste zu interpretieren. Dazu bedarf es hoch performanter Zeitreihentechnologie, die, so mehrere ToF eingesetzt werden, überdies Zeitreihen aus verteilten Quellen synchron zusammenführen muss. Dies stellt hohe Anforderungen an Soft- und Hardware.


Andererseits gilt es, den Körper-, Kopf-, Gesicht- oder Handzustand zu interpretieren, um auf die Geste schließen zu können. Aktuell wird dazu auf den Erfahrungsschatz der Gaming- und Film- Animations-Industrie zurückgegriffen. Um möglichst realitätsnah Avatare und Animationen zu realisieren, wurden dort komplexe Körper-, Kopf-, Gesicht- wie auch Handmodelle entwickelt. Funktionen bilden Körperelemente verbunden über Joints ab. Die Zustandsveränderung über die Zeitachse definiert die Bewegung. Zur Interpretation von ToF Daten werden diese Modelle mit den Distanzinformationen verbunden, beispielsweise ein Standard-Skelett auf das Distanzmodell zur Analyse projiziert.

Real-time als Herausforderung.

Damit Gestensteuerung Sinn macht, muss die Mensch-Maschine Interaktion real-time erfolgen. Lösungen, um die benötigten Messdaten zu ermitteln, sind am Markt. Der Knackpunkt ist aktuell die Verarbeitung und Interpretation dieser Daten. Ansätze dazu werden im letzten Artikel der Gesten Trilogie beleuchtet werden.


Den Autor Stefan Komornyik kontaktieren.


Bildnachweis: © BMW Group | PressClub / HoloActive-Touch