Lexikon

Smart Graphics/Intelligent Graphics

Überblick und Entwicklung

„Intelligent Graphics is about visually representing the world and visually representing our ideas. Artificial intelligence is about symbolically representing the world, and symbolically representing our ideas. And between the visual and the symbolic, between the concrete and the abstract, there should be no boundary.“  Henry Lieberman, MIT, 1996 [1]

Liebermans Zitat beschreibt ein informatisches Paradigma, dessen zentrale Idee auf der Verknüpfung von Verfahren der Künstlichen Intelligenz (KI) mit denen der Computergraphik (CG) beruht: Das Schlagwort Smart Graphics oder synonym Intelligent Graphics bezeichnet heute unterschiedlichste Anwendungsszenarien. Diese reichen von der intelligenten und kontextsensitiven Anordnung graphischer Elemente in 2D-Desktopsystemen bis hin zu sprach-gestischen Schnittstellen oder intelligenten Agenten in virtuellen Umgebungen als Assistenten der Benutzer. Allen diesen Ansätzen ist gemein, dass eine graphische Mensch-Computer-Schnittstelle mit Hilfe von KI-Verfahren an die kognitiven Eigenschaften des Benutzers angepasst wird, um die Bedienung zu verbessern.

Erste – aus heutiger Sicht bahnbrechende – Beispiele für die zentrale Idee des Paradigmas sind zwei Projekte aus dem Bereich der KI und speziell der Mensch-Computer-Interaktion (MCI): SHRDLU von Terry Winograd aus dem Jahr 1971 [2] und Bolts Put-That-There aus dem Jahr 1980 [3] (s. Abbildung 1).

 

In vielen frühen Projekten spielt eine Ankopplung von semantischen Modellen an die computergraphischen Szenen eine primäre Rolle. Für die Interpretation der Benutzeräußerungen in  SHRDLU und Put-That-There ist dies eine Notwendigkeit. In  heutigen Ansätzen kommt dagegen fast das gesamte Spektrum der existierenden KI-Methoden zum Einsatz. Aktuelle Forschungsergebnisse zu diesem Thema finden sich zum einen auf den wissenschaftlichen Tagungen der beteiligten Fachgebiete Computergraphik sowie KI, aber speziell auch auf dedizierten Veranstaltungen wie dem Smart Graphics Symposium (seit 2000), der International Conference on Computer Graphics and Artificial Intelligence – 3IA, (seit 1994) sowie übergreifend auf den MCI-relevanten Plattformen.

Bis zu Beginn der 90er-Jahre ist die Anzeige interaktiver graphischer Szenen eine Domäne teurer Spezialgeräte. Dann treibt die Verbreitung graphischer Benutzerschnittstellen, insbesondere auch der Erfolg der Computerspiele, die Realisierung interaktiver Graphiken auf Standard-PCs und Heimgeräten voran. Seither steigen Qualität der mittels günstiger Consumer-Geräte synthetisierten Inhalte, die Vielfalt der verschiedenen Interaktionsmöglichkeiten sowie ebenfalls die Erwartungshaltung der Verbraucher an die jeweils nächste Generation stetig. Als Resultat steigen Anforderungen und Komplexität der softwaretechnischen Lösungen signifikant. An Hand von aktuellen Anwendungsfällen werden in der Folge zwei spezielle Einsatzszenarien und funktionale Anforderungsprofile illustriert:

1.      Die Verknüpfung mit alternativen Verbindungsrepräsentationen zur Realisierung von Navigationsaufgaben sowie die Verknüpfung mit semantischen Informationen und maschinellen Lernverfahren zur Verhaltenssteuerung autonomer virtueller Agenten, etwa in Computerspielen.

2.      Die Verknüpfung mit semantischen Modellen sowie die Einbettung von maschinellen Lernverfahren zur Realisierung multimodaler Eingaben.

An Hand der Beispiele werden anschließend prinzipielle Herausforderungen bei der technischen Realisierung näher erläutert.

 

Beispiel 1: Entertainment

Computerspiele haben sich zu einem wichtigen Wirtschaftsfaktor entwickelt. Die Computerspielindustrie produziert seit mehreren Jahren weit höhere Umsatzzahlen als die klassische Filmindustrie. Die kontinuierliche Verbesserung der graphischen Darstellung war lange Zeit ein wichtiger Erfolgsfaktor für neue Titel.

Bei der Evolution in der Spieleentwicklung hat die KI bisher eher ein Schattendasein gespielt. Auf der einen Seite ist eine gute KI unabdingbar für viele Spieltypen und Spielmechaniken. Erst eine gute KI ermöglicht die Simulation von NPCs (Non-Player Characters), autonomen Spielfiguren wie Agenten oder SoftBots und deren Fähigkeiten. Auf der anderen Seite tritt dagegen ein gute KI als Erfolgsfaktor kaum in Erscheinung: „Eine Künstliche Intelligenz fällt meistens nur dann auf, wenn sie nicht richtig funktioniert.“ (Thomas Stein, Technischer Direktor bei Related Designs und Chefprogrammierer des Aufbau Strategie-Spiels Anno 1701 nach Klinge [4]).

Allerdings gilt die KI als Schlüsseltechnologie für die Entwicklung neuer Generationen von Spielen [5]. Die graphische Qualität steigt nur noch maßvoll, im Gegensatz dazu erwarten Spieler immer komplexere Welten mit einer Vielzahl von Interaktionsmöglichkeiten und einer weitgehenden Entscheidungsfreiheit für die Spieler, so genannte open-world Konzepte.

 

In Abbildung 2 werden zwei Beispiele für die Kopplung zwischen KI und Computergraphik im Gaming-Kontext gezeigt. In SiXton’s Curse [6] (oberes Bild) muss ein Spieler in der Rolle eines Magiers mit Hilfe von Zaubersprüchen ein Dorf vor einer Zerstörung durch Geisterhorden bewahren. Mit dem CaveUDK (unteres Bild) wird ein typischer First-Person Shooter in eine VR-Umgebung übertragen. Beide Beispiele bedingen den Einsatz von Smart Graphics: Die Geister in SiXton’s Curse wie die NPCs im CaveUDK benötigen verschiedene spezifische alternative Repräsentation der virtuellen Welt für Ihre Pfadplanung, Wahrnehmung sowie die Entscheidungsfindung [7], um autonom gegen den menschlichen Spieler anzutreten und dem Spieler eine Herausforderung zu bieten. Diese verschiedenen Repräsentationen sowie die Prozessabläufe der unterschiedlichen Verfahren müssen dabei eng an die graphische Szene und die Bildsynthese gekoppelt werden, damit der interne und der wahrgenommene Weltzustand konsistent sind.  

Beispiel 2: Multimodale Schnittstellen

Multimodale Schnittstellen, insbesondere der Einsatz von Sprache und Gestik, sind ein Paradebeispiel für das Paradigma der Smart Graphics/Intelligent Graphics. Bereits bei Winograd und Bolt haben Benutzer und Computer einen Dialog über die visualisierte Szene und die dort sichtbaren Objekte geführt. Ein solcher Dialog bedingt eine an der menschlichen Konzeptualisierung orientierte Wissensrepräsentationsebene. Benutzer und System müssen über eine passende Verankerung (das so genannte Grounding) der Domäne und Ihrer Elemente in einem semantischen Modell verfügen, um eine gegenseitige Verständigung über die künstlichen Welten zu ermöglichen.

In Abbildung 3 werden zwei Beispiele einer multimodalen Interaktion gezeigt. Im oberen Bild instruiert der Benutzer sprachgestisch ein CAD System. „Nimm [Zeigegeste] dieses Teil und dreh es [Rotationsgeste] so herum.“  Das System wird durch einen virtuellen Agenten verkörpert. Dieser kommuniziert ebenfalls sprachgestisch und klärt Rückfragen im Dialog [8]. Im unteren Bild verwendet ein Benutzer Berührung (Touch) in Kombination mit  berührungslosen Gesten zur Interaktion an der smARTbox.

Interaktivität und technische Komplexität

Durch die steigenden Erwartungen und Anforderungen an Systeme der Smart Graphics/Intelligent Graphics erhöht sich deren konzeptionelle und technische Komplexität. Um hier den zukünftig zu erwartenden Bedarf und die Anforderungen abzuschätzen, lohnt ein Blick auf Systeme der Intelligent Virtual Environments (IVE) [9]. Diese übertragen das Paradigma auf die Virtual Reality (VR) und deren gesteigerten Anforderungen an maximale Interaktivität.

VR beschränkt sich nicht allein auf die Synthese visueller Reize. Die Benutzer sollen die künstlichen  Realitäten als realistisch akzeptieren. Dies beinhaltet die Synthese verschiedener sensorischer Eindrücke (visuell, auditiv, haptisch oder auch olfaktorisch etc.) sowie die Echtzeitsimulation des Weltzustandes der virtuellen Szene, um eine möglichst natürliche und störungsfreie Interaktion zu ermöglichen. Mögliche Latenzzeiten durch technische Probleme sorgen hier nicht nur für eine Abnahme der Effizienz, sie können durch die ungewollte Erzeugung psychophysischer Probleme (Cyber Sickness) den Gebrauch des Systems zur Gänze verhindern. IVEs stellen in diesem Hinblick momentan die höchsten Anforderungen an die Realisierung des Paradigmas.

Abbildung 4 zeigt einen stark vereinfachten Ausschnitt aus der Architektur einer IVE-Anwendung zur multimodalen (sprachgestischen) Interaktion mit einem virtuellen Agenten, wie durch die vorhergehenden Beispiele motiviert. Die Architektur verteilt die Verfahren für die Eingabeverarbeitung, Agentensimulation, Animation sowie das Rendering gemäß ihrer funktional semantischen Zusammengehörigkeit auf verschiedene Komponenten und diese wiederum auf eigene Ausführungsstränge (Threads). Ein zentraler Thread steuert die Synchronisation. Weitere dedizierte Komponenten realisieren die physikalische Simulation, das Soundrendering oder auch ein haptisches Feedback. Die zentralen Herausforderungen solcher Smart-Graphics-Architekturen bestehen darin, dass die eingesetzten Komponenten sehr häufig über

1.      eigene Prozessflusskontrollen und Taktraten sowie

2.      komplementäre aber auch teils redundante Datenstrukturen verfügen.

Diese beiden Eigenschaften erschweren die Prozessflusskontrolle und den Datenzugriff signifikant und führen zu hochgradig anwendungsabhängigen Lösungen. Aufrufe erfolgen nicht einfach nur aus einer zentralen Stelle aus. Im Beispiel in Abbildung 4 kaskadiert der Aufruf des Agent Thread in den Animation Thread. Die Eingabeverarbeitung dagegen läuft in einer eigenen Schleife. Sie ruft sich selber wieder auf und muss auf Grund einer eigenen Taktung Ihre Daten für eine später synchron ausgelöste Integration puffern. Komponenten müssen dabei teilweise re-entrant sein, wie am Beispiel des Animation Thread gezeigt wird, da dieser von zwei Klienten zu unterschiedlichen Zeitpunkten ausgelöst wird.

Die eingesetzten Komponenten benötigen dabei in der Regel Zugriff auf den Zustand der simulierten Umgebung (Access World State) und/oder sie tragen zur Berechnung eines neuen Zustands bei (Provide new State). Im Beispiel benötigt die multimodale Verarbeitung zum einen kontinuierlichen Zugriff auf die räumliche Konfiguration der dargestellten Entitäten, da die Analyse der Gestik und der multimodalen Eingaben hochgradig kontextabhängig sind und die sich ändernden Raumrelationen schritthaltend berücksichtigt werden müssen. Zum anderen müssen Anfragen an die Wissensrepresentationsschicht gemacht werden, um die semantische  Repräsentation der Domänenobjekte zu erhalten. Insbesondere die Anforderung an einen kontinuierlichen Zugriff verhindert eine lose Kopplung durch eine Funktionsaufrufsemantik.

Multimodale Verarbeitung und Animation tragen darüber hinaus zum neuen Zustand bei. Die jeweiligen Zugriffsmuster sind hoch individuell und reichen von einfachen atomaren Anfragen für nur eine einzige Entität bis zu kompletten Abbildern eines Zustands. Gleichzeitig muss die Konsistenz des Zustandes unbedingt gewährt bleiben, um Inkonsistenzen zu vermeiden. Gegenwärtige  Lösungsansätze für die geschilderten Anforderungen sind in der Regel individuell auf das jeweilige Anwendungsszenario zugeschnitten und sie sind nur begrenzt übertragbar. 

Zusammenfassung

Smart Graphics/Intelligent Graphics, die Verbindung von Künstlicher Intelligenz und Computergraphik, ist ein interessantes Paradigma mit erheblichem Potential für zukünftige informatische Lösungen. Die Aufgabe, die dem Paradigma inhärenten komplexen Datenzugriffsmuster und Prozessabläufe zu synchronisieren, dazu noch dies unter den heutigen Randbedingungen einer Verteilung auf mehrere Prozessorkerne oder gar auf dedizierte Hardware wie Graphikbeschleuniger zu erreichen, führt aber zu einem Dilemma: Im Hinblick auf die Softwarequalität, etwa bezüglich der Wartbarkeit und Wiederverwendbarkeit, sollte eine möglichst hohe Kohäsion und eine geringe Kopplung zwischen den Komponenten realisiert werden. Die prinzipiellen Anforderungen innerhalb interaktiver Systeme stehen diesem aber entgegen [10].

Konzeptionell ermöglicht die Idee die Gestaltung neuartiger Mensch-Computer-Schnittstellen. Technisch dagegen wird diese Kopplung zwischen den verschiedenen Verfahren zusehends komplexer. So beeindruckend die verschiedenen Entwicklungen in ihrem Funktionsumfang auch sind, es fehlt noch an Vergleichsmöglichkeiten,  best practices, Anforderungsprofilen, Schnittstellen  und klaren Strukturen für die Kopplung der unterschiedlichen Verfahren.  Hier existiert ein großer Bedarf an wiederverwendbaren Lösungen, um Investitionskosten zu senken und den Fortschritt langfristig zu sichern.

Literatur

[1]       H. Lieberman, "Intelligent graphics," Commun. ACM, vol. 39, pp. 38–48, 1996.

[2]       T. Winograd, "Procedures as a Representation for Data in a Computer Program for Understanding Natural Language," 235, 1971.

[3]       R. A. Bolt, "Put-that-There: Voice and Gesture at the Graphics Interface," Computer Graphics, vol. 14, pp. 262–270, July 1980.

[4]       H. Klinge, "Künstliche Dummheit," GameStar, 2008.

[5]       A. Nareyek, "AI in Computer Games," Queue, vol. 1, pp. 58–65, Februar 2004.

[6]       M. Fischbach, D. Wiebusch, A. Giebler-Schubert, M. E. Latoschik, S. Rehfeld, and H. Tramberend, "SiXton's curse - Simulator X demonstration," in IEEE Virtual Reality Conference 2011, pp. 255–256.

[7]       D. Wiebusch, M. Fischbach, M. E. Latoschik, and H. Tramberend, "Evaluating scala, actors, & ontologies for intelligent realtime interactive systems," in The 18th ACM symposium on Virtual Reality Software and Technology, New York, NY, USA, 2012, pp. 153–160.

[8]       S. Kopp, B. Jung, N. Lessman, and I. Wachsmuth, "Max - A Multimodal Assistant in Virtual Reality Construction," KI Zeitschrift Künstliche Intelligenz, special issue on Embodied Conversational Agents, vol. 4, pp. 11–17, 2003.

[9]       R. Aylett and M. Luck, "Applying Artificial Intelligence to Virtual Reality: Intelligent Virtual Environments," Applied Artificial Intelligence, vol. 14, pp. 3–32, 2000.

[10]     M. E. Latoschik and H. Tramberend, "Guru Meditation: Kopplung & Kohäsion – Entwicklung interaktiver Graphiksysteme," in 9. Paderborner Workshop Augmented & Virtual Reality in der Produktentstehung, 2010.

Autor und Copyright

Marc Erich Latoschik
Lehrstuhl für Mensch-Computer-Interaktion
Universität Würzburg
Am Hubland
97074 Würzburg

E-Mail

© Springer Verlag Heidelberg 2014