Lexikon

Raumrepräsentation, sensomotorische

In der Künstlichen Intelligenz (KI) und Robotik werden verschiedenste Raumrepräsentationen genutzt, um mit der Umwelt zu interagieren, Pläne zu erstellen oder Verhaltensentscheidungen zu treffen. Traditionelle Ansätze kodieren dabei Räume eher abstrakt und allozentrisch. Im Gegensatz dazu suggerieren neurowissenschaftliche und kognitionspsychologische Studien, dass das Gehirn Räume viel verhaltensorientierter und egozentrischer repräsentiert.

Insbesondere gibt es verschiedene Areale im Gehirn, die Räume sensomotorisch kodieren – also durch Strukturen, die sensorische und motorische Informationen integrieren. Dadurch kann Verhalten sehr flexibel, adaptiv und effizient ausgewählt und kontrolliert werden. Parallel dazu zeigt die modernere, körperintegrierte KI („Embodied AI“), dass schon direkte sensomotorische Kopplungen komplexe Verhaltensmuster hervorbringen können. Somit kann man annehmen, dass sensomotorische Einheiten eine nützliche Basis für die Generierung von Raumrepräsentationen darstellen. In den letzten Jahren wird konsequenterweise das Erlernen solcher Repräsentationen vermehrt in der KI untersucht. Dieser Artikel gibt einen Überblick über den interdisziplinären thematischen Hintergrund und stellt aktuelle Modelle vor. Es wird gezeigt, dass sensomotorische Raumrepräsentationen hohes Potenzial haben, die Flexibilität und Anpassungsfähigkeit von Robotern effektiv zu erhöhen.

Körperintegrierte Künstliche Intelligenz („Embodied AI“)

Die klassische KI repräsentiert Räume, wie beispielsweise eine Büroumgebung, meist in abstrakter, allozentrischer Form. So werden Orte im Raum häufig durch globale Koordinaten kodiert oder es werden diskrete Raumstrukturen vorgegeben, mittels derer abstrakte Planung und Entscheidungsfindung möglich wird. Damit Planung und Verhalten in diesem Fall aber von Erfolg gekrönt sind, ist es wichtig, dass ein approximativ perfektes Wissen der Raumstruktur vorhanden ist. Damit ein eingesetzter Roboter die Karte zur Zielerreichung nutzen kann, muss er zusätzlich die allozentrische Kartenrepräsentation in eine egozentrische Repräsentation übersetzten können, um zum Beispiel in die richtige Richtung zu laufen.

Unter anderem durch die Publikation von Artikeln mit so provokativen Titeln wie „Intelligence without Representation“ [3] und das Design von scheinbar (teilweise) intelligenten Robotern mit sehr einfachen Algorithmen [9] hat sich in der letzten Dekade ein alternativer KI-Ansatz etabliert. Dieser Ansatz der körperintegrierten KI („Embodied AI“) unterscheidet sich von der klassischen KI dadurch, dass der Körper des Roboters und dessen Interaktion mit der Umwelt in den Vordergrund gerückt wird. So wurde komplexes Verhalten, wie zum Beispiel verschiedene dynamische Bewegungsarten, durch die Interaktion von wohlstrukturiertem Körper, Umwelt und einfachem Kontrollprogramm generiert [9]. Gleichzeitig werden bidirektionale, sensomotorische Raumrepräsentationen entwickelt, die vorwärtsgerichtet sensorische Informationen filtern können und invers direkt Verhalten kontrollieren können. Darüberhinaus werden die dabei genutzten sensomotorischen Kodes auch als Basiseinheit für höhere kognitive Prozesse vorgeschlagen [6]. Die körperintegrierte KI zeigt also zum Einen, dass direkte sensomotorische Kopplungen und egozentrische Repräsentationen sehr viel effizienter sind als symbolische, allozentrische Kodierungen, und zum Anderen, dass sensomotorische Kodes als Basiseinheit für effiziente Kontrollprozesse und höhere kognitive Prozesse dienen können.

Hirnareale für Zielgerichtetes Verhalten

Die Wichtigkeit des Körpers und die Integration von Sensorik und Motorik rückt aber auch in anderen Forschungsbereichen immer mehr in den Vordergrund. Während die frühe Kognitionsforschung noch von der behavioristischen Vorstellung der reinen Reiz-Reaktions-Verarbeitung ausging, zeigen mittlerweile diverse Experimente an Tieren und Menschen, dass eine interaktive Kopplung zwischen Sensorik, Motorik und aktueller Zielrepräsentation besteht. So ist zum Beispiel die Geschwindigkeit einer Verhaltensinitiierung von der Art des Verhaltenseffekts abhängig, selbst wenn dieser immer erst nach dem Verhalten eintritt. Auch die sensorische Verarbeitung agiert selektiv zielvorbereitend [7,8]. Verhalten wird also stark von den jeweils aktuellen Zielrepräsentationen determiniert.

Fleischer [5] gibt einen Überblick über antizipative Prozesse in verschiedenen Hirnregionen. So befinden sich im Hippocampus, der essenziell für die Bildung von episodischen Erinnerungen ist, Ortszellen („place cells“) und Orientierungszellen („head direction cells“), die nicht nur für die Repräsentation einer mentalen Karte zuständig sind, sondern auch für die Verhaltensauswahl und Verhaltenskontrolle. Dabei sind Orts- und Bewegungsinformation so gekoppelt, dass eine sensomotorische Raumrepräsentation der explorierten Umgebung entsteht, die äußerst nützlich für die Verhaltensauswahl und Kontrolle ist.

Während die Karten im Hippocampus für die abstraktere, episodische Verhaltensauswahl genutzt werden, gibt es im prämotorischen und motorischen Cortex sensomotorische Karten, die Körperstellungen und Verhalten im Raum direkt repräsentieren, auslösen und steuern. So haben etwa Schwartz et al. [12] an Affen gezeigt, dass diese beiden kortikalen Areale (unter anderem) gegenseitig abhängige Repräsentationen von Handeigenbewegungen und Handpositionen kodieren: wurde die visuelle Rückmeldung manipuliert, sodass die gesehene Handbewegung nicht mit der wirklichen Handbewegung übereinstimmte, repräsentierte der motorische Cortex eher die wirkliche Handbewegung und der prämotorische Cortex eher die gesehene. Zudem haben Schwartz et al. eine Interaktion der Handrepräsentationen festgestellt, die nahelegt, dass auch eine sensomotorische Komponente, basierend auf den ausgeführten motorischen Kommandos, prädiktiven Einfluss ausübt. Battaglia-Mayer et al. [2] geben eine Übersicht über Erkenntnisse der Neurowissenschaften, wie Hand und Auge über mehrere Raumrepräsentationsebenen interagieren, um Ziele im Raum zu fokussieren oder zu greifen.

Zusammenfassend zeigen diese verschiedenen Erkenntnisse, dass das Gehirn die Umwelt nicht repräsentiert sondern Körper und Umweltinteraktion integrativ für das Verhalten sensomotorisch kodiert. Sensorische Repräsentationen werden dabei direkt an die motorischen gekoppelt und von diesen strukturiert. Es ist somit nicht überraschend, dass nun vermehrt auch interaktive sensomotorische Raumrepräsentationen für die Robotersteuerung entwickelt werden. Im Folgenden gehen wir beispielhaft auf Systeme ein, die Karten basierend auf der Funktionsweise des Hippocampus erlernen und die sensomotorische Kodes direkt für die Verhaltenskontrolle nutzen.

Sensomotorisches Kartenlernen

Für das Erlernen von mentalen Karten wurden unter anderem neuronale Modelle entwickelt, die direkt an die Funktionsweise des Hippocampus angelehnt sind. Arleo und Gerstner [1] haben gezeigt, dass Robotersysteme basierend auf einer geeigneten, vorverarbeiteten Landmarkenrepräsentation sensomotorische Karten einer Um-gebung erlernen und effizient nutzen können. Im Vergleich zu klassischen KI-Ansätzen ist das Modell dabei nicht an voreingestellte Raumstrukturen gebunden. Die entstehende Karte muss nämlich nicht in zwei Dimensionen eingebettet werden, sondern die Neuronen und deren Verknüpfung allein kodieren den Raum und die Verhaltensmöglichkeiten im Raum. Während das System von Arleo und Gerstner von der gewählten Landmarkenrepräsentation abhängt, zeigt Toussaint [10], dass ähnliche sensomotorische Karten auch basierend auf sehr einfachen Distanz- und Bewegungsinformationen aufgebaut werden können. Die erstellte lateral verknüpfte, populationskodierte Repräsentation, die den explorierten Raum durch eine Menge von überlappenden, lokal aktiven Neuronen kodiert, ermöglicht eine sehr effiziente Verhaltensinitiierung und Kontrolle mittels Modellbasiertem Reinforcement-Learning (Dynamische Programmierung im Populationskode). Im Ergebnis können damit mit geringstem Berechnungsaufwand flexibel (und unter Einbezug möglicher weiterer Verhaltenspräferenzen) alle kodierten Orte im Raum auf dem kürzesten Weg erreicht werden.

Sensomotorische Körperraumrepräsentationen

Während sensomotorische Karten abstraktere Raumrepräsentationen sind, mittels derer verschiedene Fortbewegungsmethoden kontrolliert werden können (beispielsweise Laufen oder Schwimmen), sind die Areale im motorischen Cortex zumeist an eine bestimmte Verhaltensart gebunden, wie zum Beispiel Arm-, Hand- oder Beinbewegung. In Annäherung an diese verhaltensartgebundenen Repräsentationen werden Modelle entwickelt, die direkt einen Arm oder auch Augen kontrollieren.

Schenck und Möller [11] implementieren einen sensomotorischen Ansatz für Augensakkaden, also schnelle, zielpunktgerichtete Augenbewegungen. Ihr System erlernt ein Vorwärtsmodell, das die Veränderung im visuellen Feld abhängig von Kamerabewegungen berechnen kann. Die Autoren schlagen vor, diese Repräsentation sowohl für die Augensakkadenkontrolle zu nutzen, als auch für die Kontrolle von Greifbewegungen. Dabei kann der sensomotorische Augensakkadenraum im Einklang mit [2] als Aufmerksamkeitszentrum dienen, Ziele für Augensakkaden oder Greifbewegungen auszuwählen.

Der „SURE_REACH“ Ansatz [4] verfolgt eine derartige Kopplung für die flexible Roboterarmsteuerung mit redundanten Freiheitsgraden. SURE_REACH kodiert zwei Räume mittels überlappenden neuronalen Populationskodes: einen Handraum für Handlokationen und einen Armstellungsraum, der Gelenkstellungen kodiert. Lokationsneuronen im Handraum werden mit allen (redundanten) Gelenkstellungsneuronen assoziiert, die hinreichend nahe mit der spezifizierten Handlokation übereinstimmen (redundante inverse Kinematik). Darüber hinaus sind die Gelenkstellungsneuronen untereinander sensomotorisch assoziiert (sensomotorische Raumrepräsentationen, vgl. Abb.1, links).

Das SURE_REACH-System erlernt diese Assoziationen durch die Ausführung von zunächst sehr einfachen, randomisierten Bewegungen. Da die Assoziationen effizient redundante Ziel- und Bewegungsalternativen kodie-ren, ist (wie bei Toussaint [10], siehe oben) eine sehr flexible, zielorientierte Verhaltensauswahl möglich. Dabei werden aktivierte Handlokationsziele in den Gelenkstellungsraum projiziert. Dann wird diese Aktivität über den gesamten Gelenkstellungsraum motorabhängig mittels Modellbasiertem Reinforcement Learning propagiert. Basierend auf dem resultierenden sensorisch-motorischem Mapping bewegt sich der Arm schließlich mittels Regelkreiskontrolle zum Ziel (vgl. Abb.1, rechts). Es wurde gezeigt, dass SURE_REACH zuverlässig Zielstellungen und auch Handzielorte erreichen kann. Außerdem kann das System durch einfache, aktivitätsmodulierende Multiplikationen flexibel Hindernisse umgehen, bestimmte Bewegungen präferieren oder vermeiden und auch antizipativ Zwischenziele so ansteuern, dass das finale Ziel von dort effizient erreicht wird. Das Modell ist also nicht nur biologisch plausibel, sondern es zeigt auch eine immense Verhaltensflexibilität, die mit alternativen Ansätzen unerreicht bleibt.

Fazit

Die Beispiele haben gezeigt, dass autonome, selbstlernende Systeme, seien es mobile Roboter, sich selbst bewegende Kameras oder Roboterarme, sensomotorische Raumrepräsentationen nicht nur für die Darstellung der Umgebung, sondern insbesondere auch für die Verhaltensplanung und Kontrolle nutzen können. Interessanterweise sind durch die sensomotorischen Kodes Distanzen im dargestellten Raum direkt an motorische Kodes gekoppelt. Dadurch reflektiert die Repräsentation direkt den motorischen Aufwand, einen Zustand im Raum in einen anderen zu überführen. Somit sind Distanzen weder metrisch noch sensorisch kodiert, sondern sensomotorisch. Darüber hinaus gibt es in den letzten Jahren diverse Hinweise, dass sensomotorische Kodes auch die Basiseinheiten höherer kognitiver Fähigkeiten bilden, wie zum Beispiel das Erlernen der Muttersprache im Kindesalter [6]. Während solche Hypothesen teilweise noch sehr kontrovers diskutiert werden, ist klar, dass sensomotorische Einheiten für die flexible, adaptive Roboterkontrolle immens nützlich sind. Die Umsetzung in realen Robotern steht dabei allerdings erst am Anfang, sodass noch äußerst interessante Anwendungen zu erwarten sind. Die nächsten Jahre werden zeigen, in welchen Formen sensomotorische Raumrepräsentationen in sehr viel komplexeren und realen Systemen zum Einsatz kommen werden.

Referenzen

1. Arleo, A., Gerstner, W.: Spatial cognition and neuro-mimetic navigation: A model of hippocampal place cell activity. Biological Cybernetics 83, 287-299 (2000)

2. Battaglia-Mayer, A., Caminiti, R., Lacquaniti, F., Zago, M.: Multiple levels of representation of reaching in the parieto-frontal network. Cerebral Cortex 13, 1009-1022 (2003)

3. Brooks, R. A.: Intelligence without representation. Artificial Intelligence 47, 139-159 (1991)

4. Butz, M. V., Herbort, O., Hoffmann, J.: Exploiting redundancy for flexible behavior: Unsupervised learning in a modular sensorimotor control architecture. Psychological Review 114, 1015-1046 (2007)

5. Fleischer, J. G.: Neural correlates of anticipation in cerebellum, basal ganglia, and hippocampus. In Butz, M. V. et al. (Hrsg.): Anticipatory Behavior in Adaptive Learning Systems: From Brains to Individual and So-cial Behavior (S. 19-34). Berlin, Heidelberg: Springer 2007

6. Grush, R.: The emulation theory of representation: Motor control, imagery, and perception. Behavioral and Brain Sciences 27, 377-96 (2004)

7. Hoffmann, J., Berner, M., Butz, M. V., Herbort, O., Kiesel, A., Kunde, W., Lenhard, A.: Explorations of an-ticipatory behavioral control (ABC): A report from the cognitive psychology unit of the University of Würzburg. Cognitive Processing 8, 133-142 (2007)

8. Hommel, B., Müsseler, J., Aschersleben, G., Prinz, W.: The theory of event coding (TEC): A framework for perception and action planning. Behavioral and Brain Sciences 24, 849-878 (2001)

9. Pfeifer, R., Bongard, J. C.: How the Body Shapes the Way We Think. Cambridge, MA: MIT Press (2006)

10. Toussaint, M.: A sensorimotor map: Modulating lateral interactions for anticipation and planning. Neural Computation 18, 1132-1155 (2006)

11. Schenck, W., Möller, R.: Training and application of a visual forward model for a robot camera head. In Butz, M. V. et al. (Hrsg.): Anticipatory Behavior in Adaptive Learning Systems: From Brains to Individual and Social Behavior (S. 153-169). Berlin, Heidelberg: Springer 2007

12. Schwartz, A. B., Moran, D. W., Reina, G. A.: Differential representation of perception and action in the frontal cortex. Science 303, 380-383 (2004)

Autor und Copyright

Martin V. Butz

Institut für Psychologie

Universität Würzburg

Röntgenring 111

97070 Würzburg

E-Mail

© 2008 Informatik Spektrum, Springer-Verlag Berlin Heidelberg