Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicerobotern. - In: Künstliche Intelligenz, ISSN 0933-1875, Bd. 20 (2006), 3, S. 39-41
User-adaptive interaction with social service robots. - In: Künstliche Intelligenz, ISSN 0933-1875, Bd. 20 (2006), 3, S. 31-34
Multi-modal sensor fusion using a probabilistic aggregation scheme for people detection and tracking. - In: Robotics and autonomous systems, ISSN 1872-793X, Bd. 54 (2006), 9, S. 721-728
http://dx.doi.org/10.1016/j.robot.2006.04.012
Monocular 3D scene reconstruction at absolute scales by combination of geometric and real-aperture methods. - In: Pattern recognition, (2006), S. 607-616
http://dx.doi.org/10.1007/11861898
Modellierung primärer multisensorischer Mechanismen der räumlichen Wahrnehmung, 2006. - Online-Ressource (PDF-Datei: 224 S., 8737 KB) : Ilmenau, Techn. Univ., Diss., 2006
Parallel als Druckausg. erschienen
In der vorliegenden Arbeit werden visuelle, auditive und multimodale Formen der räumlichen Wahrnehmung und deren Relevanz für den Entwurf technischer Systeme erörtert. Der dabei vertretene wissenschaftliche Ansatz hat interdisziplinären Charakter und berücksichtigt im Umfeld der Neuroinformatik und Robotik methodische Aspekte der Neurobiologie, Wahrnehmungspsychologie und Informatik gleichermaßen. Im Ergebnis sind einerseits neue und weitergehende Interpretationen der Befunde über die natürliche Wahrnehmung möglich. Andererseits werden Defizite bestehender Simulationsmodelle und technischer Anwendungen benannt und überwunden. Den Ausgangspunkt der Untersuchungen bildet in Kapitel 1 die Diskussion und kritische Wertung etablierter Aufmerksamkeitsmodelle der Wahrnehmung, in denen frühe multisensorische Hirnfunktionen weitgehend unbeachtet bleiben. Als Grundgedanke der folgenden Untersuchungen wird die These formuliert, dass eine konzeptionelle Trennung zwischen primärer Aufmerksamkeit und höheren kognitiven Leistungen sowohl die Einordnung von sensorischen Merkmalen und neurologischen Mechanismen als auch die Modellierung und Simulation erleichtert. In den Kapiteln 2 und 3 werden zunächst die primären räumlichen Kodierungen der zentralen Hörbahn und des visuellen Systems vorgestellt und die Spezifika von projizierten und berechneten sensorischen Topographien beschrieben. Die anschließende Modellierung von auditorisch-visuellen Integrationsmechanismen in Kapitel 4 dient ausdrücklich nicht der Klassifikation oder dem Tracking von Objekten sondern einer frühen räumlichen Steuerung der Aufmerksamkeit, die im biologischen Vorbild unbewusst und auf subkortikalem Niveau stattfindet. Nach einer Erörterung der wenigen bekannten Modellkonzepte werden zwei eigene multisensorische Simulationssysteme auf Basis künstlicher neuronaler Netze und probabilistischer Methoden entwickelt. Kapitel 5 widmet sich der systematischen experimentellen Untersuchung und Optimierung der Modelle und zeigt, wie unbewusste Wahrnehmungsleistungen und deren Simulation unter Bezugnahme auf qualitative und quantitative Befunde über multisensorische Effekte im Mittelhirn evaluiert werden können. Die Diskussion des Modellverhaltens in realen audio-visuellen Szenarien soll unterstreichen, dass die frühe Steuerung der Aufmerksamkeit noch vor der Objekterkennung einen wichtigen Beitrag zur räumlichen Orientierung leistet.
http://www.db-thueringen.de/servlets/DocumentServlet?id=7099
Gesichtsanalyse für die intuitive Mensch-Roboter-Interaktion. - In: Autonome mobile Systeme 2005, (2006), S. 67-73
Integration of a sound source detection into a probabilistic-based multimodal approach for person detection and tracking. - In: Autonome mobile Systeme 2005, (2006), S. 131-137
Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicerobotern, 2005. - Online-Ressource (PDF-Datei: 224 S., 19,3 MB) : Ilmenau, Techn. Univ., Diss., 2005
Parallel als Druckausg. erschienen
Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicerobotern Im Gegensatz zur zwischenmenschlichen Kommunikation, bei der die Beziehungsebene im Vergleich zur Sachebene den weitaus größeren Anteil einnimmt, wird diese bei der Mensch-Roboter-Interaktion bislang nur in Ansätzen berücksichtigt. Insbesondere die Nutzerwahrnehmung bleibt in der Regel auf eine reine Personendetektion oder ein einfaches Personen-Tracking beschränkt. Vor diesem Hintergrund wurde eine verbesserte Wahrnehmung des aktuellen Zustandes des Nutzers als Voraussetzung für eine Personalisierung des Dialogs als Zielstellung dieser Arbeit abgeleitet. Beim exemplarischen Anwendungsszenario handelt es sich um einen Shopping-Assistenten, der in einem Baumarkt den Kunden bei der Suche nach Produkten behilflich ist. Dieser sollte zumindest einen gewissen Grad an sozialer Kompetenz zeigen, indem er z.B. Personen in seiner Umgebung detektiert und während der Interaktion kontinuierlich Blickkontakt hält. Um Nutzermodelle erstellen, kurzzeitig verlorene Nutzer wiedererkennen und den Gemütszustand des Nutzers abschätzen zu können, sollen Geschlecht, Alter, Identität und Gesichtsausdruck des Nutzers aus einem Videobild ermittelt werden. Für die Realisierung dieser Aufgabe wurde eine biologisch motivierte Aufteilung in ein peripheres und ein foveales Vision-System vorgeschlagen. Das periphere System arbeitet auf den Bildern einer omnidirektionalen Kamera und verfügt damit über einen sehr großen Sichtbereich, aber nur eine vergleichsweise geringe Auflösung. In diesem System werden zunächst Hypothesen über die Position von Personen im Umfeld des Roboters gebildet. Dafür werden Hautfarbe, Bewegung und Entfernung in einer Auffälligkeitskarte integriert und auffällige Bildbereiche mittels eines Multi-Target-Trackers verfolgt. Für die omnidirektionale Kamera wurde ein automatischer Weißabgleich entwickelt, der die Hautfarbdetektion unempfindlich gegen Änderungen der Chrominanz der Beleuchtung macht. Nach Auswahl einer Nutzerhypothese wird der Kopf des Roboters kontinuierlich in die entsprechende Richtung ausgerichtet. Damit erhält der Nutzer zum einen eine Rückmeldung über die gerichtete Aufmerksamkeit des Roboters während der Interaktion. Zum anderen kann der Roboter hochaufgelöste Bilder der Person aufnehmen, so dass eine weitere nachfolgende Analyse ermöglicht wird. Diese ist wiederum in zwei Teilschritte unterteilt. Der erste Schritt besteht aus einer Detektion des Gesichtes und einer anschließenden Detektion der Augen, anhand derer eine normalisierte Darstellung des Gesichtes erzeugt wird. Für den Analyseschritt wurden das Elastic-Graph-Matching, die Independent Component Analysis und die Active-Appearance Models implementiert und vergleichend untersucht. Unter Berücksichtigung der Anforderungen einer Geschlechts-, Alters-, Mimik- und Identitätsschätzung wurde hierfür eine umfassende Gesichtsdatenbank zum Training und zum Test der Verfahren angelegt. Die Leistungsfähigkeit des Gesamtsystems wurde schließlich anhand von empirischen Experimenten demonstriert.
http://www.db-thueringen.de/servlets/DocumentServlet?id=5311
Efficient evolutionary optimization using individual-based evolution control and neural networks : a comparative study. - In: Proceedings, (2005), S. 273-278
Hey, I'm over here - how can a robot attract people's attention?. - In: 2005 IEEE International Workshop on Robot and Human Interactive Communication (RO-MAN), (2005), S. 7-12