Experience-Based Control and Coordination of Autonomous Mobile Systems in Dynamic Environments

التفاصيل البيبلوغرافية
العنوان: Experience-Based Control and Coordination of Autonomous Mobile Systems in Dynamic Environments
المؤلفون: Buck, Sebastian
المساهمون: Radig, Bernd (Prof. Dr.), Palm, Günther (Prof. Dr.)
بيانات النشر: Technical University of Munich, 2007.
سنة النشر: 2007
مصطلحات موضوعية: Experience-based learning, learning from interaction, machine learning, ddc:670, Erfahrungsbasiertes Lernen, Lernen aus Interaktion, Maschinelles Lernen, Industrielle Fertigung
الوصف: Many real-time machine control skills are too complex and laborious to be coded by hand. Preferably, such skills are acquired by learning algorithms. Suitable algorithms should learn automatically and based on experience from interaction with the machine's environment. But unfortunately, typical learning methods for real world machine control tasks have a number of problems: Huge high-dimensional state spaces complicate inductive learning, and it might be difficult to get a sufficient amount of appropriate training data for learning either because it takes too long or because it is extremely difficult to obtain good examples for learning from exploration. Furthermore, most current learning algorithms rely on a discrete MDP-model of the continuous state space, suffer from the incremental summation of errors during learning, and neglect the existence of undesirable states. The idea behind our approach of experience-based control is to exploit trajectories of successful explorations to approximate a value-function for the state space. To overcome the lack of training data we employ a realistic neural simulation of the machine's dynamics and introduce adequate exploration techniques, such as backward exploration, to acquire learning data. The combination of different exploration techniques allows for the integration of various types of initial knowledge and undesirable states can be integrated in the learning model. Since the majority of machine control tasks in technical applications shows deterministic behavior - or at least a unimodal probability distribution with a small variance - it is possible to use a simple projection-function instead of a complex MDP-model that was originally designed for discrete states. Our algorithms operate directly in a continuous state space and perform a number of explorations before we exploit the data. This is the main reason why our approach is robust against the incremental summation of noise which is often encountered in conventional learning algorithms. For the practical and efficient approximation of continuous functions we employ neural networks and networks of radial basis functions. Our methods have successfully been applied to numerous navigation tasks and tasks of situation dependent algorithm-selection. Viele Maschinensteuerungsaufgaben sind so komplex, dass es zu aufwändig wäre, sie von Hand zu programmieren. Im Idealfall wird hier das gewünschte Verhalten durch Lernalgorithmen erreicht. Geeignete Algorithmen müssen automatisch und basierend auf Erfahrungen aus der Interaktion mit der Umwelt der Maschine lernen. Leider zeigen viele gängige Lernalgorithmen für reale Maschinensteuerungsaufgaben einige Probleme: Sehr große und hochdimensionale Zustandsräume erschweren induktives Lernen, und es kann schwierig sein, eine ausreichende Menge geeigneter Trainingsdaten zu bekommen. Ursache dafür kann einerseits ein Mangel an Zeit sein; andererseits ist es vielleicht schwierig, überhaupt gute Beispiele zum Lernen zu finden. Darber hinaus basieren die meisten gebräuchlichen Lernalgorithmen auf einem diskreten MDP-Modell des kontinuierlichen Zustandsraumes, leiden unter der inkrementellen Summierung von Fehlern während des Lernens und vernachlässigen die Existenz von unerwünschten Zuständen. Die Idee, die dem vorgestellten Ansatz für erfahrungsbasierte Regelung zugrunde liegt, basiert auf der Ausnutzung von Trajektorien erfolgreicher Explorationen zur Approximation einer Bewertungsfunktion für den Zustandsraum. Um auch mit wenigen Trainingsdaten zum Erfolg zu gelangen, wird eine realistische neuronale Simulation der Dynamik der Maschine verwendet. Weiter werden intelligente Explorationstechniken wie z.B. Rückwrtsexploration eingesetzt, um an Trainingsdaten zu gelangen. Die Kombination verschiedener Explorationstechniken erlaubt die Integration verschiedensten initialen Wissens, und unerwünschte Zustände können vorab spezifiziert werden. Da die Mehrheit der technischen Maschinensteuerungsaufgaben deterministisches Verhalten - oder zumindest eine unimodale Verteilung mit kleiner Varianz - zeigt, ist es möglich, das komplexe MDP-Modell, das ohnehin für diskrete Zustände entwickelt wurde, durch eine einfache Projektionsfunktion zu ersetzen. Die vorgestellten Algorithmen arbeiten direkt in einem kontinuierlichen Zustandsraum und führen eine Anzahl von Explorationen durch, bevor die gesammelten Daten zum Lernen eingesetzt werden. Das ist auch der Hauptgrund, warum der vorgestellte Ansatz gegen die inkrementelle Summierung von Fehlern robust ist, die in konventionellen Lernalgorithmen weit verbreitet ist. Zur praktikablen und effizienten Approximation kontinuierlicher Funktionen werden neuronale Netze und Netze von radialen Basisfunktionen eingesetzt. Die vorgestellten Methoden wurden erfolgreich in mehreren Navigationsaufgaben sowie in der situationsabhängigen Algorithmenauswahl eingesetzt.
وصف الملف: application/pdf
اللغة: English
URL الوصول: https://explore.openaire.eu/search/publication?articleId=od_______518::0ef8906b853ad106c1ca7280581bae5d
https://mediatum.ub.tum.de/doc/601729/document.pdf
Rights: OPEN
رقم الانضمام: edsair.od.......518..0ef8906b853ad106c1ca7280581bae5d
قاعدة البيانات: OpenAIRE