The Open UniversitySkip to content
 

Zur Theorie künstlicher neuronaler Netze

Rüger, Stefan (1997). Zur Theorie künstlicher neuronaler Netze. Reihe Physik (71). Thun, Frankfurt am Main: Verlag Harri Deutsch, 228 pages.

Full text available as:
[img]
Preview
PDF (Version of Record) - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
Download (1560Kb)
Google Scholar: Look up in Google Scholar

Abstract

Zur Theorie künstlicher neuronaler Netze wird aus vier Gebieten beigetragen: der Informatik mit einem neuen Lernverfahren (stabile Parameteradaption), der Mathematik mit der Analyse der Struktur des Gewichtungsraums, der Statistik mit einem neuen Schätzer für die Güte von Netzen (Clustered bootstrap) und der Physik mit effizienten Lern- und Schliesalgorithmen für dezimierbare Boltzmann-Maschinen.

Es werden Abbildungsnetze definiert, deren Kettenregel abgeleitet und in mehrere berechtigte algorithmische Varianten gefast, Backpropagation-Netze definiert, der Backpropagation-Algorithmus in einer möglichst allgemeinen Fassung dargestellt und demonstriert, wie dieser Rahmen auch auf rekurrente Netze angewendet werden kann.

Die Grenzen der Methode des Gradientenabstiegs werden aufgezeigt und bekannte alternative Verfahren kritisch dargestellt. Ausgehend davon wird unter den Gesichts- punkten Effizienz und Stabilität eine Klasse neuer miteinander verwandter Optimierungsalgorithmen entwickelt, deren theoretische Leistungsfähigkeit von einem Beweis der Konvergenz erster Ordnung abgesichert wird. Es ist möglich, Zweite-Ordnung-Information in das neue Verfahren einfliesen zu lassen. Empirische Vergleiche unter- mauern dessen Effizienz. Die Grenzen von Optimierungsverfahren werden diskutiert.

Danach wird Lernen in neuronalen Netzen als statistisches Schätzproblem aufgefast. Die Güte der Schätzung kann mit bekannten statistischen Verfahren berechnet wer- den. Es wird nachgewiesen, das durch Unzulänglichkeiten neuronalen Lernens die Angaben zur Güte nicht robust oder zu ungenau sind.

Das Bestreben, diese Unzulänglichkeiten herauszufiltern, führt auf eine neue theoretische Sichtweise des Gewichtungsraums. Er mus in natürlicher Weise als Mannigfaltigkeit verstanden werden. Es zeigt sich, das die Berechnung der kanonischen Metrik im Gewichtungsraum NP-hart ist. Zugleich wird nachgewiesen, das eine effiziente Approximation der Metrik möglich ist. Damit ist es möglich, Lernergebnisse im Gewichtungsraum zu clustern und zu visualisieren. Als eine weitere Anwendung dieser Theorie wird ein robustes Verfahren der Modellauswahl vorgestellt und an einem Beispiel vorgeführt. Schlieslich kann auch das im vorigen Absatz gestellte Problem durch ein neues Verfahren gelöst werden.

Die physikalisch motivierte Boltzmann-Maschine wird dargestellt, und es wird argumentiert, warum hier das Schliesen NP-hart ist. Dies motiviert eine Beschr¨ankung auf die genügend interessante Klasse der dezimierbaren Boltzmann-Maschinen. Eine neue Dezimierungsregel wird eingef¨uhrt und gezeigt, das es keine weiteren gibt. Dezimierbare Boltzmann-Maschinen werden mit Mitteln der Wahrscheinlichkeitstheorie studiert und effiziente Lernalgorithmen vorgeschlagen. Die Gewichtungsraumstruktur kann auch hier erfolgreich ausgenutzt werden, was eine Anwendung demonstriert.

Item Type: Authored Book
Copyright Holders: 1997-2000 Verlag Harri Thun, 2001- Stefan Rueger
ISBN: 3-8171-1542-3, 978-3-8171-1542-6
Keywords: theory; artificial neural networks
Academic Unit/Department: Knowledge Media Institute
Item ID: 22055
Depositing User: Stefan Rüger
Date Deposited: 20 May 2011 08:58
Last Modified: 23 Oct 2012 17:28
URI: http://oro.open.ac.uk/id/eprint/22055
Share this page:

Actions (login may be required)

View Item
Report issue / request change

Policies | Disclaimer

© The Open University   + 44 (0)870 333 4340   general-enquiries@open.ac.uk