Neuronale Netzwerke

Füser, Karsten

doi:10.1007/978-3-663-05964-6_2

Karsten Füser

122 Accesses

Zusammenfassung

In den letzten Jahren, insbesondere seit 1985, haben die Neuronalen Netze einen breiten Einzug in verschiedene Sparten der Industrie und verschiedene Geschäftsbereiche der Banken gehalten. Dieser „Siegeszug“ hatte seinen Ursprung in den Vereinigten Staaten von Amerika und in Japan. Von dort aus überschwemmten neuronale Anwendungen die Welt. Europa, insbesondere auch die Bankenwelt in Deutschland, konnte sich dieser Technologie nicht mehr verschließen. In den vergangenen zwei bis drei Jahren haben die Institute ihre Türen noch weiter geöffnet, so daß heute von einer Reihe von Pilotanwendungen berichtet werden kann. Sie finden sich in nahezu allen Geschäftsfeldern und haben dort zum Teil schon klassische Verfahren ersetzt.

Neural networks are math, not magic.

Klimasauskas, C.C. President der NeuralWare Inc.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 49.99; Price excludes VAT (USA)

Softcover Book: USD 59.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Referenzen

Vgl. Azoff, E. M. (1994), Seite 2.
Google Scholar
„The work has attracted scientists from a number of disciplines: neuroscientists who are interested in making models of the neural circurity found in specific areas of the brains of various animals; physicists who see analogies between the dynamical behavior of brain-like systems and the kinds of nonlinear dynamical systems familiar in physics; computer engineers who are interested in fabricating brain-like computers; workers in artificial intelligence (AI) who are interested in building machines with the intelligence of biological organisms; engineers interested in solving practical problems; psychologists who are interested in the mechanisms of human information processing; mathematicians who are interested in the mathematics of such neural network systems; philosophers who are interested in how such systems change our view of the nature of mind and its relationship to brain; and many others.“ Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 87.
Google Scholar
Vgl. hierzu die in Abschnitt 2.1 genannten Anwendungsgebiete Neuronaler Netze.
Google Scholar
Vgl. z.B. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 17–24. Sehr anschaulich und umfassend werden die neurophysiologischen Grundlagen auch in Köhle, M. (1990), Seiten 35 ff. beschrieben. Vgl. auch Pytlik, M. (1995), Seiten 147ff.
Google Scholar
Vgl. hierzu Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 18 ff.
Google Scholar
Vgl. Wittkemper, H.-G. (1994), Seite 11, Zilahi-Szabo, M. G. (1993), Seite 158. Demgegenüber spricht C. von Altrock von mehr als 100 Millarden Neuronen und 100 Billionen Verbindungen. Vgl. v. Altrock, C. (1991), Seite 625.
Google Scholar
Hohler, B. (1991), Seite 60.
Google Scholar
Ein biologisches Neuron ist also, rein funktional betrachtet, ein Addierer mit Schwellwert.
Google Scholar
Vgl. Füser, K. (1994), Seiten 225 f., Leckebusch, J. (1991), Seite 167.
Google Scholar
Vgl. Hruschka, H. (1991), Seite 218.
Google Scholar
Vgl Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 19.
Google Scholar
Vgl. Hinton, G. E. (1992), Seite 134.
Google Scholar
Vgl. Hruschka, H. (1991), Seite 217.
Google Scholar
Vgl. Hinton, G. E. (1992), Seite 134.
Google Scholar
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 3. Vgl. auch Blien, U./Lindner, H.-G. (1993), Seite 500, Hruschka, H. (1991), Seite 217. „So vielfältig wie der Kreis der beteiligten Fachrichtungen ist auch der Gebrauch unterschiedlicher Begriffe und Definitionen, die in den jeweiligen Publikationen verwendet werden. Z.B. können mit Neuronalen (z.T. auch neuronalen [klein geschrieben] oder neuralen) Netzen (oder Netzwerken) sowohl künstliche als auch biologische Netze von Nervenzellen (Neuronen) gemeint sein.“ Krause, C. (1993), Seite 35.
Google Scholar
Vgl. Schneider, B. (1994), Seiten 59 und 60, Köhle, M. (1990), Seiten 19 ff.
Google Scholar
Vgl. Pytlik, M. (1995), Seiten 151 ff. „The McCulloch-Pitts (M-P) neuron model had two types of inputs, an excitory and an inhibitory input. The neuron summed the inputs and if the excitory inputs were greater than the inhibitor inputs, the neuron fired“ , that is greater than an output. While the model, as stated, could account for logical processing, it did not show how information was stored or how intelligent behaviors were learned.“ Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 3. Vgl. auch Carpenter, G. A. (1989), Seiten 243 und 244.
Google Scholar
Von besonderer Bedeutung ist im historischen Kontext sicherlich, daß der erste funktionierende „Rechner“ erst circa 10 Jahre, nachdem McCuloch/PITTS ihr Vorstellungen von der Funktionsweise eines Neurons veröffentlichten, zur Verfügung stand.
Google Scholar
„In 1949, Hebb postulated that ‚knowledge‘ was stored in the connections between the neurons, and that ‚learning‘ consisted of modifying these connections and altering the excitory and inhibitory effects of the various inputs.“ Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 3.
Google Scholar
Vgl. Carpenter, G. A. (1989), Seiten 245 f.
Google Scholar
Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 50, Wittkemper, H.-G. (1994), Seite 6. „Trotzdem verschwand bei einigen Wissenschaftlern das Interesse an neuronalen Netzen nicht. Dazu zählen J. Anderson, T. Kohonen, der Physiknobelpreisträger L. Cooper und J. Hopfield, um nur einige zu nennen.“ Sauerburger, H. (1991), Seite 9.
Google Scholar
„Neuronale Netze sind extrem fehlertolerant. Sie liefern auch dann noch sinnvolle Ergebnisse, wenn Zellen teilweise ausfallen oder ein Teil der Verknüpfungen verändert wurde. Mit Graceful Degeneration bezeichnet man die Eigenschaft neuronaler Systeme, bei Ausfall von Zellen oder Verbindungen nicht sofort zu versagen, sondern mit zunehmender Beschädigung erst nach und nach ihre Funktionsweise zu verlieren. Neuronale Netze sind daher, im Gegensatz zu konventionellen Rechnern, extrem robust gegenüber Hardwarefehlern.“ Hohler, B. (1991), Seite 59. In diesem Kontext werden häufig auch die Begriffe der „schrittweisen Leistungsverringerung“ und der „stepwise degradation“ gefunden.
Google Scholar
Vgl. Füser, K. (1994), Seiten 224 f.
Google Scholar
Vgl. Schneider, B. (1994), Seite 60.
Google Scholar
Vgl. V. Altrock, C. (1991), Seite 626. Zwischen 1991 und heute hat sich auf diesem Gebiet einiges getan. In diesem Buch wird noch mehrfach an geeigneten Stellen auf parallel arbeitende Neuronale Netze eingegangen. Geeignete Hardware-Simulatoren bzw. Rechner, die eine direkte Umsetzung des neuronalen Paradigmas ermöglichen, sind in angenäherter Form schon in der Connection Machine, im Cnaps-System vonAdaptive Solutions Inc. oder in spezialisierter Form in der Synapse-1 von Siemens-Nixdorf zu finden. Vgl. Blien, U./Lindner, H.-G. (1993), Seiten 500 f., Schöneburg, E. (Hrsg.) (1993), Seiten 149–188. Zur Synapse-1 vgl. z.B. Kopecz, J./Hormel, M. (1995), Seite 68.
Google Scholar
Schumann, M. (1991), Seite 30.
Google Scholar
Vgl. Hruschka, H. (1991), Seite 217. „An expert system (ES) depends on the representation of the expert’s knowledge as a series of IFTHEN conditions or rules, known as the knowledge base. These rules must first be determined by observing human experts, then programmend into ES using special languages such as PROLOG or shells such as Knowledge Craft, ART or KEE. This process can be time-consuming and expensive.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 67.
Google Scholar
Fridson, M. S. (1994), Seite 77.
Google Scholar
„Das Problemlösungswissen wird auf einer niedrigeren Abstraktionsebene, „unterhalb“ der symbolischen Repräsentation, dargestellt. Man spricht deshalb auch von subsymbolischer Verarbeitung.“ Kurbel, K./Pietsch, W. (1991), Seite 357.
Google Scholar
Vgl. Hohler, B. (1991), Seite 59.
Google Scholar
Zimmermann, H. G. (1992), Seite 30. Vgl. auch Zimmermann, H. G. (1991), Seite 497. Dort findet sich ein ähnlicher Gedankengang.
Google Scholar
Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 67.
Google Scholar
Kurbel, K./Pietsch, W. (1991), Seite 357.
Google Scholar
Vgl. Zilahi-Szabo, M. G. (1993), Seite 790.
Google Scholar
Blien, U./Lindner, H.-G. (1993), Seite 498.
Google Scholar
Vgl. Rojas, R. (1992), Seite 125.
Google Scholar
„An ANS (Abkürzung für: Artificial Neural System) has three major components—a network topology, a spreading activation method and a training mechansim.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 65. Vgl. Barr, T. (1991), Seite 79.
Google Scholar
Die Absolutwerte von ωij können als Maß für die Stärke der Verbindung interpretiert werden, das Vorzeichen signalisiert dabei eine verstärkende (wij > 0) bzw. hemmende (wij < 0) Verknüpfung.
Google Scholar
Vgl. zur nachfolgenden Darstellung Hinton, G. E. (1992), Seite 136. Von nun an werden die Aktivierungsfunktion A(y) und die Transferfunktion T zu einer Funktion mit dem Namen A(y) zusammengefaßt, die (wie in der Literatur häufig üblich) insgesamt wieder als Aktivierungsfunktion bezeichnet wird.
Google Scholar
Vgl. Hinton, G. E. (1992), Seite 136, Köhle, M. (1990), Seiten 64 ff.
Google Scholar
Vgl. hierzu z.B. Wittkemper, H.-G. (1994), Seite 13, Pytlik, M. (1995), Seite 160. Hierzu findet sich eine sehr anschauliche Darstellung in Azoff, E. M. (1994), Seiten 51–55.
Google Scholar
Vgl. hierzu die nachfolgenden Ausführungen.
Google Scholar
„With the sigmoidal transfer functions, the limits of the output of the processing element are 0 and 1. With a hyperbolic tangent transfer function, the limits are -1 and 1. As a result, if the problem involves learning about ‚average‘ behavior, sigmoid transfer functions work best. However, if the problem involves learning about ‚deviations‘ from the average, hyperbolic tangent works best. For example, bankruptcy prediction and stock picking are examples of problems where the objective is to learn to pick out ‚exceptional‘ situations, and hyperbolic tangent works best. In the case of learning to classify respondents for a direct mail application, the sigmoid works well.“ Trippi, R. R./Turban, E. (HRsG.) (1993), Seite 65. Die von Trippi/Turban publizierten Erfahrungen lassen sich jedoch nicht verallgemeinern.
Google Scholar
Vgl. hierzu und zu den nachfolgenden Ausführungen Hruschka, H. (1991), Seite 218.
Google Scholar
Hruschka, H. (1991), Seite 218.
Google Scholar
Vgl. Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 5.
Google Scholar
Das einfachste Netzwerk besteht jedoch aus einer Menge von Neuronen, die in einer Schicht angeordnet sind. In diesen und allen mehrschichtigen Netzwerken haben die Knoten am Eingang des Netzes nur die Aufgabe, die eingehenden Signale zu verteilen. Da diese Knoten keine Berechnungen ausführen, werden sie bei der Schichtenzählung nicht als solche gezählt.
Google Scholar
Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 51.
Google Scholar
Vgl. Blien, U./Lindner, H.-G. (1993), Seite 501.
Google Scholar
„The configuration of a neural net is represented by a weighted directed graph (WDG) with nodes representing units and links representing connections. Each link is assigned a numerical value representing the weight of the connection.“ Tam, K./Kiang, M. (1992), Seite 929.
Google Scholar
„Lernen heißt Selbstanpassung der Gewichtungsfaktoren zwischen den Prozessorelementen, so daß das Netz das gewünschte Verhalten zeigt. Die Lernfähigkeit entbindet von der expliziten Suche nach einer algorithmischen Lösung des gestellten Problems.“ Hohler, B. (1991), Seite 59.
Google Scholar
„In many business applications (credit offers, fraud detection, credit extensions, etc.) learning is supervised. The network is presented with sets of data, each set being explicitly associated with a specific outcome (e.g., good/bad, bankrupt/nonbankrupt).“ Dasgupta, C. G./Dispensa, G. S./Ghose, S. (1994), Seite 238.
Google Scholar
Vgl. Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 66. Vgl. auch Blien, U./Lindner, H.-G. (1993), Seite 505.
Google Scholar
Vgl. Azoff, E. M. (1994), Seite 4, Schumann, M. (1991), Seite 28. In diesem Zusammenhang spricht A. N. Refenes auch vom associative reinforcement learning. Vgl. Refenes, A. N. (Hrsg.) (1995), Seite 7.
Google Scholar
Viele Autoren differenzieren nur zwischen dem Lernen mit und ohne Zielvorgabe. Vgl. hierzu z.B. Rehkugler, H./Poddig, T. (1992A), Seite 51. Einige Varianten für das Lernen mit und ohne Lehrer diskutiert Wittkemper, H.-G. (1994), Seite 21.
Google Scholar
Vgl. Schumann, M. (1991), Seite 27.
Google Scholar
Vgl. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 6 ff.
Google Scholar
Baun, S. (1994), Seite 140. Die Begriffe recurrent und feedback sind synonym zu verwenden.
Google Scholar
Rehkugler, H./Poddig, T. (1992A), Seite 52.
Google Scholar
Vgl. Hohler, B. (1991), Seite 64. Vgl. auch Krause, C. (1993), Seite 63. Dort findet sich eine Gruppierung systematisiert nach ihren Hauptanwendungsgebieten (Prognose, Klassifikation, Assoziation, Datenanalyse, Datenfilterung und Optimierung). Vgl. auch Barr, T. (1991), Seite 82.
Google Scholar
Klimasauskas, C. C. (1994), Seite 19.
Google Scholar
Vgl. zu den vorherigen Ausführungen Kurbel, K./Pietsch, W. (1991), Seite 361.
Google Scholar
Vgl. zu den folgenden Ausführungen Fuser, K. (1994), Seiten 237 ff. Vgl. hierzu Baun, S. (1994), Seite 145. Dort wird eine weitere Entwicklungsmethode zum Aufbau von Anwendungen, die auf Neuronalen Netzen basieren, vorgestellt. Es wird differenziert zwischen dem Abfrageschema zur Bestimmung der Modellvorstellung vor Beginn der eigentlichen Modellentwicklung und dem Ablaufschema für die Modellrechnung im Rahmen des Trainingsund Optimierungsprozesses zur Bestimmung des Endmodells. Vgl. Rehkugler, H./Poddig, T. (1994A), Seite 15, Hoptroff, R. G. (1993), Seite 62. Weitere Arbeitsschemata finden sich in Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 50 oder auch in Schumann, M. (1991), Seite 29 und Klimasauskas, C. C. (1994), Seite 11. Vgl. auch Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 5. Sehr interessant sind in diesem Rahmen auch die Ausführungen von Bailey, D./Thompson, D. (1990), Seiten 38–47.
Google Scholar
Baun, S. (1994), Seite 144.
Google Scholar
Vgl. Baun, S. (1994), Seiten 148 ff. Vgl. zum Thema „Pre- and Postprocessing of Financial Data“ die Ausführungen von Deboeck, G. J./Cader, M. (1994), Seiten 27–44.
Google Scholar
„And though good at processing information and at pattern recognition, they cannot make something out of nothing.“ McLeod, R. W./Malhotra, D. K./Malhotra, R. (1993), Seite 38. R. G. Hoptroff sagt: „There is one key limitation: the MLP (MLP: Abkürzung für Multi Layer Perceptron, Architektur/Topologie eines Neuronalen Netzwerkes) can do not better than the data it is trained on.“ Hoptroff, R. G. (1993), Seite 61.
Google Scholar
Baun, S. (1994), Seite 149.
Google Scholar
Baun, S. (1994), Seite 144.
Google Scholar
Vgl. Burger, A. (1994B), Seite 1170.
Google Scholar
„Nach der Festlegung des Typs (und gegebenenfalls innerhalb des Typs der geeigneten Variante) ist die geeignete Architektur zu entwicklen. Dieser Prozeß ist extrem zeitaufwendig und anspruchsvoll. Er kann—je nach Aufgabenstellung—von Wochen bis zu Monaten dauern.“ Vgl. Rehkugler, H./Poddig, T. (1992B), Seite 416.
Google Scholar
Vgl. Burke, G. (1992), Seiten 35 und 36.
Google Scholar
Schöneburg, E. (Hrsg.) (1993), Seite 19.
Google Scholar
Prinzipiell können drei Arten von Gewichtsänderungen unterschieden werden: 1) der Aufbau neuer Verbindungen, 2) die Elimination vorhandener Verbindungen und 3) die Veränderung der Gewichte existierender Verbindungen. Die Möglichkeiten 1) und 2) sind Spezialfälle von 3), da die Elimination z.B. in der Form geschehen kann, daß Gewichte auf Null gesetzt werden.
Google Scholar
Vgl. Sauerburger, H. (1991), Seite 18.
Google Scholar
Vgl. Kosko, B. (1992), Seite 187.
Google Scholar
Unter Repräsentierbarkeit wird in diesem Zusammenhang die Fähigkeit eines Netzes verstanden, einen gegebenen funktionalen Zusammenhang mit Hilfe dafür explizit gewählter Gewichte und Schwellenwerte korrekt darstellen zu können. Demgegenüber sorgt die Lernfiähigkeit dafür, daß die entsprechenden Gewichte (und Schwellenwerte) durch eine Rechenvorschrift (Algorithmus) bestimmt bzw. erlernt werden können.
Google Scholar
Vgl. Hruschka, H. (1991), Seite 219, Barr, T. (1991), Seite 82.
Google Scholar
Sauerburger, H. (1991), Seite 20.
Google Scholar
Eine Fläche ist konvex, wenn man jedes Punktepaar innerhalb der Fläche durch eine Gerade verbinden kann, die sich vollständig in der Fläche befindet.
Google Scholar
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 27.
Google Scholar
Vgl. zu den vorherigen Ausführungen Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 27 ff.
Google Scholar
Vgl. z.B. die Ausführungen von Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seiten 89 ff., Zimmermann, H. G. (1994), Seiten 37 ff., Wong, F. S. (1990/1991), Seiten 149 ff., Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 11 ff. Vgl. auch Refenes, A. N. (Hrsg.) (1995), Seiten 8–10, White, H. (1989B), Seiten 48 ff.
Google Scholar
Vgl. zu den nachfolgenden Ausführungen Fuser, K. (1994), Seiten 252 ff.
Google Scholar
Der Initialwert jedes Gewichtungsfaktors ist i.d.R. eine kleine Zufallszahl z.B. aus dem Bereich von —0,50 bis +0,50. Vgl. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 12 und 13 zur Frage der Gewichtsinitialisierung.
Google Scholar
Beginnend bei der Ausgangsebene wird rückwärts der Einfluß der Ebenen auf den Fehler ermittelt. Dieser Schritt erfolgt parallel für alle Output-Units. Anschließend werden die vor den einzelnen Output-Units liegenden Gewichtungsfaktoren korrigiert, deshalb der Begriff „ErrorBackpropagation-Algorithmus“. Das Backpropagation-Prinzip ist aus der Sicht der Biologen unplausibel. Es modelliert Lernen derart, daß Informationen auch entgegengesetzt zur vorgegebenen Richtung Eingabe-Verarbeitung-Ausgabe wandern. Vgl. Hinton, G. E. (1992), Seite 139.
Google Scholar
„Ziel des Lernverfahrens ist es, Netzgewichte zu finden, die E minimieren. Nach dem Training werden unbekannte Vektoren in das Netz eingegeben, in der Erwartung, daß es eine gute Interpolation durchführt. Das Netz soll automatisch erkennen, ob eine neue Eingabe einem Eingabevektor der Trainingsmenge ähnlich ist, und dann eine ähnliche Ausgabe erzeugen.“ Rojas, R. (1992), Seite 154.
Google Scholar
Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 51.
Google Scholar
Sehr anschaulich wird der theoretische Hintergrund des Error-Backpropagation-Algorithmus in Hinton, G. E. (1992) auf der Seite 138 dargestellt.
Google Scholar
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 54 ff.
Google Scholar
Die Formel 2.23 zur Änderung der Gewichtungsfaktoren bezeichnet man auch als Delta-Regel.
Google Scholar
Vgl. dazu auch die Ausführungen auf der Seite 28.
Google Scholar
An dieser Stelle soll noch einmal kurz die Problematik der Initialisierung der Gewichtungsfaktoren erörtert werden. Sind alle Gewichte einer Ebene mit denselben Werten initialisiert, so liefern alle Units dieser Ebene dieselben Ergebnisse. Da bei der Berechnung von Δwij die Ausgangswerte der vorherigen Ebene mit eingehen (Δ ω^ij = η • σ^j • o^pi) und diese alle gleich sind, werden alle Gewichte dieser Ebene gleichmäßig korrigiert, so daß nach der Korrektur die Gewichte wiederum alle gleich sind, d.h. diese Ebene kann nicht trainiert werden. Vgl. hierzu z.B. Refenes, A. N. (1995A), Seite 29.
Google Scholar
Vgl. Hinton, G. E. (1992), Seite 138. Vgl. auch Wong, F. S. (1990/1991), Seite 152.
Google Scholar
Vgl. hierzu die Formel 2.20, von der in diesem Schritt die Ableitung nach ok gebildet wird.
Google Scholar
Die Gesamteingabe x^k fließt in den Output-Neuronen k in die Sigmoid-Funktion ein. Der Funktionswert der Sigmoid-Funktion ist die Ausgabeaktivität an den Output-Neuronen k. Aus diesem Grunde ist σ^k gleich dem Ergebnis von Schritt 1, multipliziert mit der Rate, mit der sich die Ausgabe eines Output-Neurons bei veränderter Gesamteingabe ändert. Gebildet wird somit mit Hilfe der Kettenregel der Differentialgleichung die Ableitung der Sigmoid-Funktion, um die Änderungsrate zu bestimmen. Vgl. zur Ableitung der Sigmoid-Funktion Abschnitt 2.3.1.
Google Scholar
Die Größe Δω^jk ergibt sich nach der Formel für x^k aus dem Ergebnis für σ ^k im Schritt 2, multipliziert mit dem Aktivitätsniveau des Knotens o^j, von dem die Verbindung kommt. Gebräuchlich ist hier die Multiplikation mit dem Parameter η, über den die Geschwindigkeit des Lernprozesses variiert werden kann.
Google Scholar
Durch diesen entscheidenden Schritt ist der Backpropagation-Algorithmus auch auf mehrschichtige Netzwerke anwendbar. Wenn ein Neuron j der vorhergehenden Schicht seine Aktivität o^j ändert, so beeinflußt dies die Aktivitäten aller mit ihm verbundenen Output-Neuronen o^k. Um die Gesamtveränderung auf den Fehler E^p zu ermitteln, bildet man die Summe aller einzelnen Effekte auf die Output-Neuronen ab.
Google Scholar
Vgl. hierzu auch das gelungene Flußdiagramm zur Arbeitsweise des Error-BackpropagationAlgorithmus in Tam, K./Kiang, M. (1992), Seite 930.
Google Scholar
Vgl. z.B. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 43, zum Gradientenabstiegsverfahren.
Google Scholar
Die stetige Konvergenz des Algorithmus (d.h. das schrittweise Fallen des Gesamtfehlers bis unter eine bestimmte Schwelle) ist nicht immer garantiert. Es kann allerdings bewiesen werden, daß der Gesamtfehler des Netzes E gegen 0 konvergiert.
Google Scholar
Dabei ist die Präsentationsreihenfolge der Trainingsmuster in der Regel pseudo-zufällig. „Eine Zerstörung bereits gelernter Zusammenhänge findet bei diesem Lernverfahren nicht statt, falls die Gewichte erst nach Kumulierung der Änderungen über alle Beobachtungswerte geändert werden.“ Hruschka, H. (1991), Seite 220. „First, make sure that the training presentations are randomized. If they are not, the network may very quickly learn about how to classify data in one particular mode (all good) and, due to the effects of momentum, move quickly in that direction.“ Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 71.
Google Scholar
Rojas, R. (1992), Seite 149.
Google Scholar
Zu den Techniken der Vorverarbeitung, insbesondere im Bereich der Finanzwirtschaft vgl. z.B. Jurik, M. (1992B), Seiten 40–44, Stein, R. (1993B), Seiten 32–37, Stein, R. (1993A), Seiten 42–47. Vgl. auch Baestaens, D. E./van Den Bergh, W. M./Wood, D. (1994), Seite 44.
Google Scholar
Für ein wirklich tiefgehendes Verständnis des Error-Backpropagation-Verfahrens ist es notwendig einmal die Abläufe in der Lernphase „von Hand“ nachzuvollziehen. Die Zusammenhänge zwischen Gewichtungsfaktoren und Wissensspeicherung sowie die einzelnen Phasen des Trainingsverfahrens werden dabei besonders deutlich.
Google Scholar
Vgl. Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 90. Vgl. zu den nachfolgend aufgeführten Punkten auch Altmann, E. I./Marco, G./Varetto, F. (1994), Seite 515.
Google Scholar
Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 90.
Google Scholar
Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 91.
Google Scholar
Vgl. SchöNeburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 96.
Google Scholar
Burke, G. (1992), Seite 36.
Google Scholar
Köhle, M. (1990), Seite 96.
Google Scholar
Vgl. Rojas, R. (1992), Seiten 168–172. Vgl. auch Piramuthu, S./Shaw, M. J./Gentry, J. A. (1994), Seiten 513–517. Bei letzteren wird eine interessante Erweiterung der Error-Backpropagation-Verfahrens, der NewtonRaphson-Algorithmus, vorgestellt.
Google Scholar
Vgl. Kohonen T., et al. (Editors) (1991), Seiten 617–622, Köhle, M. (1990), Seite 97. Vgl. auch Wong, F. S. (1990/1991), Seite 151.
Google Scholar
Analog wird für die Units der Hidden-Ebene die Gleichung 2.25 angepaßt.
Google Scholar
Vgl. Rojas, R. (1992), Seite 169, Refenes, A. N. (1995A), Seite 26.
Google Scholar
Hierbei kann noch zwischen einer allgemein gültigen, also für das gesamte Netzwerk gewählten und einer gewichtsbezogenen Vorgabe von ^η differenziert werden.
Google Scholar
Schneider, B. (1994), Seite 62.
Google Scholar
Vgl. Huber, C./Geiger, H./ Nücke, H. (1993), Seite 370.
Google Scholar
Vgl. Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 60.
Google Scholar
In Refenes, A. N. (1995B), Seiten 33 ff. werden einige Strategien, die zu einem „optimalen Netzwerkdesign“ führen könnten, diskutiert. A. N. Refenes differenziert dabei zwischen analytischen Methoden, den konstruktiven Techniken und den sog. Pruning-Verfahren. Es empfiehlt sich ein Riickgriff auf die zitierte Quelle, da dort einige Vorgehensweisen sehr anschaulich dargestellt werden.
Google Scholar
Vgl. Baun, S./Köhr, Th. (1994), Seite 12. E.D. Karnin nennt drei Gründe, die für den Einsatz von Pruning-Strategien mit dem Ziel, kleinere Netzwerke zu erhalten, sprechen: 1) „The cost of computation, measured by the number of arithmetic operations, grows (almost) linearly with the number of the synaptic connections. Hence a smaller net is more efficient in both forward computation and learning.“ 2) „Neural net learning is usually based on a finite (often small) set of training patterns. A network which is too large will tend to memeorize the training patterns and thus have a poor generalization ability.“ 3) „There is always the hope that a smaller net will exhibit a behavior that can be described by a simple set of rules.“ Vgl. Karnin, E. D. (1990), Seite 239.
Google Scholar
Vgl. Baun, S. (1994), Seite 161 ff. Dort werden eine Reihe von Pruning-Verfahren skizziert. Vgl. ebenso die Ausführungen von Miller, M. (1994), Seiten 133 ff. und die Gedanken von Wittkemper, H.-G. (1994), Seite 61.
Google Scholar
Vgl. Baun, S./Köhr, Th. (1994), Seite 13, Baun, S. (1994), Seite 166, Miller, M. (1994), Seiten 139 und 140, Azoff, E. M. (1994), Seiten 59–60.
Google Scholar
Vgl. Baun, S. (1994), Seite 166. Vgl. ergänzend Miller, M. (1994), Seiten 141 und 142.
Google Scholar
Vgl. Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 69. Sie schreiben: „There are two basic approaches to optimizing hidden layer size: constructive and destructive.“
Google Scholar
Vgl. Wittkemper, H.-G. (1994), Seite 63. „The constructive approach to hidden layer size is to start with a network with no hidden units. The inputs are connected directly to the outputs. Train the weights until the error ‚stabilizes‘. Fix these weights and add a hidden unit connected to the input and all prior hidden layers. The output of this new unit is connected to the output. Continue training. Eventually, the network will make no mistakes on the training data. One of the keys to the constructive approach is to decide when to stop adding hidden units. The answer is that at each decision point, the network is tested on both the training and test set. Performance on both is plotted. If the performance on both does not improve, remove the last hidden unit added and stop. Why? The network is starting to ‚memorize‘ the training set to the detriment of the test set.“ Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 69. Vgl. auch Klimasauskas, C. C. (1994), Seite 23.
Google Scholar
Vgl. Baun, S. (1994), Seite 179, zur nachfolgenden Grafik. Vgl. auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 48.
Google Scholar
„To avoid overfitting, one may adopt one ore more of the following strategies: (a) use special stopping criteria (b) add noise to the learning sample, and (c) use a simple network structure (i.e., with a small number of hidden units).“ Dutta, S./Shekhar, S./Wong W. Y. (1994), Seite 530.
Google Scholar
Vgl. zum Problem des „overlearning“ z.B. Wittkemper, H.-G. (1994), Seite 40.
Google Scholar
Miller, M. (1994), Seiten 132 und 133. Vgl. dort auch die graphischen Darstellungen zur Arbeitsweise des Stopp-Training auf den Seiten 131 und 132. „This method is reasonably powerful and simple and often leads to good results.“ Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 91.
Google Scholar
Vgl. z.B. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 20, zum Thema Cross-Validierungs-Menge. Vgl. ebenso Klimasauskas, C. C. (1994), Seiten 16
Google Scholar
Vgl. hierzu Baun, S. (1994), Seite 161 f. und die dort aufgeführten Quellen, in denen diese und andere Optimierungsverfahren diskutiert werden.
Google Scholar
Vgl. dazu Seite 60.
Google Scholar
Vgl. Miller, M. (1994), Seite 143.
Google Scholar
Vgl. Miller, M. (1994), Seite 143, Wittkemper, H.-G. (1994), Seite 60.
Google Scholar
Vgl. Weigend, A. S./Hubermann, B. A./Rumelhart, D. E. (1992), Seiten 405–409. Vgl. auch Miller, M. (1994), Seite 145.
Google Scholar
Vgl. Baun, S. (1994), Seite 167.
Google Scholar
Vgl. Zell, A. (1994), Seiten 189 ff., Pytlik, M. (1995), Seiten 202–209. Vgl. auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 26 f.
Google Scholar
Vgl. Zell, A. (1994), Seite 191.
Google Scholar
Vgl. Zell, A. (1994), Seite 192.
Google Scholar
Vgl. hierzu die Ausführliche Diskussion in Zell, A. (1994), Seiten 193 ff.
Google Scholar
Vgl. Schneider, B. (1994), Seite 64.
Google Scholar
J. Hopfield, Professor für Chemie und Biologie am California Institut of Technology, ist als einer der frühen und heute führenden Forscher auf dem Gebiet der Neuronalen Netze weltweit geachtet.
Google Scholar
Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 127.
Google Scholar
Vgl Zell, A. (1994), Seiten 197 ff., Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 47 ff., Brause, R. (1991), Seiten 179 ff., Sauerburger, H. (1991), Seiten 24–26 oder auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 24.
Google Scholar
Vgl. Barr, T. (1991), Seite 82.
Google Scholar
Vgl Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 108.
Google Scholar
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 47 ff.
Google Scholar
Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 47.
Google Scholar
Zur einfacheren Herleitung der Lernregel wurden hier die Zustände durch +1 und —1 beschrieben. In der Literatur wird dagegen häufig auch mit 0 und +1 gearbeitet. Daraus resultiert eine (formal) leicht abgewandelte Darstellung der Lernphase. Gravierender ist jedoch, wenn man die —1 Komponenten eines zu lernenden Vektors auf 0 setzt, daß durch diese Anpassung i.d.R. verschlechterte Recall-Ergebnisse beim trainierten Netzwerk zu beobachten sind. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 110, Zell, A. (1994), Seiten 197 ff.
Google Scholar
In der Form der Gewichtsanpassung unterscheidet sich die Lernphase des Hopfield-Netzes signifikant von der des Backpropagation-Verfahrens. Die Gewichte wij werden nicht iterativ bestimmt, sondern bei der Vorgabe der zu erkennenden Muster direkt berechnet. Vgl. Sauerburger, H. (1991), Seite 25.
Google Scholar
Vgl Ritter,I. H./Martinetz, T./Schulten, K. (1991), Seite 49. Die Autoren sprechen in diesem Zusammenhang auch von Attraktionsbecken um lokale Minima. Alle Eingabemuster innerhalb eines solchen Beckens werden durch die Systemdynamik zum Beckenminimum gezogen und liefern das gleiche Ausgabemuster.
Google Scholar
Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 110.
Google Scholar
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 112. Man kann Nebenminima jedoch bis zu einem gewissen Grad löschen oder zumindest ihren Einzugsbereich verkleinern. Diese Prozedur wird unlearning genannt. Vgl. ebenda, Seite 113.
Google Scholar
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 111. In diesem Zitat steht n für die Anzahl der Neuronen im Netzwerk.
Google Scholar
Vgl. hierzu Zell, A. (1994), Seite 199 und den dort geführten Gültigkeitsbeweis. Man beachte, daß die Bedingungen des Cohen-Grossberg-Theorems hinreichend, aber nicht notwendig für die Stabilität rekurrenter Netzwerke sind, d.h. es gibt Netzwerke, die diese Kriterien nicht erfüllen und trotzdem stabil sind.
Google Scholar
Vgl. Kosko, B. (1992), Seite 92.
Google Scholar
Abhilfe davon schaffen sogennante statistische Methoden, bei denen die Neuronen ihren Zustand nicht mehr deterministisch sondern zufällig nach einer Wahrscheinlichkeitsverteilung ändern. In diesem Kontext existieren einige Verfahren, die durch die nachfolgend aufgeführten Begriffe beschrieben werden: Statistische Methoden, Boltzmann-Maschine und Simulated Annealing. Vgl. hierzu die weiteren Ausführungen.
Google Scholar
Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 139. Vgl. auch Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 114.
Google Scholar
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 50 f. Sie geben an, daß die kritische Grenze bei p zu trainierenden Mustern und n Neuronen bei p≈ 0,146n liegt, wobei sie erwähnen, daß durch geschickte Kodierung der Muster die Speicherkapazität des Netzwerkes noch erhöht werden kann. Vgl. auch Schöneburg, E. (Hrsg.) (1993), Seite 138 f.
Google Scholar
Vgl. hierzu z.B. Zell, A. (1994), Seiten 207 ff., Brause, R. (1991), Seiten 205 ff., Köhle, M. (1990), Seiten 104 ff., Hruschka, H. (1991), Seiten 221 f.
Google Scholar
Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 236, Zell, A. (1994), Seite 208.
Google Scholar
Vgl. Zell, A. (1994), Seite 215.
Google Scholar
Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 132.
Google Scholar
Im Gegensatz zu der hier dargestellten Verarbeitungsmethodik eines Hopfield-Modells kennt die Boltzmann-Maschine nur die Zustände 0 und 1, wobei der Zustand 1 einer verstärkten Neuronenaktivität und die 0 einem Ruhezustand des Neurons entspricht. Es existieren alternative Varianten von Hopfield-Netzen, die ebenso ausschließlich mit diesen beiden Zuständen arbeiten. Vgl. z.B. Zell, A. (1994), Seiten 197 ff.
Google Scholar
Zell, A. (1994), Seite 209. Vgl. auch Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 119.
Google Scholar
Vgl. zum Training von Boltzmann-Maschinen z.B. Zell, A. (1994), Seiten 210 ff.
Google Scholar
Vgl. zu diesen Ausführungen Schöneburg, E. (Hrsg.) (1993), Seiten 131 ff.
Google Scholar
Vgl. z.B. Blien, U./Lindner, H.-G. (1993), Seiten 507 f.
Google Scholar
„There are two variants of the association paradigm: auto-association and hetero-association. An auto-associative paradigm is one in which a pattern is associated with itself. A hetero-associative paradigm is one in which two different patterns have to be associated with each other.“ Refenes, A. N. (Hrsg.) (1995), Seite 7. Vgl. hierzu auch Carpenter, G. A. (1989), Seite 250.
Google Scholar
Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 116.
Google Scholar
Blien, U./Lindner, H.-G. (1993), Seite 508.
Google Scholar
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 116.
Google Scholar
Blien, U./Lindner, H.-G. (1993), Seite 509.
Google Scholar
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 117. Betrachte zu den Weiterentwicklungen bzw. Alternativenbetrachtungen vor allem Kosko, B. (1992), Seiten 63 ff.
Google Scholar
Vgl. Sauerburger, H. (1991), Seiten 26–27. Vgl. auch Refenes, A. N. (Hrsg.) (1995), Seiten 10–12, Barr, T. (1991), Seite 84, Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 25 f.
Google Scholar
Vgl. Sauerburger, H. (1991), Seite 26.
Google Scholar
Barr, T. (1991), Seite 84.
Google Scholar
Vgl. Sauerburger, H. (1991), Seite 26.
Google Scholar
Wittkemper, H.-G. (1994), Seite 22.
Google Scholar
Vgl. z.B SchöNeburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 130 ff. Vgl. auch Köhle, M. (1990), Seiten 153 ff., Carpenter, G. A. (1989), Seiten 254 und 255.
Google Scholar
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 86 ff. Vgl. auch Brause, R. (1991), Seiten 87 ff., Köhle, M. (1990), Seiten 29 ff. oder die Ausführungen von Carpenter, G. A. (1989), Seite 246.
Google Scholar
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 89 ff.
Google Scholar
Vgl. Kerling, M./Poddig, T. (1994), Seiten 443 ff. Es handelt sich hierbei um ein sehr interessantes Nearest-Neighbour-Lernverfahren, welches nach dem “Winner takes it all“-Prinzip arbeitet. Vgl. auch Köhle, M. (1990), Seiten 127 ff., Pytlik, M. (1995), Seiten 191–202.
Google Scholar
Vgl. Carpenter, G. A. (1989), Seiten 255 ff. Cogitron und Neocognitron wurden von K. Fukushima zwischen 1975 und 1988 entwickelt. Sie können mit und ohne Lehrer trainiert werden. Vgl. a.a.O. Seite 256. Dort steht: „Learning can proceed with or without a teacher.“ und die nachfolgende Fußnote.
Google Scholar
Vgl. Köhle, M. (1990), Seiten 141 ff. Das Neocognitron ist ein Neuronales Netz für die visuelle Mustererkennung, das ein nicht überwachtes, d.h. selbstorganisiertes Lernverfahren zum Training verwendet.
Google Scholar
Vgl. Pytlik, M. (1995). Dort werden eine Reihe von Netzen deskriptiv mit Hinweisen auf weitere Quellen, die das jeweilige KNN beschreiben, vorgestellt. Er weist z.B. hin auf das BrainState-in-a-Box-Modell von J.A. Anderson, die Selbstorganisierenden Karten von T. Kohonen, das Restricted-Coulumb-Energy-Netz der in den USA ansässigen Firma Nestor und weitere für viele Laien sicherlich exotisch anmutende Netzwerktypen.
Google Scholar
Vgl. Kosko, B. (1992), Seiten 259–261 zum ART-1. Vgl. darüber hinaus Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 130 ff.
Google Scholar
Vgl Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 86 ff.
Google Scholar
Vgl. Blien, U./Lindner, H.-G. (1993), Seite 504.
Google Scholar
Zimmermann, H. G. (1992), Seite 28. Vgl. auch Zimmermann, H. G. (1991), Seite 496, Refenes, A. N. (Hrsg.) (1995), Seite 4. Bei letzterem werden in einer Grafik „cognition“ und „complexity“ gegenübergestellt und Neuronale Netze in diesen Kontext eingeordnet.
Google Scholar
Vgl. Rehkugler, H./Poddig, T. (1994a), Seiten 18–21.
Google Scholar
„Tasks requiring accuracy of computational results or intensive calculations are best left to conventional computer applications. As we’ve noted, artificial neural networks are best applied to problem environments that are highly unstructured, require some form of pattern recognition and may involve incomplete or corrupted data.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 69.
Google Scholar

Download references

Authors

Karsten Füser
View author publications
You can also search for this author in PubMed Google Scholar

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Füser, K. (1995). Neuronale Netzwerke. In: Neuronale Netze in der Finanzwirtschaft. Gabler Verlag, Wiesbaden. https://doi.org/10.1007/978-3-663-05964-6_2

Download citation

DOI: https://doi.org/10.1007/978-3-663-05964-6_2
Publisher Name: Gabler Verlag, Wiesbaden
Print ISBN: 978-3-409-14098-0
Online ISBN: 978-3-663-05964-6
eBook Packages: Springer Book Archive

Publish with us

Policies and ethics