Skip to main content
  • 122 Accesses

Zusammenfassung

In den letzten Jahren, insbesondere seit 1985, haben die Neuronalen Netze einen breiten Einzug in verschiedene Sparten der Industrie und verschiedene Geschäftsbereiche der Banken gehalten. Dieser „Siegeszug“ hatte seinen Ursprung in den Vereinigten Staaten von Amerika und in Japan. Von dort aus überschwemmten neuronale Anwendungen die Welt. Europa, insbesondere auch die Bankenwelt in Deutschland, konnte sich dieser Technologie nicht mehr verschließen. In den vergangenen zwei bis drei Jahren haben die Institute ihre Türen noch weiter geöffnet, so daß heute von einer Reihe von Pilotanwendungen berichtet werden kann. Sie finden sich in nahezu allen Geschäftsfeldern und haben dort zum Teil schon klassische Verfahren ersetzt.

Neural networks are math, not magic.

Klimasauskas, C.C. President der NeuralWare Inc.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 49.99
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 59.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Referenzen

  1. Vgl. Azoff, E. M. (1994), Seite 2.

    Google Scholar 

  2. „The work has attracted scientists from a number of disciplines: neuroscientists who are interested in making models of the neural circurity found in specific areas of the brains of various animals; physicists who see analogies between the dynamical behavior of brain-like systems and the kinds of nonlinear dynamical systems familiar in physics; computer engineers who are interested in fabricating brain-like computers; workers in artificial intelligence (AI) who are interested in building machines with the intelligence of biological organisms; engineers interested in solving practical problems; psychologists who are interested in the mechanisms of human information processing; mathematicians who are interested in the mathematics of such neural network systems; philosophers who are interested in how such systems change our view of the nature of mind and its relationship to brain; and many others.“ Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 87.

    Google Scholar 

  3. Vgl. hierzu die in Abschnitt 2.1 genannten Anwendungsgebiete Neuronaler Netze.

    Google Scholar 

  4. Vgl. z.B. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 17–24. Sehr anschaulich und umfassend werden die neurophysiologischen Grundlagen auch in Köhle, M. (1990), Seiten 35 ff. beschrieben. Vgl. auch Pytlik, M. (1995), Seiten 147ff.

    Google Scholar 

  5. Vgl. hierzu Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 18 ff.

    Google Scholar 

  6. Vgl. Wittkemper, H.-G. (1994), Seite 11, Zilahi-Szabo, M. G. (1993), Seite 158. Demgegenüber spricht C. von Altrock von mehr als 100 Millarden Neuronen und 100 Billionen Verbindungen. Vgl. v. Altrock, C. (1991), Seite 625.

    Google Scholar 

  7. Hohler, B. (1991), Seite 60.

    Google Scholar 

  8. Ein biologisches Neuron ist also, rein funktional betrachtet, ein Addierer mit Schwellwert.

    Google Scholar 

  9. Vgl. Füser, K. (1994), Seiten 225 f., Leckebusch, J. (1991), Seite 167.

    Google Scholar 

  10. Vgl. Hruschka, H. (1991), Seite 218.

    Google Scholar 

  11. Vgl Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 19.

    Google Scholar 

  12. Vgl. Hinton, G. E. (1992), Seite 134.

    Google Scholar 

  13. Vgl. Hruschka, H. (1991), Seite 217.

    Google Scholar 

  14. Vgl. Hinton, G. E. (1992), Seite 134.

    Google Scholar 

  15. Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 3. Vgl. auch Blien, U./Lindner, H.-G. (1993), Seite 500, Hruschka, H. (1991), Seite 217. „So vielfältig wie der Kreis der beteiligten Fachrichtungen ist auch der Gebrauch unterschiedlicher Begriffe und Definitionen, die in den jeweiligen Publikationen verwendet werden. Z.B. können mit Neuronalen (z.T. auch neuronalen [klein geschrieben] oder neuralen) Netzen (oder Netzwerken) sowohl künstliche als auch biologische Netze von Nervenzellen (Neuronen) gemeint sein.“ Krause, C. (1993), Seite 35.

    Google Scholar 

  16. Vgl. Schneider, B. (1994), Seiten 59 und 60, Köhle, M. (1990), Seiten 19 ff.

    Google Scholar 

  17. Vgl. Pytlik, M. (1995), Seiten 151 ff. „The McCulloch-Pitts (M-P) neuron model had two types of inputs, an excitory and an inhibitory input. The neuron summed the inputs and if the excitory inputs were greater than the inhibitor inputs, the neuron fired“ , that is greater than an output. While the model, as stated, could account for logical processing, it did not show how information was stored or how intelligent behaviors were learned.“ Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 3. Vgl. auch Carpenter, G. A. (1989), Seiten 243 und 244.

    Google Scholar 

  18. Von besonderer Bedeutung ist im historischen Kontext sicherlich, daß der erste funktionierende „Rechner“ erst circa 10 Jahre, nachdem McCuloch/PITTS ihr Vorstellungen von der Funktionsweise eines Neurons veröffentlichten, zur Verfügung stand.

    Google Scholar 

  19. „In 1949, Hebb postulated that ‚knowledge‘ was stored in the connections between the neurons, and that ‚learning‘ consisted of modifying these connections and altering the excitory and inhibitory effects of the various inputs.“ Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 3.

    Google Scholar 

  20. Vgl. Carpenter, G. A. (1989), Seiten 245 f.

    Google Scholar 

  21. Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 50, Wittkemper, H.-G. (1994), Seite 6. „Trotzdem verschwand bei einigen Wissenschaftlern das Interesse an neuronalen Netzen nicht. Dazu zählen J. Anderson, T. Kohonen, der Physiknobelpreisträger L. Cooper und J. Hopfield, um nur einige zu nennen.“ Sauerburger, H. (1991), Seite 9.

    Google Scholar 

  22. „Neuronale Netze sind extrem fehlertolerant. Sie liefern auch dann noch sinnvolle Ergebnisse, wenn Zellen teilweise ausfallen oder ein Teil der Verknüpfungen verändert wurde. Mit Graceful Degeneration bezeichnet man die Eigenschaft neuronaler Systeme, bei Ausfall von Zellen oder Verbindungen nicht sofort zu versagen, sondern mit zunehmender Beschädigung erst nach und nach ihre Funktionsweise zu verlieren. Neuronale Netze sind daher, im Gegensatz zu konventionellen Rechnern, extrem robust gegenüber Hardwarefehlern.“ Hohler, B. (1991), Seite 59. In diesem Kontext werden häufig auch die Begriffe der „schrittweisen Leistungsverringerung“ und der „stepwise degradation“ gefunden.

    Google Scholar 

  23. Vgl. Füser, K. (1994), Seiten 224 f.

    Google Scholar 

  24. Vgl. Schneider, B. (1994), Seite 60.

    Google Scholar 

  25. Vgl. V. Altrock, C. (1991), Seite 626. Zwischen 1991 und heute hat sich auf diesem Gebiet einiges getan. In diesem Buch wird noch mehrfach an geeigneten Stellen auf parallel arbeitende Neuronale Netze eingegangen. Geeignete Hardware-Simulatoren bzw. Rechner, die eine direkte Umsetzung des neuronalen Paradigmas ermöglichen, sind in angenäherter Form schon in der Connection Machine, im Cnaps-System vonAdaptive Solutions Inc. oder in spezialisierter Form in der Synapse-1 von Siemens-Nixdorf zu finden. Vgl. Blien, U./Lindner, H.-G. (1993), Seiten 500 f., Schöneburg, E. (Hrsg.) (1993), Seiten 149–188. Zur Synapse-1 vgl. z.B. Kopecz, J./Hormel, M. (1995), Seite 68.

    Google Scholar 

  26. Schumann, M. (1991), Seite 30.

    Google Scholar 

  27. Vgl. Hruschka, H. (1991), Seite 217. „An expert system (ES) depends on the representation of the expert’s knowledge as a series of IFTHEN conditions or rules, known as the knowledge base. These rules must first be determined by observing human experts, then programmend into ES using special languages such as PROLOG or shells such as Knowledge Craft, ART or KEE. This process can be time-consuming and expensive.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 67.

    Google Scholar 

  28. Fridson, M. S. (1994), Seite 77.

    Google Scholar 

  29. „Das Problemlösungswissen wird auf einer niedrigeren Abstraktionsebene, „unterhalb“ der symbolischen Repräsentation, dargestellt. Man spricht deshalb auch von subsymbolischer Verarbeitung.“ Kurbel, K./Pietsch, W. (1991), Seite 357.

    Google Scholar 

  30. Vgl. Hohler, B. (1991), Seite 59.

    Google Scholar 

  31. Zimmermann, H. G. (1992), Seite 30. Vgl. auch Zimmermann, H. G. (1991), Seite 497. Dort findet sich ein ähnlicher Gedankengang.

    Google Scholar 

  32. Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 67.

    Google Scholar 

  33. Kurbel, K./Pietsch, W. (1991), Seite 357.

    Google Scholar 

  34. Vgl. Zilahi-Szabo, M. G. (1993), Seite 790.

    Google Scholar 

  35. Blien, U./Lindner, H.-G. (1993), Seite 498.

    Google Scholar 

  36. Vgl. Rojas, R. (1992), Seite 125.

    Google Scholar 

  37. „An ANS (Abkürzung für: Artificial Neural System) has three major components—a network topology, a spreading activation method and a training mechansim.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 65. Vgl. Barr, T. (1991), Seite 79.

    Google Scholar 

  38. Die Absolutwerte von ωij können als Maß für die Stärke der Verbindung interpretiert werden, das Vorzeichen signalisiert dabei eine verstärkende (wij > 0) bzw. hemmende (wij < 0) Verknüpfung.

    Google Scholar 

  39. Vgl. zur nachfolgenden Darstellung Hinton, G. E. (1992), Seite 136. Von nun an werden die Aktivierungsfunktion A(y) und die Transferfunktion T zu einer Funktion mit dem Namen A(y) zusammengefaßt, die (wie in der Literatur häufig üblich) insgesamt wieder als Aktivierungsfunktion bezeichnet wird.

    Google Scholar 

  40. Vgl. Hinton, G. E. (1992), Seite 136, Köhle, M. (1990), Seiten 64 ff.

    Google Scholar 

  41. Vgl. hierzu z.B. Wittkemper, H.-G. (1994), Seite 13, Pytlik, M. (1995), Seite 160. Hierzu findet sich eine sehr anschauliche Darstellung in Azoff, E. M. (1994), Seiten 51–55.

    Google Scholar 

  42. Vgl. hierzu die nachfolgenden Ausführungen.

    Google Scholar 

  43. „With the sigmoidal transfer functions, the limits of the output of the processing element are 0 and 1. With a hyperbolic tangent transfer function, the limits are -1 and 1. As a result, if the problem involves learning about ‚average‘ behavior, sigmoid transfer functions work best. However, if the problem involves learning about ‚deviations‘ from the average, hyperbolic tangent works best. For example, bankruptcy prediction and stock picking are examples of problems where the objective is to learn to pick out ‚exceptional‘ situations, and hyperbolic tangent works best. In the case of learning to classify respondents for a direct mail application, the sigmoid works well.“ Trippi, R. R./Turban, E. (HRsG.) (1993), Seite 65. Die von Trippi/Turban publizierten Erfahrungen lassen sich jedoch nicht verallgemeinern.

    Google Scholar 

  44. Vgl. hierzu und zu den nachfolgenden Ausführungen Hruschka, H. (1991), Seite 218.

    Google Scholar 

  45. Hruschka, H. (1991), Seite 218.

    Google Scholar 

  46. Vgl. Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 5.

    Google Scholar 

  47. Das einfachste Netzwerk besteht jedoch aus einer Menge von Neuronen, die in einer Schicht angeordnet sind. In diesen und allen mehrschichtigen Netzwerken haben die Knoten am Eingang des Netzes nur die Aufgabe, die eingehenden Signale zu verteilen. Da diese Knoten keine Berechnungen ausführen, werden sie bei der Schichtenzählung nicht als solche gezählt.

    Google Scholar 

  48. Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 51.

    Google Scholar 

  49. Vgl. Blien, U./Lindner, H.-G. (1993), Seite 501.

    Google Scholar 

  50. „The configuration of a neural net is represented by a weighted directed graph (WDG) with nodes representing units and links representing connections. Each link is assigned a numerical value representing the weight of the connection.“ Tam, K./Kiang, M. (1992), Seite 929.

    Google Scholar 

  51. „Lernen heißt Selbstanpassung der Gewichtungsfaktoren zwischen den Prozessorelementen, so daß das Netz das gewünschte Verhalten zeigt. Die Lernfähigkeit entbindet von der expliziten Suche nach einer algorithmischen Lösung des gestellten Problems.“ Hohler, B. (1991), Seite 59.

    Google Scholar 

  52. „In many business applications (credit offers, fraud detection, credit extensions, etc.) learning is supervised. The network is presented with sets of data, each set being explicitly associated with a specific outcome (e.g., good/bad, bankrupt/nonbankrupt).“ Dasgupta, C. G./Dispensa, G. S./Ghose, S. (1994), Seite 238.

    Google Scholar 

  53. Vgl. Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 66. Vgl. auch Blien, U./Lindner, H.-G. (1993), Seite 505.

    Google Scholar 

  54. Vgl. Azoff, E. M. (1994), Seite 4, Schumann, M. (1991), Seite 28. In diesem Zusammenhang spricht A. N. Refenes auch vom associative reinforcement learning. Vgl. Refenes, A. N. (Hrsg.) (1995), Seite 7.

    Google Scholar 

  55. Viele Autoren differenzieren nur zwischen dem Lernen mit und ohne Zielvorgabe. Vgl. hierzu z.B. Rehkugler, H./Poddig, T. (1992A), Seite 51. Einige Varianten für das Lernen mit und ohne Lehrer diskutiert Wittkemper, H.-G. (1994), Seite 21.

    Google Scholar 

  56. Vgl. Schumann, M. (1991), Seite 27.

    Google Scholar 

  57. Vgl. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 6 ff.

    Google Scholar 

  58. Baun, S. (1994), Seite 140. Die Begriffe recurrent und feedback sind synonym zu verwenden.

    Google Scholar 

  59. Rehkugler, H./Poddig, T. (1992A), Seite 52.

    Google Scholar 

  60. Vgl. Hohler, B. (1991), Seite 64. Vgl. auch Krause, C. (1993), Seite 63. Dort findet sich eine Gruppierung systematisiert nach ihren Hauptanwendungsgebieten (Prognose, Klassifikation, Assoziation, Datenanalyse, Datenfilterung und Optimierung). Vgl. auch Barr, T. (1991), Seite 82.

    Google Scholar 

  61. Klimasauskas, C. C. (1994), Seite 19.

    Google Scholar 

  62. Vgl. zu den vorherigen Ausführungen Kurbel, K./Pietsch, W. (1991), Seite 361.

    Google Scholar 

  63. Vgl. zu den folgenden Ausführungen Fuser, K. (1994), Seiten 237 ff. Vgl. hierzu Baun, S. (1994), Seite 145. Dort wird eine weitere Entwicklungsmethode zum Aufbau von Anwendungen, die auf Neuronalen Netzen basieren, vorgestellt. Es wird differenziert zwischen dem Abfrageschema zur Bestimmung der Modellvorstellung vor Beginn der eigentlichen Modellentwicklung und dem Ablaufschema für die Modellrechnung im Rahmen des Trainingsund Optimierungsprozesses zur Bestimmung des Endmodells. Vgl. Rehkugler, H./Poddig, T. (1994A), Seite 15, Hoptroff, R. G. (1993), Seite 62. Weitere Arbeitsschemata finden sich in Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 50 oder auch in Schumann, M. (1991), Seite 29 und Klimasauskas, C. C. (1994), Seite 11. Vgl. auch Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 5. Sehr interessant sind in diesem Rahmen auch die Ausführungen von Bailey, D./Thompson, D. (1990), Seiten 38–47.

    Google Scholar 

  64. Baun, S. (1994), Seite 144.

    Google Scholar 

  65. Vgl. Baun, S. (1994), Seiten 148 ff. Vgl. zum Thema „Pre- and Postprocessing of Financial Data“ die Ausführungen von Deboeck, G. J./Cader, M. (1994), Seiten 27–44.

    Google Scholar 

  66. „And though good at processing information and at pattern recognition, they cannot make something out of nothing.“ McLeod, R. W./Malhotra, D. K./Malhotra, R. (1993), Seite 38. R. G. Hoptroff sagt: „There is one key limitation: the MLP (MLP: Abkürzung für Multi Layer Perceptron, Architektur/Topologie eines Neuronalen Netzwerkes) can do not better than the data it is trained on.“ Hoptroff, R. G. (1993), Seite 61.

    Google Scholar 

  67. Baun, S. (1994), Seite 149.

    Google Scholar 

  68. Baun, S. (1994), Seite 144.

    Google Scholar 

  69. Vgl. Burger, A. (1994B), Seite 1170.

    Google Scholar 

  70. „Nach der Festlegung des Typs (und gegebenenfalls innerhalb des Typs der geeigneten Variante) ist die geeignete Architektur zu entwicklen. Dieser Prozeß ist extrem zeitaufwendig und anspruchsvoll. Er kann—je nach Aufgabenstellung—von Wochen bis zu Monaten dauern.“ Vgl. Rehkugler, H./Poddig, T. (1992B), Seite 416.

    Google Scholar 

  71. Vgl. Burke, G. (1992), Seiten 35 und 36.

    Google Scholar 

  72. Schöneburg, E. (Hrsg.) (1993), Seite 19.

    Google Scholar 

  73. Prinzipiell können drei Arten von Gewichtsänderungen unterschieden werden: 1) der Aufbau neuer Verbindungen, 2) die Elimination vorhandener Verbindungen und 3) die Veränderung der Gewichte existierender Verbindungen. Die Möglichkeiten 1) und 2) sind Spezialfälle von 3), da die Elimination z.B. in der Form geschehen kann, daß Gewichte auf Null gesetzt werden.

    Google Scholar 

  74. Vgl. Sauerburger, H. (1991), Seite 18.

    Google Scholar 

  75. Vgl. Kosko, B. (1992), Seite 187.

    Google Scholar 

  76. Unter Repräsentierbarkeit wird in diesem Zusammenhang die Fähigkeit eines Netzes verstanden, einen gegebenen funktionalen Zusammenhang mit Hilfe dafür explizit gewählter Gewichte und Schwellenwerte korrekt darstellen zu können. Demgegenüber sorgt die Lernfiähigkeit dafür, daß die entsprechenden Gewichte (und Schwellenwerte) durch eine Rechenvorschrift (Algorithmus) bestimmt bzw. erlernt werden können.

    Google Scholar 

  77. Vgl. Hruschka, H. (1991), Seite 219, Barr, T. (1991), Seite 82.

    Google Scholar 

  78. Sauerburger, H. (1991), Seite 20.

    Google Scholar 

  79. Eine Fläche ist konvex, wenn man jedes Punktepaar innerhalb der Fläche durch eine Gerade verbinden kann, die sich vollständig in der Fläche befindet.

    Google Scholar 

  80. Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 27.

    Google Scholar 

  81. Vgl. zu den vorherigen Ausführungen Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 27 ff.

    Google Scholar 

  82. Vgl. z.B. die Ausführungen von Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seiten 89 ff., Zimmermann, H. G. (1994), Seiten 37 ff., Wong, F. S. (1990/1991), Seiten 149 ff., Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 11 ff. Vgl. auch Refenes, A. N. (Hrsg.) (1995), Seiten 8–10, White, H. (1989B), Seiten 48 ff.

    Google Scholar 

  83. Vgl. zu den nachfolgenden Ausführungen Fuser, K. (1994), Seiten 252 ff.

    Google Scholar 

  84. Der Initialwert jedes Gewichtungsfaktors ist i.d.R. eine kleine Zufallszahl z.B. aus dem Bereich von —0,50 bis +0,50. Vgl. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 12 und 13 zur Frage der Gewichtsinitialisierung.

    Google Scholar 

  85. Beginnend bei der Ausgangsebene wird rückwärts der Einfluß der Ebenen auf den Fehler ermittelt. Dieser Schritt erfolgt parallel für alle Output-Units. Anschließend werden die vor den einzelnen Output-Units liegenden Gewichtungsfaktoren korrigiert, deshalb der Begriff „ErrorBackpropagation-Algorithmus“. Das Backpropagation-Prinzip ist aus der Sicht der Biologen unplausibel. Es modelliert Lernen derart, daß Informationen auch entgegengesetzt zur vorgegebenen Richtung Eingabe-Verarbeitung-Ausgabe wandern. Vgl. Hinton, G. E. (1992), Seite 139.

    Google Scholar 

  86. „Ziel des Lernverfahrens ist es, Netzgewichte zu finden, die E minimieren. Nach dem Training werden unbekannte Vektoren in das Netz eingegeben, in der Erwartung, daß es eine gute Interpolation durchführt. Das Netz soll automatisch erkennen, ob eine neue Eingabe einem Eingabevektor der Trainingsmenge ähnlich ist, und dann eine ähnliche Ausgabe erzeugen.“ Rojas, R. (1992), Seite 154.

    Google Scholar 

  87. Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 51.

    Google Scholar 

  88. Sehr anschaulich wird der theoretische Hintergrund des Error-Backpropagation-Algorithmus in Hinton, G. E. (1992) auf der Seite 138 dargestellt.

    Google Scholar 

  89. Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 54 ff.

    Google Scholar 

  90. Die Formel 2.23 zur Änderung der Gewichtungsfaktoren bezeichnet man auch als Delta-Regel.

    Google Scholar 

  91. Vgl. dazu auch die Ausführungen auf der Seite 28.

    Google Scholar 

  92. An dieser Stelle soll noch einmal kurz die Problematik der Initialisierung der Gewichtungsfaktoren erörtert werden. Sind alle Gewichte einer Ebene mit denselben Werten initialisiert, so liefern alle Units dieser Ebene dieselben Ergebnisse. Da bei der Berechnung von Δwij die Ausgangswerte der vorherigen Ebene mit eingehen (Δ ωij = η • σj • opi) und diese alle gleich sind, werden alle Gewichte dieser Ebene gleichmäßig korrigiert, so daß nach der Korrektur die Gewichte wiederum alle gleich sind, d.h. diese Ebene kann nicht trainiert werden. Vgl. hierzu z.B. Refenes, A. N. (1995A), Seite 29.

    Google Scholar 

  93. Vgl. Hinton, G. E. (1992), Seite 138. Vgl. auch Wong, F. S. (1990/1991), Seite 152.

    Google Scholar 

  94. Vgl. hierzu die Formel 2.20, von der in diesem Schritt die Ableitung nach ok gebildet wird.

    Google Scholar 

  95. Die Gesamteingabe xk fließt in den Output-Neuronen k in die Sigmoid-Funktion ein. Der Funktionswert der Sigmoid-Funktion ist die Ausgabeaktivität an den Output-Neuronen k. Aus diesem Grunde ist σk gleich dem Ergebnis von Schritt 1, multipliziert mit der Rate, mit der sich die Ausgabe eines Output-Neurons bei veränderter Gesamteingabe ändert. Gebildet wird somit mit Hilfe der Kettenregel der Differentialgleichung die Ableitung der Sigmoid-Funktion, um die Änderungsrate zu bestimmen. Vgl. zur Ableitung der Sigmoid-Funktion Abschnitt 2.3.1.

    Google Scholar 

  96. Die Größe Δωjk ergibt sich nach der Formel für xk aus dem Ergebnis für σ k im Schritt 2, multipliziert mit dem Aktivitätsniveau des Knotens oj, von dem die Verbindung kommt. Gebräuchlich ist hier die Multiplikation mit dem Parameter η, über den die Geschwindigkeit des Lernprozesses variiert werden kann.

    Google Scholar 

  97. Durch diesen entscheidenden Schritt ist der Backpropagation-Algorithmus auch auf mehrschichtige Netzwerke anwendbar. Wenn ein Neuron j der vorhergehenden Schicht seine Aktivität oj ändert, so beeinflußt dies die Aktivitäten aller mit ihm verbundenen Output-Neuronen ok. Um die Gesamtveränderung auf den Fehler Ep zu ermitteln, bildet man die Summe aller einzelnen Effekte auf die Output-Neuronen ab.

    Google Scholar 

  98. Vgl. hierzu auch das gelungene Flußdiagramm zur Arbeitsweise des Error-BackpropagationAlgorithmus in Tam, K./Kiang, M. (1992), Seite 930.

    Google Scholar 

  99. Vgl. z.B. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 43, zum Gradientenabstiegsverfahren.

    Google Scholar 

  100. Die stetige Konvergenz des Algorithmus (d.h. das schrittweise Fallen des Gesamtfehlers bis unter eine bestimmte Schwelle) ist nicht immer garantiert. Es kann allerdings bewiesen werden, daß der Gesamtfehler des Netzes E gegen 0 konvergiert.

    Google Scholar 

  101. Dabei ist die Präsentationsreihenfolge der Trainingsmuster in der Regel pseudo-zufällig. „Eine Zerstörung bereits gelernter Zusammenhänge findet bei diesem Lernverfahren nicht statt, falls die Gewichte erst nach Kumulierung der Änderungen über alle Beobachtungswerte geändert werden.“ Hruschka, H. (1991), Seite 220. „First, make sure that the training presentations are randomized. If they are not, the network may very quickly learn about how to classify data in one particular mode (all good) and, due to the effects of momentum, move quickly in that direction.“ Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 71.

    Google Scholar 

  102. Rojas, R. (1992), Seite 149.

    Google Scholar 

  103. Zu den Techniken der Vorverarbeitung, insbesondere im Bereich der Finanzwirtschaft vgl. z.B. Jurik, M. (1992B), Seiten 40–44, Stein, R. (1993B), Seiten 32–37, Stein, R. (1993A), Seiten 42–47. Vgl. auch Baestaens, D. E./van Den Bergh, W. M./Wood, D. (1994), Seite 44.

    Google Scholar 

  104. Für ein wirklich tiefgehendes Verständnis des Error-Backpropagation-Verfahrens ist es notwendig einmal die Abläufe in der Lernphase „von Hand“ nachzuvollziehen. Die Zusammenhänge zwischen Gewichtungsfaktoren und Wissensspeicherung sowie die einzelnen Phasen des Trainingsverfahrens werden dabei besonders deutlich.

    Google Scholar 

  105. Vgl. Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 90. Vgl. zu den nachfolgend aufgeführten Punkten auch Altmann, E. I./Marco, G./Varetto, F. (1994), Seite 515.

    Google Scholar 

  106. Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 90.

    Google Scholar 

  107. Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 91.

    Google Scholar 

  108. Vgl. SchöNeburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 96.

    Google Scholar 

  109. Burke, G. (1992), Seite 36.

    Google Scholar 

  110. Köhle, M. (1990), Seite 96.

    Google Scholar 

  111. Vgl. Rojas, R. (1992), Seiten 168–172. Vgl. auch Piramuthu, S./Shaw, M. J./Gentry, J. A. (1994), Seiten 513–517. Bei letzteren wird eine interessante Erweiterung der Error-Backpropagation-Verfahrens, der NewtonRaphson-Algorithmus, vorgestellt.

    Google Scholar 

  112. Vgl. Kohonen T., et al. (Editors) (1991), Seiten 617–622, Köhle, M. (1990), Seite 97. Vgl. auch Wong, F. S. (1990/1991), Seite 151.

    Google Scholar 

  113. Analog wird für die Units der Hidden-Ebene die Gleichung 2.25 angepaßt.

    Google Scholar 

  114. Vgl. Rojas, R. (1992), Seite 169, Refenes, A. N. (1995A), Seite 26.

    Google Scholar 

  115. Hierbei kann noch zwischen einer allgemein gültigen, also für das gesamte Netzwerk gewählten und einer gewichtsbezogenen Vorgabe von η differenziert werden.

    Google Scholar 

  116. Schneider, B. (1994), Seite 62.

    Google Scholar 

  117. Vgl. Huber, C./Geiger, H./ Nücke, H. (1993), Seite 370.

    Google Scholar 

  118. Vgl. Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 60.

    Google Scholar 

  119. In Refenes, A. N. (1995B), Seiten 33 ff. werden einige Strategien, die zu einem „optimalen Netzwerkdesign“ führen könnten, diskutiert. A. N. Refenes differenziert dabei zwischen analytischen Methoden, den konstruktiven Techniken und den sog. Pruning-Verfahren. Es empfiehlt sich ein Riickgriff auf die zitierte Quelle, da dort einige Vorgehensweisen sehr anschaulich dargestellt werden.

    Google Scholar 

  120. Vgl. Baun, S./Köhr, Th. (1994), Seite 12. E.D. Karnin nennt drei Gründe, die für den Einsatz von Pruning-Strategien mit dem Ziel, kleinere Netzwerke zu erhalten, sprechen: 1) „The cost of computation, measured by the number of arithmetic operations, grows (almost) linearly with the number of the synaptic connections. Hence a smaller net is more efficient in both forward computation and learning.“ 2) „Neural net learning is usually based on a finite (often small) set of training patterns. A network which is too large will tend to memeorize the training patterns and thus have a poor generalization ability.“ 3) „There is always the hope that a smaller net will exhibit a behavior that can be described by a simple set of rules.“ Vgl. Karnin, E. D. (1990), Seite 239.

    Google Scholar 

  121. Vgl. Baun, S. (1994), Seite 161 ff. Dort werden eine Reihe von Pruning-Verfahren skizziert. Vgl. ebenso die Ausführungen von Miller, M. (1994), Seiten 133 ff. und die Gedanken von Wittkemper, H.-G. (1994), Seite 61.

    Google Scholar 

  122. Vgl. Baun, S./Köhr, Th. (1994), Seite 13, Baun, S. (1994), Seite 166, Miller, M. (1994), Seiten 139 und 140, Azoff, E. M. (1994), Seiten 59–60.

    Google Scholar 

  123. Vgl. Baun, S. (1994), Seite 166. Vgl. ergänzend Miller, M. (1994), Seiten 141 und 142.

    Google Scholar 

  124. Vgl. Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 69. Sie schreiben: „There are two basic approaches to optimizing hidden layer size: constructive and destructive.“

    Google Scholar 

  125. Vgl. Wittkemper, H.-G. (1994), Seite 63. „The constructive approach to hidden layer size is to start with a network with no hidden units. The inputs are connected directly to the outputs. Train the weights until the error ‚stabilizes‘. Fix these weights and add a hidden unit connected to the input and all prior hidden layers. The output of this new unit is connected to the output. Continue training. Eventually, the network will make no mistakes on the training data. One of the keys to the constructive approach is to decide when to stop adding hidden units. The answer is that at each decision point, the network is tested on both the training and test set. Performance on both is plotted. If the performance on both does not improve, remove the last hidden unit added and stop. Why? The network is starting to ‚memorize‘ the training set to the detriment of the test set.“ Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 69. Vgl. auch Klimasauskas, C. C. (1994), Seite 23.

    Google Scholar 

  126. Vgl. Baun, S. (1994), Seite 179, zur nachfolgenden Grafik. Vgl. auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 48.

    Google Scholar 

  127. „To avoid overfitting, one may adopt one ore more of the following strategies: (a) use special stopping criteria (b) add noise to the learning sample, and (c) use a simple network structure (i.e., with a small number of hidden units).“ Dutta, S./Shekhar, S./Wong W. Y. (1994), Seite 530.

    Google Scholar 

  128. Vgl. zum Problem des „overlearning“ z.B. Wittkemper, H.-G. (1994), Seite 40.

    Google Scholar 

  129. Miller, M. (1994), Seiten 132 und 133. Vgl. dort auch die graphischen Darstellungen zur Arbeitsweise des Stopp-Training auf den Seiten 131 und 132. „This method is reasonably powerful and simple and often leads to good results.“ Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 91.

    Google Scholar 

  130. Vgl. z.B. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 20, zum Thema Cross-Validierungs-Menge. Vgl. ebenso Klimasauskas, C. C. (1994), Seiten 16

    Google Scholar 

  131. Vgl. hierzu Baun, S. (1994), Seite 161 f. und die dort aufgeführten Quellen, in denen diese und andere Optimierungsverfahren diskutiert werden.

    Google Scholar 

  132. Vgl. dazu Seite 60.

    Google Scholar 

  133. Vgl. Miller, M. (1994), Seite 143.

    Google Scholar 

  134. Vgl. Miller, M. (1994), Seite 143, Wittkemper, H.-G. (1994), Seite 60.

    Google Scholar 

  135. Vgl. Weigend, A. S./Hubermann, B. A./Rumelhart, D. E. (1992), Seiten 405–409. Vgl. auch Miller, M. (1994), Seite 145.

    Google Scholar 

  136. Vgl. Baun, S. (1994), Seite 167.

    Google Scholar 

  137. Vgl. Zell, A. (1994), Seiten 189 ff., Pytlik, M. (1995), Seiten 202–209. Vgl. auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 26 f.

    Google Scholar 

  138. Vgl. Zell, A. (1994), Seite 191.

    Google Scholar 

  139. Vgl. Zell, A. (1994), Seite 192.

    Google Scholar 

  140. Vgl. hierzu die Ausführliche Diskussion in Zell, A. (1994), Seiten 193 ff.

    Google Scholar 

  141. Vgl. Schneider, B. (1994), Seite 64.

    Google Scholar 

  142. J. Hopfield, Professor für Chemie und Biologie am California Institut of Technology, ist als einer der frühen und heute führenden Forscher auf dem Gebiet der Neuronalen Netze weltweit geachtet.

    Google Scholar 

  143. Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 127.

    Google Scholar 

  144. Vgl Zell, A. (1994), Seiten 197 ff., Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 47 ff., Brause, R. (1991), Seiten 179 ff., Sauerburger, H. (1991), Seiten 24–26 oder auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 24.

    Google Scholar 

  145. Vgl. Barr, T. (1991), Seite 82.

    Google Scholar 

  146. Vgl Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 108.

    Google Scholar 

  147. Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 47 ff.

    Google Scholar 

  148. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 47.

    Google Scholar 

  149. Zur einfacheren Herleitung der Lernregel wurden hier die Zustände durch +1 und —1 beschrieben. In der Literatur wird dagegen häufig auch mit 0 und +1 gearbeitet. Daraus resultiert eine (formal) leicht abgewandelte Darstellung der Lernphase. Gravierender ist jedoch, wenn man die —1 Komponenten eines zu lernenden Vektors auf 0 setzt, daß durch diese Anpassung i.d.R. verschlechterte Recall-Ergebnisse beim trainierten Netzwerk zu beobachten sind. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 110, Zell, A. (1994), Seiten 197 ff.

    Google Scholar 

  150. In der Form der Gewichtsanpassung unterscheidet sich die Lernphase des Hopfield-Netzes signifikant von der des Backpropagation-Verfahrens. Die Gewichte wij werden nicht iterativ bestimmt, sondern bei der Vorgabe der zu erkennenden Muster direkt berechnet. Vgl. Sauerburger, H. (1991), Seite 25.

    Google Scholar 

  151. Vgl Ritter,I. H./Martinetz, T./Schulten, K. (1991), Seite 49. Die Autoren sprechen in diesem Zusammenhang auch von Attraktionsbecken um lokale Minima. Alle Eingabemuster innerhalb eines solchen Beckens werden durch die Systemdynamik zum Beckenminimum gezogen und liefern das gleiche Ausgabemuster.

    Google Scholar 

  152. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 110.

    Google Scholar 

  153. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 112. Man kann Nebenminima jedoch bis zu einem gewissen Grad löschen oder zumindest ihren Einzugsbereich verkleinern. Diese Prozedur wird unlearning genannt. Vgl. ebenda, Seite 113.

    Google Scholar 

  154. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 111. In diesem Zitat steht n für die Anzahl der Neuronen im Netzwerk.

    Google Scholar 

  155. Vgl. hierzu Zell, A. (1994), Seite 199 und den dort geführten Gültigkeitsbeweis. Man beachte, daß die Bedingungen des Cohen-Grossberg-Theorems hinreichend, aber nicht notwendig für die Stabilität rekurrenter Netzwerke sind, d.h. es gibt Netzwerke, die diese Kriterien nicht erfüllen und trotzdem stabil sind.

    Google Scholar 

  156. Vgl. Kosko, B. (1992), Seite 92.

    Google Scholar 

  157. Abhilfe davon schaffen sogennante statistische Methoden, bei denen die Neuronen ihren Zustand nicht mehr deterministisch sondern zufällig nach einer Wahrscheinlichkeitsverteilung ändern. In diesem Kontext existieren einige Verfahren, die durch die nachfolgend aufgeführten Begriffe beschrieben werden: Statistische Methoden, Boltzmann-Maschine und Simulated Annealing. Vgl. hierzu die weiteren Ausführungen.

    Google Scholar 

  158. Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 139. Vgl. auch Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 114.

    Google Scholar 

  159. Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 50 f. Sie geben an, daß die kritische Grenze bei p zu trainierenden Mustern und n Neuronen bei p≈ 0,146n liegt, wobei sie erwähnen, daß durch geschickte Kodierung der Muster die Speicherkapazität des Netzwerkes noch erhöht werden kann. Vgl. auch Schöneburg, E. (Hrsg.) (1993), Seite 138 f.

    Google Scholar 

  160. Vgl. hierzu z.B. Zell, A. (1994), Seiten 207 ff., Brause, R. (1991), Seiten 205 ff., Köhle, M. (1990), Seiten 104 ff., Hruschka, H. (1991), Seiten 221 f.

    Google Scholar 

  161. Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 236, Zell, A. (1994), Seite 208.

    Google Scholar 

  162. Vgl. Zell, A. (1994), Seite 215.

    Google Scholar 

  163. Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 132.

    Google Scholar 

  164. Im Gegensatz zu der hier dargestellten Verarbeitungsmethodik eines Hopfield-Modells kennt die Boltzmann-Maschine nur die Zustände 0 und 1, wobei der Zustand 1 einer verstärkten Neuronenaktivität und die 0 einem Ruhezustand des Neurons entspricht. Es existieren alternative Varianten von Hopfield-Netzen, die ebenso ausschließlich mit diesen beiden Zuständen arbeiten. Vgl. z.B. Zell, A. (1994), Seiten 197 ff.

    Google Scholar 

  165. Zell, A. (1994), Seite 209. Vgl. auch Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 119.

    Google Scholar 

  166. Vgl. zum Training von Boltzmann-Maschinen z.B. Zell, A. (1994), Seiten 210 ff.

    Google Scholar 

  167. Vgl. zu diesen Ausführungen Schöneburg, E. (Hrsg.) (1993), Seiten 131 ff.

    Google Scholar 

  168. Vgl. z.B. Blien, U./Lindner, H.-G. (1993), Seiten 507 f.

    Google Scholar 

  169. „There are two variants of the association paradigm: auto-association and hetero-association. An auto-associative paradigm is one in which a pattern is associated with itself. A hetero-associative paradigm is one in which two different patterns have to be associated with each other.“ Refenes, A. N. (Hrsg.) (1995), Seite 7. Vgl. hierzu auch Carpenter, G. A. (1989), Seite 250.

    Google Scholar 

  170. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 116.

    Google Scholar 

  171. Blien, U./Lindner, H.-G. (1993), Seite 508.

    Google Scholar 

  172. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 116.

    Google Scholar 

  173. Blien, U./Lindner, H.-G. (1993), Seite 509.

    Google Scholar 

  174. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 117. Betrachte zu den Weiterentwicklungen bzw. Alternativenbetrachtungen vor allem Kosko, B. (1992), Seiten 63 ff.

    Google Scholar 

  175. Vgl. Sauerburger, H. (1991), Seiten 26–27. Vgl. auch Refenes, A. N. (Hrsg.) (1995), Seiten 10–12, Barr, T. (1991), Seite 84, Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 25 f.

    Google Scholar 

  176. Vgl. Sauerburger, H. (1991), Seite 26.

    Google Scholar 

  177. Barr, T. (1991), Seite 84.

    Google Scholar 

  178. Vgl. Sauerburger, H. (1991), Seite 26.

    Google Scholar 

  179. Wittkemper, H.-G. (1994), Seite 22.

    Google Scholar 

  180. Vgl. z.B SchöNeburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 130 ff. Vgl. auch Köhle, M. (1990), Seiten 153 ff., Carpenter, G. A. (1989), Seiten 254 und 255.

    Google Scholar 

  181. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 86 ff. Vgl. auch Brause, R. (1991), Seiten 87 ff., Köhle, M. (1990), Seiten 29 ff. oder die Ausführungen von Carpenter, G. A. (1989), Seite 246.

    Google Scholar 

  182. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 89 ff.

    Google Scholar 

  183. Vgl. Kerling, M./Poddig, T. (1994), Seiten 443 ff. Es handelt sich hierbei um ein sehr interessantes Nearest-Neighbour-Lernverfahren, welches nach dem “Winner takes it all“-Prinzip arbeitet. Vgl. auch Köhle, M. (1990), Seiten 127 ff., Pytlik, M. (1995), Seiten 191–202.

    Google Scholar 

  184. Vgl. Carpenter, G. A. (1989), Seiten 255 ff. Cogitron und Neocognitron wurden von K. Fukushima zwischen 1975 und 1988 entwickelt. Sie können mit und ohne Lehrer trainiert werden. Vgl. a.a.O. Seite 256. Dort steht: „Learning can proceed with or without a teacher.“ und die nachfolgende Fußnote.

    Google Scholar 

  185. Vgl. Köhle, M. (1990), Seiten 141 ff. Das Neocognitron ist ein Neuronales Netz für die visuelle Mustererkennung, das ein nicht überwachtes, d.h. selbstorganisiertes Lernverfahren zum Training verwendet.

    Google Scholar 

  186. Vgl. Pytlik, M. (1995). Dort werden eine Reihe von Netzen deskriptiv mit Hinweisen auf weitere Quellen, die das jeweilige KNN beschreiben, vorgestellt. Er weist z.B. hin auf das BrainState-in-a-Box-Modell von J.A. Anderson, die Selbstorganisierenden Karten von T. Kohonen, das Restricted-Coulumb-Energy-Netz der in den USA ansässigen Firma Nestor und weitere für viele Laien sicherlich exotisch anmutende Netzwerktypen.

    Google Scholar 

  187. Vgl. Kosko, B. (1992), Seiten 259–261 zum ART-1. Vgl. darüber hinaus Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 130 ff.

    Google Scholar 

  188. Vgl Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 86 ff.

    Google Scholar 

  189. Vgl. Blien, U./Lindner, H.-G. (1993), Seite 504.

    Google Scholar 

  190. Zimmermann, H. G. (1992), Seite 28. Vgl. auch Zimmermann, H. G. (1991), Seite 496, Refenes, A. N. (Hrsg.) (1995), Seite 4. Bei letzterem werden in einer Grafik „cognition“ und „complexity“ gegenübergestellt und Neuronale Netze in diesen Kontext eingeordnet.

    Google Scholar 

  191. Vgl. Rehkugler, H./Poddig, T. (1994a), Seiten 18–21.

    Google Scholar 

  192. „Tasks requiring accuracy of computational results or intensive calculations are best left to conventional computer applications. As we’ve noted, artificial neural networks are best applied to problem environments that are highly unstructured, require some form of pattern recognition and may involve incomplete or corrupted data.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 69.

    Google Scholar 

Download references

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 1995 Betriebswirtschaftlicher Verlag Dr. Th. Gabler GmbH, Wiesbaden

About this chapter

Cite this chapter

Füser, K. (1995). Neuronale Netzwerke. In: Neuronale Netze in der Finanzwirtschaft. Gabler Verlag, Wiesbaden. https://doi.org/10.1007/978-3-663-05964-6_2

Download citation

  • DOI: https://doi.org/10.1007/978-3-663-05964-6_2

  • Publisher Name: Gabler Verlag, Wiesbaden

  • Print ISBN: 978-3-409-14098-0

  • Online ISBN: 978-3-663-05964-6

  • eBook Packages: Springer Book Archive

Publish with us

Policies and ethics