imported>Luckywiki1234: /* growthexperiments-addlink-summary-summary:2|1|0 */

2025-01-05T21:18:37Z

growthexperiments-addlink-summary-summary:2|1|0

Neue Seite

Im [[Maschinelles Lernen|maschinellen Lernen]] bezeichnen '''Kernel-Methoden''' eine Klasse von [[Algorithmus|Algorithmen]] zur [[Mustererkennung]]. Diese Methoden nutzen sogenannte Kernelfunktionen, welche eine Menge von bekannten Datenpunkten in einen höherdimensionalen Raum transformieren. In diesem neuen Raum sucht die Kernel-Methode nach einer [[Hyperebene]], die die Datenpunkte korrekt [[Klasseneinteilung (Statistik)|klassifiziert]]. Die Abbildung zum [[Kernel-Methode#Kernel-Trick|Kernel-Trick]] veranschaulicht ein einfaches Beispiel. Eine besondere Eigenschaft der Kernelfunktionen ist, dass sie eine implizite Berechnung im höherdimensionalen Raum ermöglichen. Dadurch können Kernel-Methoden bei der Suche nach einer geeigneten Hyperebene hochdimensionale Räume verwenden, ohne die Rechenzeit signifikant zu erhöhen.<ref>{{Literatur |Autor=Paul Wilmott |Titel=Grundkurs Machine Learning |Auflage=1 |Verlag=Rheinwerk Verlag GmbH |Ort=Bonn |Datum=2020 |ISBN=978-3-8362-7598-9 |Seiten=133}}</ref> Bekannte Kernel-Methoden sind unter anderem [[Support Vector Machine|Support Vector Machines]], [[Gauß-Prozess|Gauß-Prozesse]] und die Kernel-PCA.

== Formale Definition Kernel ==
{{Überarbeiten}}
Sei <math>X</math> ein Eingaberaum. Eine Abbildung <math> K\colon X \times X \to \R</math> heißt Kernel, wenn es einen [[Skalarproduktraum ]] <math>(F,\langle \cdot, \cdot \rangle)</math> und eine Abbildung <math>\phi\colon X \to F</math> in diesen Raum gibt mit: <math>K(x,y) = \langle \phi(x), \phi(y) \rangle \;\;\; \forall x,y \in X </math>.

<math>F</math> heißt Featurespace oder [[Merkmalsraum]], <math>\phi</math> Featuremapping oder Merkmalsabbildung. Ein Kernel ist also eine Möglichkeit, das [[Skalarprodukt]] zweier Punkte <math>x,y</math> im Merkmalsraum zu berechnen, ohne die potentiell sehr hochdimensionale Repräsentation <math> \phi(x), \phi(y)</math> explizit ausrechnen zu müssen. Dieses Skalarprodukt im Merkmalsraum kann dann für Klassifizierungsalgorithmen wie [[Support Vector Machine]]s verwendet werden.

In der Praxis muss der Featurespace nicht explizit bekannt sein, da Kernel durch den [[Satz von Mercer]] eine einfache Charakterisierung aufweisen.

== Verschiedene Klassen von Kernel-Funktionen ==

Es gibt verschiedene Arten von Kerneln, die sich zum Teil über [[Parameter (Informatik)|Parameter]] an die gegebene Problemstellung anpassen lassen:

* lineare Kernel <math> k(x,y) = \langle x,y \rangle </math>
* polynomiale Kernel <math> k(x,y) = \langle x,y \rangle^{d} </math>, mit einem freien Parameter <math>d</math>
* [[Radiale Basisfunktion|Radiale-Basisfunktion]]-Kernel (RBF) <math> k(x,y) = \exp\left(-\tfrac{||x-y||^{2}}{2\sigma^{2}}\right) </math>, wobei die Bandbreite <math>\sigma</math> ein freier Parameter ist
* Fisher Kernel
* Graph Kernel
* Kernel Smoother
* String Kernel
* Neural Tangent Kernel
* Neural Network [[GAUSSIAN|Gaussian]] Process (NNGP) Kernel

== Kernel-Trick ==
Bei Kernel-Methoden gibt es den '''Kernel-Trick''', mit dem beispielsweise ein linearer Klassifikator erfolgreich auf nicht-linear trennbare Daten angewendet werden kann. Dies wird erreicht, indem die Daten in einen höherdimensionalen Raum transformiert werden, in dem eine bessere lineare Separierbarkeit erwartet wird (siehe Abbildung). Dieser Vorgang kann als eine Form des Feature-Engineering verstanden werden.
[[Bild:Kernel trick idea.svg|mini|500px|Gegeben sei die Abbildung <math>\phi((x_1, x_2)) = (x_1, x_2, x_1^2 + x_2^2)</math> und ein Kernel <math>K(\mathbf{x}, \mathbf{y}) = \phi(\mathbf{x}) \cdot \phi(\mathbf{y}) = \mathbf{x}\cdot\mathbf{y}
+ \parallel\mathbf{x}\parallel^2 \parallel\mathbf{y}\parallel^2.</math>
Dann kann eine SVM mit diesem Kernel ''K''('''x''' , '''y''') die roten und lila Datenpunkte durch eine Hyperebene trennen. Die 2d Trainingspunkte <math>(x_1,x_2)</math> werden durch <math>\phi</math> in den 3d-Raum abgebildet <math>(x_1,x_2,\phi((x_1, x_2)) )</math>, wo eine trennende Hyperebene leicht gefunden werden kann.]]

== Literatur ==
* Christopher M. Bishop: ''Pattern Recognition and Machine Learning''. Information Science and Statistics, Springer-Verlag, 2008, ISBN 978-0387310732
* Nello Cristianini, John Shawe-Taylor: ''Kernel Methods for Pattern Classification''. Cambridge, 2004.
* [[Bernhard Schölkopf]], Alex Smola: ''Learning with Kernels''. [[Massachusetts Institute of Technology|MIT]] Press, Cambridge, MA, 2002.
* Thomas Hofmann, Bernhard Schölkopf, Alexander J Smola: ''Kernel methods in machine learning.'' In: ''Annals Statistics'' 36 (3) 2008: 1171–1220. [https://arxiv.org/PS_cache/math/pdf/0701/0701907v3.pdf PDF.]

== Weblinks ==

* http://www.kernel-machines.org/
* http://www.kernel-methods.net

== Einzelnachweise ==
<references />

[[Kategorie:Maschinelles Lernen]]
[[Kategorie:Multivariate Statistik]]

Kernel-Methode - Versionsgeschichte

imported>Luckywiki1234: /* growthexperiments-addlink-summary-summary:2|1|0 */