imported>Skewspansy: /* growthexperiments-addlink-summary-summary:1|0|0 */

2026-02-02T15:59:50Z

growthexperiments-addlink-summary-summary:1|0|0

Neue Seite

Das '''Gradientenverfahren''' wird in
der [[Numerische Mathematik|Numerik]] eingesetzt, um allgemeine [[Optimierungsproblem]]e zu lösen. Dabei schreitet man (am Beispiel eines Minimierungsproblems) von einem Startpunkt aus entlang einer '''Abstiegsrichtung''', bis keine numerische Verbesserung mehr erzielt wird. Wählt man als Abstiegsrichtung den negativen [[Gradient (Mathematik)|Gradient]]en, also die Richtung des lokal steilsten Abstiegs, erhält man das '''Verfahren des steilsten Abstiegs''', welches nicht zu verwechseln ist mit einem weiteren Verfahren in der [[Analysis]] und [[asymptotische Analysis|asymptotischen Analysis]] unter demselben Namen ''Methode des steilsten Abstiegs''. Manchmal werden die Begriffe ''Gradientenverfahren'' und ''Verfahren des steilsten Abstiegs'' synonym verwendet.

Im Allgemeinen bezeichnet ''Gradientenverfahren'' eine Optimierungsmethode, bei der die Abstiegsrichtung durch Gradienteninformation gewonnen wird, also nicht notwendigerweise auf den negativen Gradienten beschränkt ist.<ref>{{Literatur |Autor=Dimitri P. Bertsekas |Titel=Nonlinear programming |Auflage=3 |Verlag=Athena Scientific |Datum=2016 |ISBN=978-1-886529-05-2}}</ref>

Das Verfahren des steilsten Abstiegs konvergiert oftmals sehr langsam, da es sich dem [[Kritischer Punkt (Mathematik)|stationären Punkt]] mit einem starken [[Zickzack-Muster|Zickzack]]-Kurs nähert. Andere Verfahren für die Berechnung der Abstiegsrichtung erreichen teils deutlich bessere [[Konvergenzgeschwindigkeit]]en, so bietet sich für die Lösung von symmetrisch positiv definiten [[Lineares Gleichungssystem|linearen Gleichungssystemen]] beispielsweise das [[CG-Verfahren|Verfahren der konjugierten Gradienten]] an. Der ''Gradientenabstieg'' ist mit dem [[Bergsteigeralgorithmus]] (''hill climbing'') verwandt.

== Das Optimierungsproblem ==
Das Gradientenverfahren ist einsetzbar, um eine reellwertige, differenzierbare Funktion <math>f \colon \mathbb{R}^n \rightarrow \mathbb{R}</math> zu minimieren:

:<math> \underset{x \in \mathbb{R}^n}{\min} \ f(x).</math>

Hierbei handelt es sich um ein Problem der [[Optimierung (Mathematik)|Optimierung]] ohne Nebenbedingungen, auch ''unrestringiertes Optimierungsproblem'' genannt.

== Das Verfahren ==
Das Gradientenverfahren generiert ausgehend von einem Startpunkt <math>x^0\in\R^n</math> eine Folge von Punkten <math>x^k\in\R^n</math> gemäß der Iterationsvorschrift
:{| class="wikitable"
| <math>x^{k+1} = x^k+\alpha^kd^k,\quad k=0,1,\ldots</math>
|}
wobei <math>\alpha^k>0</math> eine positive '''Schrittweite''' ist und <math>d^k\in\R^n</math> eine '''Abstiegsrichtung'''. Dabei werden sowohl <math>\alpha^k</math> als auch <math>d^k</math> in jedem Iterationsschritt so bestimmt, dass die Folge <math>x^k</math> zu einem [[Stationärer Punkt|stationären Punkt]] von <math>f</math> konvergiert.

=== Bestimmen der Abstiegsrichtung ===
[[Datei:Abstiegsrichtung.svg|mini|376x376px|Abstiegsrichtungen <math>d_i</math> haben einen Winkel größer als 90° mit dem Gradienten im Punkt <math>x</math>. Die strichlierte Gerade ist die Tangente an die [[Isolinie]] der zweidimensionalen Funktion, sie stellt den Grenzfall dar, bei dem der Winkel mit dem Gradient 90° beträgt. Die Abstiegsrichtung <math>d_2</math> zeigt in Richtung des negativen Gradienten, d. h. in Richtung des steilsten Abstiegs.]]
Eine Abstiegsrichtung im Punkt <math>x^k</math> ist ein Vektor <math>d^k</math>, der
: <math>\left(\nabla f(x^k)\right)^T d^k < 0</math>
erfüllt. Intuitiv bedeutet das, dass der Winkel zwischen <math>\nabla f(x^k)</math> und <math>d^k</math> größer als 90° ist. Da der Gradient <math>\nabla f(x^k)</math> in Richtung des steilsten Anstiegs zeigt, ist <math>d^k</math> eine Richtung entlang derer sich der Funktionswert verringert.

Viele Gradientenmethoden berechnen die Abstiegsrichtung anhand
: <math>d^k = -D^k\nabla f(x^k),</math>
wobei <math>D^k</math> eine [[positiv definit]]e Matrix ist. In diesem Fall lautet die Bedingung für die Abstiegsrichtung
: <math> \left(\nabla f(x^k)\right)^T \left(-D^k\right) \nabla f(x^k) < 0,</math>
und ist dank der positiven Definitheit von <math>D^k</math> immer erfüllt.

Mit der Wahl der Matrix <math>D^k</math> erhält man folgende Algorithmen:
* <math>D^k = I</math>, wobei <math>I</math> die [[Einheitsmatrix]] ist, ergibt das '''Verfahren des steilsten Abstiegs'''. Die Abstiegsrichtung ist in diesem Fall einfach der negative Gradient, <math>d^k = -\nabla f(x^k)</math>.
* <math>D^k = \begin{bmatrix}a_1 & 0 & \cdots & 0 \\ 0 & a_2 & \ddots & \vdots \\ \vdots & \ddots & \ddots & 0 \\ 0 & \cdots & 0 & a_n \end{bmatrix}</math>, wobei <math>a_i>0,\ i=1,\ldots,n</math> sodass <math>D^k</math> positiv definit ist, ist ein '''diagonal skalierter steilster Abstieg'''. Oft werden die <math>a_i</math> als Approximation der Inversen der 2. Ableitung gewählt, also <math>a_i\approx \left(\frac{\partial^2 f(x^k)}{\left(\partial x_i\right)^2}\right)^{-1}</math>.
* <math>D^k = \left(\nabla^2 f(x^k)\right)^{-1}</math>, die Inverse [[Hesse-Matrix]], ergibt das [[Newton-Verfahren]] für die Lösung nichtlinearer Minimierungsprobleme.
* Da die Berechnung der Hesse-Matrix oft aufwändig ist, gibt es eine Klasse von Algorithmen, welche eine Approximation <math>D^k\approx \left( \nabla^2f(x)\right)^{-1}</math> verwenden. Solche Methoden werden als [[Quasi-Newton-Verfahren]] bezeichnet, es gibt verschiedene Arten wie die Approximation berechnet wird. Ein wichtiger Vertreter aus der Klasse der Quasi-Newton Methoden ist der [[BFGS-Verfahren|BFGS Algorithmus]].
* Falls das Optimierungsproblem in der speziellen Form
::<math>\min_{x\in\R^n} \left\{\|f(x)\|^2=\sum_{i=1}^m \left(f_i(x)\right)^2\right\}</math>,
:also als Summe von Quadraten von Funktionen, gegeben ist, erhält man mit <math>D^k = \left(J^TJ\right)^{-1}</math>, wobei <math>J</math> die [[Jacobi-Matrix]] von <math>f</math> im Punkt <math>x^k</math> ist, das [[Gauß-Newton-Verfahren]].

=== Bestimmen der Schrittweite ===
Die Bestimmung der Schrittweite <math>\alpha^k</math> ist ein wichtiger Teil des Gradientenverfahren, der großen Einfluss auf die Konvergenz haben kann. Ausgehend vom Iterationsschritt <math>x^{k+1}=x^k+\alpha^k d^k</math> betrachtet man den Wert von <math>f</math> entlang der Linie <math>x^k+\alpha d^k</math>, also <math>f(\alpha)=f(x^k+\alpha d^k)</math>. Man spricht in diesem Zusammenhang oft auch von [[Liniensuchverfahren|Liniensuche]]. Die ideale Wahl wäre es, die Schrittweite als jenen Wert zu berechnen, der die Funktion <math>f(\alpha)</math> minimiert, also das eindimensionale Problem
: <math> \min_{\alpha>0} \left\{f(\alpha) = f(x^k+\alpha d^k) \right\}</math>
zu lösen. Dies wird als '''exakte Liniensuche''' bezeichnet und wird in dieser Form in der Praxis selten angewandt, da selbst für einfache Optimierungsprobleme die exakte Bestimmung der Schrittweite sehr rechenaufwändig ist.

Als Alternative zur exakten Liniensuche lockert man die Erfordernisse und beschränkt sich darauf, dass der Funktionswert sich mit jedem Iterationsschritt „genügend“ verringert. Dies wird auch als '''inexakte Liniensuche''' bezeichnet. Die einfachste Möglichkeit besteht darin, die Schrittweite <math>\alpha</math> ausgehend von einem Startwert (z. B. <math>\alpha=1</math>) so lange zu verringern, bis <math>f(x^{k+1}) = f(x^k + \alpha d^k) < f(x^k)</math> erreicht ist. Diese Methode funktioniert in der Praxis oft zufriedenstellend, man kann jedoch zeigen, dass für manche pathologischen Funktionen diese Liniensuche zwar in jedem Schritt den Funktionswert verringert, die Folge <math>x^k</math> jedoch nicht zu einem stationären Punkt konvergiert.

==== Armijo-Bedingung ====
Die Armijo-Bedingung formalisiert das Konzept „genügend“ in der geforderten Verringerung des Funktionswertes. Die Bedingung <math>f(x^k + \alpha d^k) < f(x^k)</math> wird modifiziert zu
: <math>f(x^k + \alpha d^k) \leq f(x^k) + \sigma \alpha \left(\nabla f(x^k)\right)^T d^k,</math>
mit <math>\sigma\in (0,1)</math>. Die Armijo-Bedingung umgeht die Konvergenzprobleme aus der vorigen einfachen Bedingung, indem sie fordert, dass die Verringerung zumindest proportional zur Schrittweite und zur [[Richtungsableitung]] <math>\left(\nabla f(x^k)\right)^T d^k</math> ist, mit Proportionalitätskonstante <math>\sigma</math>. In der Praxis werden oft sehr kleine Werte verwendet, z. B. <math>\sigma=10^{-4}</math>.

==== Backtracking-Liniensuche ====
Die Armijo-Bedingung gilt immer dann, wenn die Schrittweite genügend klein ist und kann damit zum Stillstand des Gradientenverfahrens führen – der Schritt ist so klein, dass kein nennenswerter Fortschritt mehr gemacht wird. Eine einfache Kombination aus wiederholter Verkleinerung der Schrittweite und der Armijo-Bedingung ist die Backtracking-Liniensuche. Sie stellt sicher, dass die Schrittweite klein genug ist, um die Armijo-Bedingung zu erfüllen, andererseits aber nicht zu klein.
In [[Pseudocode]]:
Wähle Startwert für <math>\alpha</math>, z. B. <math>\alpha=1</math>, wähle Konstanten <math>\sigma\in(0,1),\ \rho\in(0,1)</math>

while <math>f(x^k + \alpha d^k) > f(x^k) + \sigma \alpha \left(\nabla f(x^k)\right)^T d^k</math>
<math>\alpha = \rho \alpha </math>
end

Setze <math>\alpha^k = \alpha</math>
Die Backtracking-Liniensuche verringert die Schrittweite wiederholt um den Faktor <math>\rho</math>, bis die Armijo-Bedingung erfüllt ist. Sie terminiert garantiert nach einer endlichen Anzahl von Schritten und wird wegen ihrer Einfachheit oft in Praxis verwendet.

== Konvergenz ==
Im Allgemeinen konvergiert das Gradientenverfahren weder zu einem globalen noch zu einem lokalen Minimum. Garantiert werden kann nur die Konvergenz zu einem [[Kritischer Punkt (Mathematik)|stationären Punkt]], also einem Punkt <math>x^*</math>mit <math>\nabla f(x^*) = 0</math>. Schränkt man die Klasse der Zielfunktionen auf [[konvexe Funktion]]en ein, so sind stärkere Garantien möglich, siehe [[konvexe Optimierung]].

Für den allgemeinen Fall kann weder über die Konvergenzgeschwindigkeit der Folge <math>\{f(x^k)\}</math> noch über die Konvergenzgeschwindigkeit der Folge <math>\{x^k\}</math> eine Aussage getroffen werden. Ist <math>L</math> eine [[Lipschitz-Konstante]] von <math>\nabla f</math>, so kann man zeigen, dass die Norm der Gradienten <math>g^*_N = \min_{0\leq k\leq N} \| \nabla f(x^k) \|</math> mit der Rate
:<math>\sqrt{\frac{L\left(f(x^0)-f(x^*)\right)}{\omega(N+1)}}</math>
gegen 0 konvergiert, wobei <math>\omega>0</math> eine positive Konstante ist.

== Beispiel ==
[[Datei:Rosenbrock function.svg|mini|413x413px|Die Rosenbrock-Funktion mit <math>a=1,\ b=100</math>]]
Die Rosenbrock-Funktion

: <math>f:\R^2\to\R:x\mapsto \left(a-x_1\right)^2+b\left(x_2-x_1^2\right)^2</math>

wird häufig als Test für Optimierungsmethoden verwendet, da sie wegen des schmalen und flachen Tals, in welchem iterative Methoden nur kleine Schritte machen können, eine Herausforderung darstellt. Die Konstanten werden üblicherweise mit <math>a=1,\ b=100</math> gewählt, das globale Optimum liegt in diesem Fall bei <math>x^*=(1,1)</math> mit dem Funktionswert <math>f(x^*)=0</math>.

Der Gradient sowie die Hesse-Matrix ergeben sich als

:<math>\nabla f = \begin{bmatrix} 4bx_1^3-4bx_1x_2+2(x_1-a) \\ 2b(-x_1^2+x_2) \end{bmatrix}</math>
sowie
:<math>\nabla^2 f = \begin{bmatrix} 12bx_1^2 - 4bx_2+2 & -4bx_1 \\ -4bx_1 & 2b \end{bmatrix}</math>.
Damit lassen sich die Algorithmen '''Verfahren des steilsten Abstiegs''' und '''Newton-Verfahren''' direkt implementieren. Um das '''Gauß-Newton-Verfahren''' anzuwenden, muss die Rosenbrock-Funktion zunächst in die Form „Summe von Quadraten von Funktionen“ gebracht werden. Dies ist auf der Seite zum [[Gauß-Newton-Verfahren]] im Detail erklärt.
[[Datei:Rosenbrock-optimization-comparison.svg|mini|413x413px|Optimierung mit Verfahren des steilsten Abstiegs, Newton-Verfahren und Gauß-Newton-Verfahren]]
Für die Liniensuche kommt bei allen Verfahren ein [[Backtracking]] mit folgenden Parametern zum Einsatz: Startwert <math>\alpha=1</math>, <math>\rho=0{,}5</math>, <math>\sigma=0{,}001</math>. Als Startpunkt wird <math>x^0=(-0{,}62;\,0{,}38)</math> gewählt.

Das Verfahren des steilsten Abstiegs findet auch nach 1000 Iterationen nicht zum globalen Optimum und steckt in dem flachen Tal fest, wo nur sehr kleine Schritte möglich sind. Im Gegensatz dazu finden sowohl das Newton-Verfahren als auch der Gauß-Newton-Algorithmus in wenigen Iterationen zum globalen Optimum.

== Siehe auch ==
* [[Liniensuchverfahren]]

== Literatur ==
* Yurii Nesterov: ''Introductory Lectures on Convex Optimization: A Basic Course.'' Springer Science & Business Media, 2003, ISBN 1-4419-8853-X.
* Dimitri P. Bertsekas: ''Nonlinear Programming.'' 2. Auflage. Athena Scientific, 1995, ISBN 1-886529-14-0.
* Jorge Nocedal, Stephen Wright: ''Numerical Optimization.'' Springer Science & Business Media, 2000, ISBN 0-387-98793-2.
* [[Andreas Meister]]: ''Numerik linearer Gleichungssysteme.'' 2. Auflage. Vieweg, Wiesbaden 2005, ISBN 3-528-13135-7.

== Einzelnachweise ==
<references />

[[Kategorie:Numerische lineare Algebra]]
[[Kategorie:Optimierungsalgorithmus]]

Gradientenverfahren - Versionsgeschichte

imported>Skewspansy: /* growthexperiments-addlink-summary-summary:1|0|0 */