Schönhage-Strassen-Algorithmus

Der Schönhage-Strassen-Algorithmus ist ein Algorithmus zur Multiplikation zweier n-stelliger ganzer Zahlen. Er wurde 1971 von Arnold Schönhage und Volker Strassen entwickelt.<ref>Arnold Schönhage, Volker Strassen: Schnelle Multiplikation großer Zahlen. In: Computing, 7, 1971, S. 281–292, Springer Verlag</ref> Der Algorithmus basiert auf einer sehr schnellen Variante der diskreten schnellen Fourier-Transformation sowie einem geschickten Wechsel zwischen der Restklassen- und der zyklischen Arithmetik in endlichen Zahlenringen.

Der Schönhage-Strassen-Algorithmus terminiert in <math>O \Big(n \cdot \log(n) \cdot \log \big(\log(n) \big) \Big)</math> (siehe Landau-Notation), wenn als Effizienzmaß die Bitkomplexität auf mehrbändigen Turingmaschinen, also die maximale Laufzeit des Algorithmus gemessen als benötigte Bitoperationen in Abhängigkeit von der Bitlänge <math>n</math> der Eingabegrößen gewählt wird. Diese Komplexität stellt eine Verbesserung sowohl gegenüber dem naiven aus der Schule bekannten Algorithmus der Laufzeit <math>O \left(n^2 \right)</math> als auch gegenüber dem 1962 entwickelten Karazuba-Algorithmus mit einer Laufzeit von <math>O \left(n^{\log_2 (3)} \right)</math> sowie dessen verbesserter Variante, dem Toom-Cook-Algorithmus mit <math>O(n^{1+\varepsilon})</math> Laufzeit dar.

Der Schönhage-Strassen-Algorithmus war von 1971 bis 2007 der effizienteste bekannte Algorithmus zur Multiplikation großer Zahlen; 2007 veröffentlichte Martin Fürer eine Weiterentwicklung des Algorithmus mit der noch niedrigeren asymptotischen Komplexität <math>n \cdot \log(n) \cdot 2^{O(\log^*(n))}</math>, wobei <math>\log^*(n)</math> der iterierte Logarithmus von n ist.<ref>Martin Fürer: Faster integer multiplication. STOC 2007 Proceedings, S. 57–66.</ref> Durch Optimierungen des Algorithmus von Fürer erreichten David Harvey, Joris van der Hoeven und Grégoire Lecerf 2014 eine Verbesserung der asymptotischen Laufzeit auf <math>O(n \cdot \log(n) \cdot 2^{3\log^*(n)})</math>.<ref>David Harvey, Joris van der Hoeven, Grégoire Lecerf: Even faster integer multiplication. 2014, arxiv:1407.3360</ref> Harvey und van der Hoeven stellten 2021 schließlich einen weiteren Algorithmus vor, der die von Schönhage und Strassen postulierte Laufzeit von <math>O(n \cdot \log(n))</math> erreicht.<ref>David Harvey, Joris van der Hoeven: Integer multiplication in time $O(n\mathrm{log}\, n)$. In: Annals of Mathematics. Band 193, Nr. 2, 1. März 2021, ISSN 0003-486X, doi:10.4007/annals.2021.193.2.4 (projecteuclid.org [abgerufen am 17. April 2024]). </ref>

Bedeutung

Bis 2007 galt der Schönhage-Strassen-Algorithmus als effizientester bekannter Algorithmus für ganzzahlige Multiplikation. Als untere Schranke gibt es für den allgemeinen Fall nur die (triviale) lineare Laufzeit, an die sich der Algorithmus mit wachsender Zahlenlänge annähert. Allerdings haben die Forscher Hinweise dafür gefunden, dass die Schranke <math>O(n \cdot \log(n))</math> niemals unterboten werden kann. Selbst bei modernen Computern ist diese Methode der Berechnung erst bei Zahlen mit mehreren tausend Stellen effizienter als der Karazuba-Algorithmus. Dies liegt wohl allerdings weniger am Overhead des Schönhage-Strassen-Algorithmus, sondern vielmehr an der seit Jahrzehnten typischen Designoptimierung der Computerprozessoren, die dem Erreichen schneller Gleitkommaoperationen den Vorzug vor der Arithmetik in endlichen Restklassenringen ganzer Zahlen gibt.

Für die Suche nach den Algorithmen mit der besten (Zeit-)Komplexität in der Computer-Algebra genießt der Schönhage-Strassen-Algorithmus zentrale Bedeutung.

Algorithmus

Grundidee und Terminologie

Datei:Integer multiplication by FFT.svg

Der Schönhage–Strassen-Algorithmus basiert auf der schnellen diskreten Fourier-Transformation (DFT). Dieses Beispiel zeigt die Berechnung von 1234 × 5678 = 7006652. Die Berechnung findet modulo 337 statt. Um die Anschaulichkeit zu verbessern, wird anstelle der Basis 2 mit Basis 10 gearbeitet.

Um zwei ganze Zahlen <math>a</math> und <math>b</math> zu multiplizieren, wird im Groben folgendes Schema angewandt:

Aufspaltung der Zahlen (in Binärdarstellung) <math>a</math> und <math>b</math> in Stücke passender Länge
Schnelle diskrete Fourier-Transformation (DFT) der beiden Stückfolgen
Komponentenweise Multiplikation der transformierten Stücke
Rücktransformation (inverse Fouriertransformation) der Ergebnisse
Zusammensetzen der Ergebnisstücke zur Ergebniszahl

Die im mittleren Schritt durchzuführenden kleinen Multiplikationen werden im rekursiven Sinne wiederum durch den Schönhage-Strassen-Algorithmus ausgeführt.

Um zu verstehen, warum das Ergebnis das Produkt der Zahlen a und b ist, betrachtet man die Polynome

Setzt man <math>X = 2</math> ein, so erhält man gerade die Binärdarstellung der Zahlen a und b. Zu berechnen ist <math>c=C(2)</math> für das Produktpolynom

Wir bestimmen die Fouriertransformierte der Koeffiziententupel von A und B:

<math>\hat a_k = \sum_{i=0}^{2^n-1} a_i\cdot w^{i\cdot k}</math> für <math>k=0,\ldots,2^n-1</math>

<math>\hat b_k = \sum_{j=0}^{2^n-1} b_j\cdot w^{j\cdot k}</math> für <math>k=0,\ldots,2^n-1</math>

Anders gesagt wertet man die beiden Polynome an den Stellen <math>w^k</math> aus. Multipliziert man nun diese Funktionswerte, so ergeben sich die entsprechenden Funktionswerte des Produktpolynoms

<math>C=A\cdot B</math>.

Um das Polynom <math>C</math> selbst zu gewinnen, müssen wir die Transformation rückgängig machen:

<math>\hat c_l = 1/2^{n+1} \sum_{k=0}^{2^{n+1}-1} \hat a_k \cdot \hat b_k\cdot w^{- l\cdot k}</math> für <math>l=0,\ldots,2^{n+1}-1</math>

<math>\hat c_l = 1/2^{n+1} \sum_{i,j,k=0}^{2^{n+1}-1} a_i b_j \cdot w^{i\cdot k + j\cdot k - l\cdot k}</math> für <math>l=0,\ldots,2^{n+1}-1</math>

<math>\hat c_l = 1/2^{n+1} \sum_{i,j,k=0}^{2^{n+1}-1} a_i b_j \cdot w^{(i+j-l)\cdot k}</math> für <math>l=0,\ldots,2^{n+1}-1</math>

Nach Definition der Einheitswurzeln gilt <math>w^{\,{2^{n+1}}}=1</math>. Diese genügt folgender Identität geometrischer Summen von Einheitswurzeln:

<math>\displaystyle \sum_{k=0}^{{2^{n+1}}-1} w^{lk}=\begin{cases}2^{n+1}&l=0\\0&l\ne 0\end{cases}</math> für <math>l=0,...,2^{n+1}-1</math>

denn

<math>\displaystyle \sum_{k=0}^{2^{n+1}-1} x^k=\frac{x^{2^{n+1}}-1}{x-1}</math> für <math>x\ne1</math>

Somit gilt:

<math>\hat c_l = \sum_{i+j=l} a_i b_j</math> für <math>l=0,\ldots,2^{n+1}-1</math>

Im Artikel Diskrete Fourier-Transformation sind die mathematische Grundlagen dieser Transformation weiter ausgeführt. Da bei der Transformation <math>2^n</math> Summen mit jeweils <math>2^n</math> Termen entstehen, haben wir bei einer klassischen Berechnung der Terme (etwa durch das Horner-Schema) nach wie vor eine quadratische Laufzeit. Mittels der schnellen Fourier-Transformation kann man diese Werte schneller berechnen. Diese Berechnung beruht auf folgendem Teile-und-herrsche-Prinzip:

Man setzt Teillösungen mittels einfacher Operationen (Addition und einfache Multiplikation) zusammen. Damit können die Transformationen in Zeit <math>O(N \cdot \log N)</math> berechnet werden. Durch das Runden der komplexen Einheitswurzeln auf feste Stellenlänge ergeben sich jedoch Rechenfehler. Um diese auszugleichen, muss für ein resultierendes Bit mit mindestens <math>O(\log N)</math> Bits gerechnet werden. Daraus ergibt sich eine Gesamtlaufzeit von <math>O(N\cdot(\log N)^2)</math>. Bei der Schönhage-Strassen-Variante rechnen wir stattdessen in einem Restklassenring und vermeiden damit die Rechenfehler der komplexen Zahlen.

Des Weiteren ist die Multiplikation keine reine Faltung, sondern es kann auch zu Überträgen kommen; nach Durchführen der FT und iFT müssen diese passend behandelt werden.

Die Aufgabe der Multiplikation zweier ganzer Zahlen wird nun wie folgt konkretisiert:

Es seien die zwei zu multiplizierenden Zahlen <math>a, b\in\mathbb Z</math> in Binärzifferdarstellung gegeben. Weiter sei <math>N</math> die maximale Länge (also Binärziffernanzahl) der beiden Zahlen.

Nach passender Behandlung der Vorzeichen der beiden Zahlen sowie der trivialen Sonderfälle <math>a=0</math> und <math>b=0</math> (was mit linearem Aufwand <math>O(N)</math> machbar ist) darf man davon ausgehen, dass <math>a,b\in\mathbb N</math> natürliche Zahlen sind. Der Schönhage-Strassen-Algorithmus löst diese Aufgabe in <math>O(N\cdot\log N\cdot \log\log N)</math>.

Theoretische Vorbereitungen

Superschnelle DFT

Die oben angesprochene superschnelle DFT, die das Kernstück des Algorithmus darstellt, muss etwas ausführlicher erläutert werden, da sie hier sehr speziell eingesetzt wird.

Es sei <math>R</math> ein kommutativer unitärer Ring. In <math>R</math> sei das Element <math>2</math> eine Einheit; weiterhin sei <math>w\in R</math> eine <math>2^n</math>te Einheitswurzel (also <math>w^{2^n}=1</math>), die die Gleichheit <math>w^{2^{n-1}} = -1</math> erfüllt. Dann lässt sich die Berechnung der diskreten Fouriertransformation (DFT) im Produktraum <math>R^{2^n}</math> (dies ist eine Kurznotation für <math>R^{(2^n)}</math>; der Begriff Vektorraum ist hier nur für den Fall, dass <math>R</math> ein Körper ist, üblich) wie folgt in einer schnellen Variante (als FFT) durchführen:

Zu berechnen ist für <math>a=(a_0,\ldots,a_{2^n-1})\in R^{2^n}</math> die Transformierte <math>\hat a\in R^{2^n}</math> mit

<math>\hat a_k = \sum_{j=0}^{2^n-1} a_j\cdot w^{j\cdot k}</math> für <math>k=0,\ldots,2^n-1</math>.

Indem wir die Indizes <math>k=\sum_{\nu=0}^{n-1} k_{\nu}\cdot 2^{\nu}</math> und <math>j=\sum_{\nu=0}^{n-1}j_{\nu}\cdot 2^{n-1-\nu}</math> in Binärdarstellung aufschreiben, wobei wir dies bei der Zahl <math>j</math> in umgekehrter Reihenfolge tun, ist die Transformierte <math>\hat a</math> wie folgt optimiert berechenbar:

Es seien

<math>A_0(j_0,\ldots j_{n-1}) = a_j</math> für <math>j=0,\ldots,2^n-1</math>

und

<math>A_{r+1}(k_0,\ldots,k_r,j_{r+1},\ldots,j_{n-1}) = </math>

<math> = A_r(k_0,\ldots, k_{r-1},0,j_{r+1},\ldots,j_{n-1}) +</math>

<math>A_r(k_0,\ldots, k_{r-1},1,j_{r+1},\ldots,j_{n-1})\cdot w^{2^{n-1-r}\cdot (k_r 2^r+\dots +k_0 2^0)}</math>

<math> = \sum_{j_r=0}^1 A_r(k_0,\ldots, k_{r-1},j_r,\ldots,j_{n-1}) \cdot w^{j_r 2^{n-1-r}\cdot (k_r 2^r+\dots +k_0 2^0)}</math>.

Die geschlossene Darstellung für diese Zwischenterme ist

<math>A_{r+1}(k_0,\ldots,k_r,j_{r+1},\ldots,j_{n-1}) = </math>

<math> = \sum_{j_r=0}^1 \ldots \sum_{j_0=0}^1 a_j \cdot w^{(j_0 2^{n-1}+\ldots + j_r 2^{n-1-r}) \cdot (k_r 2^r+\dots +k_0 2^0)}</math>.

(Zum Nachrechnen dieser Darstellung beachte man <math>w^{(j_0 2^{n-1}+\ldots + j_{r-1} 2^{n-r})\cdot k_r 2^r} = 1</math>).

Diese Rekursion liefert die gewünschten Fourierkoeffizienten <math>\hat a_k = A_n(k_0,\ldots,k_{n-1})</math>.

Aufgrund der Eigenschaft <math>w^{2^{n-1}}=-1</math> können wir den Rekursionsschritt etwas berechnungsfreundlicher umformen zu

<math>A_{r+1}(k_0,\ldots,k_{r-1},0,j_{r+1},\ldots,j_{n-1}) = </math>

<math> = A_r(k_0,\ldots, k_{r-1},0,j_{r+1},\ldots,j_{n-1}) + A_r(k_0,\ldots, k_{r-1},1,j_{r+1},\ldots,j_{n-1})\cdot w^x</math>

und

<math>A_{r+1}(k_0,\ldots,k_{r-1},1,j_{r+1},\ldots,j_{n-1}) = </math>

<math> = A_r(k_0,\ldots, k_{r-1},0,j_{r+1},\ldots,j_{n-1}) - A_r(k_0,\ldots, k_{r-1},1,j_{r+1},\ldots,j_{n-1})\cdot w^x</math>

mit dem gleichen Exponenten <math>x=2^{n-1-r}\cdot (k_{r-1} 2^{r-1}+\ldots + k_0 2^0)</math>.

Die Umkehrtransformation, also die inverse FFT, gelingt, da wir vorausgesetzt haben, dass <math>2</math> im Ring <math>R</math> invertierbar ist:

<math>A_r(k_0,\ldots,k_{r-1},0,j_{r+1},\ldots,j_{n-1}) = </math>

<math> = 2^{-1}\big( A_{r+1}(k_0,\ldots,k_{r-1},0,j_{r+1},\ldots,j_{n-1}) + A_{r+1}(k_0,\ldots,k_{r-1},1,j_{r+1},\ldots,j_{n-1})</math>

sowie

<math>A_r(k_0,\ldots,k_{r-1},1,j_{r+1},\ldots,j_{n-1}) = </math>

<math> = 2^{-1} w^{-x}\big( A_{r+1}(k_0,\ldots,k_{r-1},0,j_{r+1},\ldots,j_{n-1}) - A_{r+1}(k_0,\ldots,k_{r-1},1,j_{r+1},\ldots,j_{n-1})</math>,

wobei wiederum <math>x = 2^{n-1-r}\cdot (k_{r-1} 2^{r-1}+\ldots + k_0 2^0)</math> ist.

In der Anwendung im Schönhage-Strassen-Algorithmus wird tatsächlich nur eine halbierte FFT benötigt; gemeint ist damit folgendes: Beginnen wir im 1. Schritt der Rekursion mit der Berechnung

<math>A_1(1,j_1,\ldots,j_{n-1}) = A_0(0,j_1,\ldots, j_{n-1}) - A_0(1,j_1,\ldots, j_{n-1}) = a_j - a_{j+2^{n-1}}</math>

nur für <math>k_0=1</math> und schränken wir die weiteren Schritte der Rekursion ebenso auf <math>k_0=1</math> ein, so berechnen wir gerade alle <math>\hat a_k</math> für ungerade Werte <math>k</math>. Will man umgekehrt aus diesen <math>\hat a_k</math> für ungerade <math>k</math> (das sind <math>2^{n-1}</math> Stück) lediglich die Differenzen <math>a_j - a_{j+2^{n-1}}</math> der ursprünglichen <math>a_j</math> zurückgewinnen, so genügt auch in der Rückrichtung die halbierte Rekursion.

Im Schönhage-Strassen-Algorithmus wird die geschilderte schnelle Fouriertransformation für endliche Zahlenringe <math>\mathbb Z_{F_n}</math> mit Fermatzahlen <math>F_n = 2^{(2^n)}+1</math> benötigt.

Hinweis zur Notation: Für den Restklassenring <math>\mathbb Z / k\mathbb Z</math> benutzen wir hier die kürzere Schreibweise <math>\mathbb Z_k</math>, die lediglich im Kontext der p-adischen Zahlen zu Verwechslungen führen könnte.

Als Einheitswurzel wird im Ring <math>\mathbb Z_{F_n}</math> die Zahl <math>2</math> (oder je nach Kontext auch eine geeignete Potenz von 2) zum Einsatz kommen. Die beim FFT-Algorithmus durchzuführenden Multiplikationen sind dann von der Form <math>x\cdot 2^k</math>; allerdings sind sie nicht als reine Shift-Operationen durchführbar, da das Reduzieren eines größeren Zwischenergebnisses modulo <math>F_n</math> noch nachgeschoben werden muss. Hier greift eine der brillanten Ideen von Schönhage und Strassen: Sie betten den Ring (ausgestattet mit der Restklassenarithmetik) passend in einen größeren, mit der zyklischen Arithmetik ausgestatteten Überring ein. Dieser Überring hat eine 2-Potenz als Ordnung, so dass in ihm die entsprechende Multiplikation tatsächlich als reine Shift-Operation durchführbar ist. Diesen Trick kann man in einem schönen Struktursatz über Restklassen- und zyklische Arithmetik in endlichen Zahlenringen zusammenfassen.

Struktursatz über zyklische Arithmetik

Der Struktursatz über zyklische Arithmetik lässt sich formal wie folgt fassen:

Für eine Zweierpotenz <math>D=2^n</math> mit einer natürlichen Zahl <math>n\in\mathbb N</math> gilt

<math>(\mathbb Z_{D+1},+,\cdot) \cong (\mathbb Z_{D^2}, \oplus,\otimes) / (D+1)\cdot \mathbb Z</math>.

Hierbei bezeichnet <math>(\mathbb Z_{D+1},+,\cdot)</math> die durch die Repräsentanten <math>0,\ldots,D</math> darstellbaren Restklassen modulo <math>D+1</math> ausgestattet mit der Restklassenarithmetik, d. h. mit der Addition und Multiplikation modulo <math>D+1</math>. Die in diesem Restklassenring vorkommenden Zahlen können mit <math>n+1</math> Binärziffern dargestellt werden.

Die auf der rechten Seite vorkommende Struktur <math>(\mathbb Z_{D^2}, \oplus,\otimes)</math> bezeichnet die Restklassen modulo der Zahl <math>D^2</math>, die allerdings nicht mit der Restklassenarithmetik, sondern abweichend mit der zyklischen Arithmetik ausgestattet werden. Hierbei werden bei Zwischenergebnissen, die zu groß werden, Überträge aufgehoben und auf das Endergebnis additiv aufgeschlagen. Dies entspricht in Binärzifferdarstellung einer Verschiebung der überständigen Binärziffern (rechtsbündig an die niedrigsten Zifferpositionen gestellt) mit nachfolgender Addition. Beispielsweise ergibt die Addition <math>a+1</math> mit <math>a=D^2-1</math> nicht den Wert <math>D^2\equiv 0</math>, sondern den Wert <math>D^2+1\equiv 1</math>. Aus der so erhaltenen Zahlenstruktur mit zyklischer Arithmetik wird nun noch der Faktorring modulo <math>D+1</math> gebildet. Es werden also die Endergebnisse noch modulo <math>D+1</math> reduziert.

Damit besagt dieser Struktursatz folgendes: Das modulo-Rechnen in <math>\mathbb Z_{D+1}</math> kann ebenso ersetzt werden durch das zyklische Rechnen im größeren Zahlenraum <math>\mathbb Z_{D^2}</math> mit nachfolgendem Reduzieren modulo <math>D+1</math>.

Entscheidend für das Gelingen der in diesem Struktursatz vorgestellten Einbettung ist die Eigenschaft, dass die größte darstellbare Zahl <math>F</math> im zyklischen Zahlenraum (hier ist dies die Zahl <math>D^2-1</math>) die Zahl <math>0</math> aus dem Restklassenring <math>\mathbb Z_{D+1}</math> repräsentiert. Hierfür ist die Bedingung <math>(D+1)|F</math> notwendig. Damit die zyklische Arithmetik aber überhaupt sinnvoll definiert werden kann, muss andererseits <math>F+1</math> eine Zweierpotenz sein. Zusammen ergibt sich, dass <math>F=D^2-1</math> die optimale Wahl für die Größe des zyklischen Einbettungsraumes darstellt.

Der klassische Restklassenring <math>(\mathbb Z_{D^2},+,\cdot)</math> wäre für die Einbettung dagegen nicht geeignet, denn in diesem Ring gilt <math>2^{2n} = D^2 = 0</math>, d. h. die Zahl <math>2</math> ist in diesem Ring ein Nullteiler.

Durchführung

Haben wir die zu multiplizierenden Zahlen <math>a,b</math> mit <math>N\leq 2^m</math> Binärziffern vorliegen, so führen wir, je nachdem, ob <math>m</math> gerade oder ungerade ist, unterschiedliche Rekursionsschritte aus, um die Stellenzahl in einem Einzelschritt zu logarithmieren:

Rekursionsschritt für ungerades m

Diesen Schritt der Rückführung von <math>m=2n-1</math> auf <math>n</math> führen wir mit der Komplexität <math>O\left(2^n \psi(2^n) + n\cdot 2^{2n}\right)</math> durch.

Es seien <math>a,b\in\Z_{F_m}</math> mit <math>m=2n-1</math> und der Fermatzahl <math>F_m = 2^{2^m}+1</math> zu multiplizieren. Wir werden in diesem Schritt die Rückführung auf die Fermatzahl <math>F_n = 2^{2^n}+1</math> vollziehen.

Für die zu den beiden Fermatzahlen gehörenden Zweierpotenzen führen wir die Abkürzungen

und

ein. Die halbierte Stellenzahl von <math>D</math> wird unsere Stückelungsgröße werden, d. h. wir entwickeln <math>a</math> und <math>b</math> nach Potenzen von <math>\sqrt D</math>:

<math>a = \sum_{i=0}^{2^n} a_i\cdot \sqrt D^i\quad</math> und <math>\quad b = \sum_{i=0}^{2^n} b_i\cdot \sqrt D^i</math>,

wobei für die Einzelstücke <math>0 \leq a_i, b_i < \sqrt D</math> gilt. In Binärdarstellung entspricht diese Zerlegung einer einfachen Gruppierung der Bitfolgen in Stücke der Länge <math>2^{n-1}</math> Bits.

Eine kleine Schwäche des Algorithmus (die allerdings der erreichten Komplexitätsschranke keinen Abbruch tut) offenbart sich jetzt. Um die superschnelle DFT auf die Stückfolgen <math>(a_0,\ldots,a_{2^n})</math> und <math>(b_0,\ldots,b_{2^n})</math> anwenden zu können, müssen diese zur nächsten Zweierpotenzlänge mit Nullen aufgefüllt werden; die Zahlendarstellung wird also künstlich verlängert zu

<math>a = \sum_{i=0}^{2^{n+1}-1} a_i\cdot \sqrt D^i</math> und <math>b = \sum_{j=0}^{2^{n+1}-1} b_j\cdot \sqrt D^j</math>.

Vermöge des oben erwähnten Struktursatzes zur zyklischen Arithmetik wechseln wir nun vom Restklassenring <math>\mathbb Z_{E+1}</math> über zum Quotientenraum <math>(\mathbb Z_{E^2},\oplus,\otimes) /(E+1)\cdot\mathbb Z</math> mit der zyklischen Arithmetik. In diesem Raum errechnet sich für die Multiplikationsaufgabe

<math>a\cdot b = \left(\sum_{i=0}^{2^{n+1}-1} a_i \sqrt D^i\right)\cdot \left(\sum_{j=0}^{2^{n+1}-1} b_j \sqrt D^j\right)</math>

<math> = \sum_{k=0}^{2^{n+2}-2}\left(\sum_{i,j=0\atop i+j=k}^{2^{n+1}-1} a_i\cdot b_j\right) \sqrt D^k</math>

<math> = \sum_{k=0}^{2^{n+1}-1}\left(\sum_{i,j=0\atop i+j=k}^{2^{n+1}-1} a_i\cdot b_j\right) \sqrt D^k

+ \sum_{k=0}^{2^{n+1}-1}\left(\sum_{i,j=0\atop i+j=2^{n+1}+k}^{2^{n+1}-1} a_i\cdot b_j\right) \sqrt D^{2^{n+1}+k}</math>

<math> = \sum_{k=0}^{2^{n+1}-1}\left(\sum_{i,j=0\atop i+j\equiv k \mod 2^{n+1}}^{2^{n+1}-1} a_i\cdot b_j\right) \sqrt D^k</math>,

wobei wir im letzten Schritt die Eigenschaft <math>\sqrt D^{2^{n+1}} = D^{2^n} = E^2 = 1</math> in diesem zyklischen Zahlenraum benutzt haben.

Zusammenfassend erhält die Multiplikation also die Form

mit den Ergebniskoeffizienten

<math>c_k = \sum_{i,j=0\atop i+j\equiv k\mod 2^{n+1}}^{2^{n+1}-1} a_i\cdot b_j</math>.

Wir können <math>c_k < 2^{n+1}D</math> nach oben abschätzen.

Nun folgt eine Umschreibung der Summenformel, damit wir uns bei der anzuwendenden FFT auf eine halbierte FFT beschränken können.

Es gilt <math>c_{k+2^n} \sqrt D^{k+2^n} = c_{k+2^n} \sqrt D^k E = - c_{k+2^n}\sqrt D^k</math>, also ist

mit <math>-2^{n+1}D < c_k - c_{k+2^n} < 2^{n+1}D</math> in <math>\mathbb Z_{E+1}</math>. Durch passende Addition können wir den Wertebereich ins Positive verschieben, es ist nämlich <math>0 < c_k - c_{k+2^n} + 2^{n+1}D < 2^{n+2}D</math>, und mit der Definition

<math>z_k = \Big\lbrace {c_k - c_{k+2^n} + 2^{n+1}D, \quad 0\leq k < 2^n \atop 2^{n+1}D, \quad\quad 2^n\leq k < 2^{n+1} }</math>

gilt

<math>a\cdot b = \sum_{k=0}^{2^{n+1}-1} z_k \sqrt D^k</math>.

Für die nichttrivialen <math>z_k</math> (Indizes <math>0</math> bis <math>2^n-1</math>) gilt die Abschätzung <math>0 < z_k < 2^{n+2}D < 2^{n+2}F_n</math>. Da die beiden Zahlen <math>2^{n+2}</math> und <math>F_n</math> teilerfremd ist, genügt zur Bestimmung der <math>z_k</math> die Berechnung der Reste <math>z_k \mod 2^{n+2}</math> und <math>z_k \mod F_n</math>.

Hat man nämlich die Reste <math>z_k=\xi \mod F_n</math> und <math>z_k=\eta \mod 2^{n+2}</math> bestimmt, so kann man in Komplexität <math>O(2^n)</math> wie folgt rechnen: Berechne erst <math>\delta = \eta - \xi \mod 2^{n+2}</math> und dann <math>z_k = \xi + \delta\cdot (D+1) = \xi + \delta\cdot F_n</math>.

Bestimmung der Reste modulo 2ⁿ⁺²

Hier wenden wir einen für die Computeralgebra sehr typischen Trick an: Wir setzen die Stückfolgen <math>a_i</math> und <math>b_i</math> durch Einfügen genügend langer Nullsequenzen mit Sicherheitsabständen so zusammen, dass nach Produktbildung die Einzelergebnisse ebenfalls noch ohne Überlappungen in Stücken aneinandergereiht sind. Es seien also <math>\alpha_j = a_j\mod 2^{n+2}</math> und <math>\beta_j = b_j\mod 2^{n+2}</math> in <math>\mathbb Z_{2^{n+2}}</math>. Wir bilden nun

<math>u = \sum_{k=0}^{2^{n+1}-1}\alpha_k 2^{k(3n+5)}</math> und <math>v = \sum_{k=0}^{2^{n+1}-1}\beta_k 2^{k(3n+5)}</math>

und haben dabei <math>0 \leq u, v < 2^{2^{n+1}(3n+5)}</math>. Das Produkt <math>u\cdot v</math> enthält dann in disjunkten Stücken der Bitlänge <math>3n+5</math> die Summen

<math>\gamma_k = \sum_{r,s=0 \atop r+s=k}^{2^{n+1}-1}\alpha_r\cdot \beta_s</math>

mit <math>0\leq k < 2^{n+2}</math>, denn es ist <math>0\leq \gamma_k < 2^{3n+5}</math>. Für die Terme <math>c_k</math> unserer ursprünglichen Multiplikationsaufgabe <math>a\cdot b</math> sehen wir

<math>c_k = \gamma_k + \gamma_{k+2^{n+1}}\mod 2^{n+2}</math>.

Für die zu bestimmenden Reste <math>\eta_k = z_k \mod 2^{n+2}</math> erhalten wir

<math>\eta_k = \gamma_k - \gamma_{k+2^n } + \gamma_{k+2\cdot 2^n} - \gamma_{k+3\cdot 2^n}</math> in <math>\mathbb Z_{2^{n+2}}</math>.

Der Komplexitätsaufwand für die Bildung aller <math>\alpha_j, \beta_j</math> sowie der Extraktion der <math>\eta_k</math> ist <math>O(2^{2n})</math>; die Multiplikation <math>u\cdot v</math> kostet <math>\psi(2^{n+1}(3n+5))</math>, insgesamt ist dies also <math>O(2^{2n})</math>.

Bestimmung der Reste modulo (D+1)

Hier kommt die DFT zum Einsatz. Wir unterziehen die Vektoren <math>(a_0,\ldots a_{2^{n+1}-1})</math> und <math>(b_0,\ldots b_{2^{n+1}-1})</math> mit <math>0 \leq a_k, b_k < \sqrt D</math> der DFT in <math>R^{2^{n+1}}</math> mit <math>R = \mathbb Z_{D+1}</math> und der Zahl <math>2</math> als <math>2^{n+1}</math>-ter Einheitswurzel. Da wir nur die Differenzen <math>c_k - c_{k+2^n}</math> benötigen, genügt die halbierte DFT:

DFT zur Bestimmung der <math>\hat a_k</math> und <math>\hat b_k</math> nur für die ungeraden <math>k</math> mit <math>0\leq k < 2^{n+1}</math>
<math>2^n</math> Multiplikationen <math>\hat c_k = \hat a_k\cdot \hat b_k</math> für alle ungeraden <math>k</math>
Inverse DFT zur Gewinnung aller Differenzen <math>c_k - c_{k+2^n}</math> aus den <math>\hat c_k</math> für ungerade <math>k</math>

Der Komplexitätsaufwand hierfür besteht aus <math>O(n 2^n)</math> Schritten des Einzelaufwands <math>O(2^n)</math> für die DFT (gesamt also <math>O(n 2^{2n})</math>); hinzu kommen die Addition von <math>2^{n+1}D</math> sowie die Reduktionen modulo <math>(D+1)</math> für die Gewinnung der <math>z_k \mod (D+1)</math>, was in <math>O(2^{2n})</math> bewältigt werden kann.

Rekursionsschritt für gerades m

Auch für diesen Schritt der Rückführung von <math>m=2n-2</math> auf <math>n</math> wird die Komplexität <math>O\left(2^n \psi(2^n) + n\cdot 2^{2n}\right)</math> erreicht.

Es seien <math>a,b\in\Z_{F_m}</math> mit <math>m=2n-2</math> und der Fermatzahl <math>F_m = 2^{2^m}+1</math> zu multiplizieren. Wir werden auch in diesem Schritt die Rückführung auf die Fermatzahl <math>F_n = 2^{2^n}+1</math> vollziehen.

Für die zu den beiden Fermatzahlen gehörenden Zweierpotenzen führen wir analog die Abkürzungen

und

ein. Wiederum wird die halbierte Stellenzahl von <math>D</math> unsere Stückelungsgröße werden, d. h. wir entwickeln <math>a</math> und <math>b</math> nach Potenzen von <math>\sqrt D</math>:

<math>a = \sum_{i=0}^{2^{n-1}} a_i\cdot \sqrt D^i\quad</math> und <math>\quad b = \sum_{i=0}^{2^{n-1}} b_i\cdot \sqrt D^i</math>,

wobei für die Einzelstücke <math>0 \leq a_i, b_i < \sqrt D</math> gilt.

Wie oben verlängern wir die Zahlendarstellung auf Zweierpotenzlänge zu

und analog für <math>b</math>.

Unter abermaliger Zuhilfenahme des Struktursatzes zur zyklischen Arithmetik wechseln wir nun vom Restklassenring <math>\mathbb Z_{E+1}</math> über zum Quotientenraum <math>(\mathbb Z_{E^2},\oplus,\otimes) /(E+1)\cdot\mathbb Z</math> mit der zyklischen Arithmetik.

Damit können wir wieder

mit den Ergebniskoeffizienten

<math>c_k = \sum_{r,s=0\atop r+s\equiv k\mod 2^n}^{2^n-1} a_r\cdot b_s</math>

darstellen. Dabei können wir <math>c_k < 2^n D</math> nach oben abschätzen.

Aus <math>\sqrt D^{2^{n-1}} = E^2=1</math> können wir wieder

folgern, und mit

<math>z_k = \Big\lbrace {c_k - c_{k+2^{n-1}} + 2^n D, \quad 0\leq k < 2^{n-1} \atop 2^n D, \quad\quad 2^{n-1}\leq k < 2^n}</math>

gilt

mit <math>0<z_k < 2^{n+1} D</math>. Für die nichttrivialen <math>z_k</math> (Indizes <math>0</math> bis <math>2^{n-1}-1</math>) gilt die Abschätzung <math>0 < z_k < 2^{n+1}D < 2^{n+1}F_n</math>. Wegen der Teilerfremdheit der beiden Zahlen <math>2^{n+1}</math> und <math>F_n</math> genügt es wieder zur Bestimmung der <math>z_k</math>, die Reste <math>z_k \mod 2^{n+2}</math> und <math>z_k \mod F_n</math> zu berechnen.

Bestimmung der Reste modulo 2ⁿ⁺¹

Wir wenden wieder den Trick der Einfügung von Sicherheitsabständen an: Es seien also <math>\alpha_j = a_j\mod 2^{n+1}</math> und <math>\beta_j = b_j\mod 2^{n+1}</math> in <math>\mathbb Z_{2^{n+1}}</math>. Wir bilden

<math>u = \sum_{k=0}^{2^n-1}\alpha_k 2^{k(3n+2)}</math> und <math>v = \sum_{k=0}^{2^n-1}\beta_k 2^{k(3n+2)}</math>

und haben dabei <math>0 \leq u, v < 2^{2^n(3n+2)}</math>. Das Produkt <math>u\cdot v</math> enthält dann in disjunkten Stücken der Bitlänge <math>3n+2</math> die Summen

<math>\gamma_k = \sum_{r,s=0 \atop r+s=k}^{2^n-1}\alpha_r\cdot \beta_s</math>

mit <math>0\leq k < 2^{n+1}</math>. Für die gesuchten <math>c_k</math> unserer ursprünglichen Multiplikationsaufgabe <math>a\cdot b</math> sehen wir

<math>c_k = \gamma_k + \gamma_{k+2^n}\mod 2^{n+1}</math>.

Für die zu bestimmenden Reste <math>\eta_k = z_k \mod 2^{n+1}</math> erhalten wir

<math>\eta_k = \gamma_k - \gamma_{k+2^{n-1}} + \gamma_{k+2\cdot 2^{n-1}} - \gamma_{k+3\cdot 2^{n-1}}</math> in <math>\mathbb Z_{2^{n+1}}</math>.

Bestimmung der Reste modulo (D+1)

Mit <math>R = \mathbb Z_{D+1}</math> unterziehen wir wieder die Vektoren <math>(a_0,\ldots a_{2^n-1})</math> und <math>(b_0,\ldots b_{2^n-1})</math> mit <math>0 \leq a_k, b_k < \sqrt D</math> der DFT in <math>R^{2^n}</math>, wobei wir diesmal die Zahl <math>4</math> als <math>2^n</math>-te Einheitswurzel wählen. Da wir nur die Differenzen <math>c_k - c_{k+2^{n-1}}</math> benötigen, genügt hier wiederum die halbierte DFT:

DFT zur Bestimmung der <math>\hat a_k</math> und <math>\hat b_k</math> nur für die ungeraden <math>k</math> mit <math>0\leq k < 2^n</math>
<math>2^{n-1}</math> Multiplikationen <math>\hat c_k = \hat a_k\cdot \hat b_k</math> für alle ungeraden <math>k</math>
Inverse DFT zur Gewinnung aller Differenzen <math>c_k - c_{k+2^{n-1}}</math> aus den <math>\hat c_k</math> für ungerade <math>k</math>

Zusammenfassung

Startend mit <math>a</math> und <math>b</math> mit Ziffernlänge <math>n</math> wird durch die dargestellte Rekursion eine Komplexität von <math>O (n \cdot \log(n) \cdot \log (\log(n) ) )</math> erreicht.

Abgewandelte Form

Zimmermann und Brent beschreiben eine Variante des Algorithmus, bei der die Laufzeit (in Abhängigkeit von der Länge der Eingabe) keine Sprünge macht, sondern stetiger verläuft. Dies wird erreicht, indem die DFT-Vektoren nicht aus <math>2^n</math>-stelligen Binärzahlen, sondern Zahlen der passenden Länge gebildet werden. Dadurch muss die Länge der zu transformierenden Vektoren keine Zweierpotenz sein.<ref>loria.fr (PDF; 1,9 MB) S. 56</ref><ref>loria.fr (PDF)</ref>

Literatur

Arnold Schönhage: Asymptotically fast algorithms for the numerical multiplication and division of polynomials with complex coefficients. In: J. Calmet. (Hrsg.): EUROCAM ’82: European Computer Algebra Conference (Marseille, France, April 1982). Lect. Notes Comp. Sci. 144. Springer, 1982.
Donald E. Knuth: The Art of Computer Programming, Vol. 2: Seminumerical Algorithms. 3. Auflage. Addison-Wesley, 1998, ISBN 0-201-89684-2.
Chee Yap, Chen Li: QuickMul: Practical FFT-based Integer Multiplication, 2000. Vereinfachung des Schönhage-Strassen-Algorithmus für praktische Anwendungen.
Michael T. Goodrich, Roberto Tamassia: Algorithm Design Foundations, Analysis, and Internet Examples (PDF; 308 kB). Eine Einführung zur FFT mit einer Java-Implementierung des QuickMul-Algorithmus.
Daniel J. Bernstein: Multidigit multiplication for mathematicians. 11. August 2001 (yp.to – Zusammenfassung verschiedener Techniken zur Polynom- und Langzahlmultiplikation).

Weblinks

Weltrekord-Rechenmethode kommt zu späten Ehren. Universität Bonn, Presseinformation, 21. Dezember 2004

Einzelnachweise

Bedeutung

Algorithmus

Grundidee und Terminologie

Theoretische Vorbereitungen

Superschnelle DFT

Struktursatz über zyklische Arithmetik

Durchführung

Rekursionsschritt für ungerades m

Bestimmung der Reste modulo 2n+2

Bestimmung der Reste modulo (D+1)

Rekursionsschritt für gerades m

Bestimmung der Reste modulo 2n+1

Bestimmung der Reste modulo (D+1)

Zusammenfassung

Abgewandelte Form

Literatur

Weblinks

Einzelnachweise

Bestimmung der Reste modulo 2ⁿ⁺²

Bestimmung der Reste modulo 2ⁿ⁺¹