imported>Ulanwp: 3 fehlende Sprachparameter eingefügt; 2 Datumsparameter konvertiert

2026-03-05T06:55:52Z

3 fehlende Sprachparameter eingefügt; 2 Datumsparameter konvertiert

Neue Seite

Die '''Fused-multiply-add'''-Operation (FMA-Operation) ist eine Variante der [[Multiply-Accumulate]]-Operation (MAC) für [[Gleitkommazahl]]en und wird auf manchen [[Mikroprozessor]]en mit Gleitkommaeinheit für optimierte Berechnungen eingesetzt. Im Gegensatz zu der gewöhnlichen, im englischen auch als ''Unfused-multiply-add'' bezeichneten Operation führt die Fused-multiply-add-Operation die Berechnung mit voller Auflösung durch und rundet das Ergebnis erst am Ende der Berechnung.

Entwickelt wurde die Technologie bereits Ende der 1980er Jahre von [[IBM|IBM Research]],<ref>{{cite journal |first1=R. K. |last1=Montoye |first2=E. |last2=Hokenek |first3=S. L. |last3=Runyon |date=1990-01 |title=Design of the IBM RISC System/6000 floating-point execution unit |journal=IBM Journal of Research and Development |volume=34 |issue=1 |pages=59–70 |doi=10.1147/rd.341.0059 |issn=0018-8646 |url=http://domino.research.ibm.com/tchjr/journalindex.nsf/4ac37cf0bdc4dd6a85256547004d47e1/e3d1d5353695231c85256bfa0067fa31?OpenDocument |language=en}}</ref> fand zunächst jedoch nur geringe Verbreitung. Mit fortschreitender [[Integrationsdichte]] wurde eine einfache Implementierung der FMA-Technologie in [[Grafikprozessor|GPU]]s, [[Digitaler Signalprozessor|DSP]]s und CPUs möglich. Die FMA-Operation ist im Standard [[IEEE 754-2008]] festgelegt.

== Anwendung ==
In numerischen Algorithmen treten häufig Operationen der Form
:<math>\ a \leftarrow a + ( b \cdot c )</math>
auf. Dies ist unter anderem bei der Auswertung von [[Skalarprodukt|Skalarprodukten]], bei [[Matrix (Logik)|Matrix]]-Operationen und bei der [[Numerische Integration|numerischen Integration]] der Fall.

Bei der herkömmlichen Unfused-multiply-add-Operation mit N Stellen wird dabei zunächst das Produkt b·c berechnet, dieses auf N Stellen gerundet, danach die Addition von a ausgeführt und das Endergebnis nochmal auf N Stellen gerundet. Bei der fused-multiply-add-Operation entfällt das Runden nach der Multiplikation, es wird der Ausdruck a+b·c mit voller Genauigkeit berechnet und erst am Schluss einmalig auf N finale Stellen gerundet. Damit verbunden ist bei der Fused-multiply-add-Operation ein geringfügig höherer Hardwareaufwand.
In manchen Situationen reduzieren sich etwas die Rundungsfehler. Bei der klassischen Skalarprodukt-Berechnung ist dies allerdings nur sehr selten der Fall, da meist |a| >> |b·c| ist. Dort gewinnt man mit anderen Techniken weitaus mehr Genauigkeit (z. B. durch das Nutzen von 4 oder 8 Akkumulatoren und einer finalen horizontalen Summe).

Zur Auswertung werden ohne FMA mindestens drei verschiedene Anweisungen benötigt:
* Laden von 'b' und 'c' in Register (Bedingung: 'b' und 'c' liegen nicht schon in Registern vor und die CPU unterstützt keine Speicheroperanden)
* Multiplikation von 'b' und 'c'
* Zwischenspeichern dieses Ergebnisses in einem Register
* Laden von 'a' in den Akkumulator (Bedingung: 'a' liegt nicht schon in einem Register vor und die CPU unterstützt keine Speicheroperanden)
* Addition von 'a' mit dem zuvor zwischengespeicherten Produkt '(b·c)'.

Falls für Operationen der Form <math>\ a \leftarrow a + ( b \cdot c )</math> spezielle [[Opcode|Opcodes]] definiert sind, so erfolgt die Auswertung durch eine optimierte Recheneinheit, dem ''[[Multiply-Accumulate|Multiplier–Accumulator]]'' (MAC), der diese Anweisung in einem Schritt ausführt. Es verbleiben vom obigen Schema nur noch zwei Instruktionen, nämlich das Laden der Operanden und die anschließende FMA-Instruktion.

=== Vorteile ===
* gesteigerte Gleitkommaleistung durch Verwendung der MAC<ref>{{Literatur |Autor=Eric Charles Quinnell |Titel=Floating-Point Fused Multiply-Add Architectures |Verlag=The University of Texas |Ort=Austin |Datum=2007-05 |Online=[https://repositories.lib.utexas.edu/server/api/core/bitstreams/53381004-0641-4bdd-bdff-1fb3519b2124/content Online] |Format=PDF |KBytes=4343 |Abruf=2024-05-05 |Sprache=en}}</ref>
* verbesserte Ausnutzung von Registern, kompakter Maschinencode
* erhöhte Präzision gegenüber der Realisierung mit zwei Instruktionen

=== Nachteile ===
* die FMA-Technik muss durch [[Compiler]] unterstützt werden; der so erzeugte Maschinencode benötigt nun Opcodes, die von den üblichen 2-Adress- oder 3-Adress-Schemata abweichen. Die Optimierung zur Nutzung von FMA verlangt von Programmierern bisweilen einiges ''Fingergeschick'' und auch explizites Eingreifen.<ref>{{Internetquelle |autor=Christoph Peters |url=https://momentsingraphics.de/FMA.html |titel=fma: A faster, more accurate instruction |werk=Moments in Graphics |datum=2021-12-01 |sprache=en |abruf=2024-05-04}}</ref>

== Implementierungen ==
* AMD Radeon HD 5000 (und nachfolgende Architekturen)<ref>{{Internetquelle |autor=Michael Fried |url=https://www.microway.com/download/whitepaper/GPGPU_Architecture_and_Performance_Comparison_2010.pdf |titel=GPGPU Architecture And Performance Comparison of ATI and NVidia GPUs |werk=microway.com |datum=2010-06 |seiten=2 |format=PDF; 4,4 MB |sprache=en |abruf=2024-05-05}}</ref>
* ARM VFPv4<ref>{{Internetquelle |url=https://developer.arm.com/documentation/100302/0001/ada1426865487429 |titel=VFPv4 architecture hardware support |werk=Arm Developer |sprache=en |abruf=2024-05-05}}</ref>
* IBM RISC System/6000 (1990)<ref>{{Literatur |Autor=V. Arunachalam, Alex Noel Joseph Raj, Naveen Hampannavar, C.B. Bidul |Titel=Efficient dual-precision floating-point fused-multiply-add architecture |Sammelwerk=Microprocessors and Microsystems |Band=57 |Datum=2018-03 |Seiten=23–31, hier S. 23 |DOI=10.1016/j.micpro.2017.12.009 |Sprache=en}}</ref>
* [[Hewlett-Packard|HP]] [[PA-8000]] (1996) und später
* [[Sony Computer Entertainment|SCE]]-[[Toshiba]] [[Emotion Engine]] (1999)
* Intel [[Itanium]] (2001)
* Intel Core, siehe [[FMA x86]]
* nVidia GT200 (und nachfolgende Architekturen)<ref>{{Internetquelle |url=https://www.nvidia.com/content/PDF/fermi_white_papers/NVIDIA_Fermi_Compute_Architecture_Whitepaper.pdf |titel=NVIDIA’s Next Generation CUDATM Compute Architecture: Fermi |werk=nvidia.com |datum=2009 |seiten=8 |format=PDF; 856 kB |sprache=en |abruf=2024-05-05}}</ref>
* STI [[Cell (Prozessor)|Cell]] (2006)
* [[Fujitsu]] [[SPARC64 VI]] (2007) und später
* [[AMD FX|AMD ''Bulldozer'']] (2011), siehe auch [[FMA x86|FMA4]]
* [[Zen (Mikroarchitektur)|AMD Zen/Ryzen]] (2017)

== Einzelnachweise ==
<references />

[[Kategorie:Prozessorarchitektur nach Befehlssatz]]
[[Kategorie:Computerarithmetik]]

[[en:Multiply–accumulate operation#Fused multiply–add]]

Fused multiply-add - Versionsgeschichte

imported>Ulanwp: 3 fehlende Sprachparameter eingefügt; 2 Datumsparameter konvertiert