imported>Hoelzeli: Ein "das" zu viel

2024-12-04T16:22:19Z

Ein "das" zu viel

Neue Seite

{{lang|en|'''Multiply-Accumulate'''}} (kurz: ''MAC'') oder '''Multiply-Add''' (kurz: ''MAD'') ist eine Rechenoperation, bei der zwei Faktoren multipliziert und das Produkt zu einem fortlaufenden Summanden ([[Akkumulator (Computer)|Akkumulator]]) addiert wird:

:<math>\ a \leftarrow a + ( b \cdot c )</math>

Diese Operation wird intensiv bei der [[Digitale Signalverarbeitung|Verarbeitung digitaler Signale]] genutzt. Die Abkürzung MAC wird oft als Maßeinheit für die Leistungsfähigkeit solcher Systeme verwendet.

In [[FPGA]]s sowie [[Anwendungsspezifische integrierte Schaltung|ASICs]] wird diese Operation als Teil von DSP-Blöcken (Hardwareeinheiten) bereitgestellt;<ref name="MEYERBAESE">Uwe Meyer-Baese: ''Digital Signal Processing with Field Programmable Gate Arrays'', [[Springer Science+Business Media|Springer Verlag]], 2014. S. 124ff [[doi:10.1007/978-3-642-45309-0]]</ref> als [[Maschinenbefehl]] ist sie seit den 1980er Jahren in vielen [[Signalprozessor (Hardware)|Signalprozessoren]] wie auch seit Anfang der 2000er Jahre in konventionellen [[Hauptprozessor|CPUs]] zu finden. [[Fused multiply-add|Fused Multiply-Accumulate]] ist ein Multiply-Accumulate Befehl mit höherer Rechengenauigkeit.

Durch die Erweiterung des Hardware-Multiplizierers um den Akkumulator können Prozessoren die vollständige Operation oft genauso schnell wie eine klassische Multiplikation ausführen. Übliche Ausführungszeiten sind z. B. 2 Takte (40 ns) beim [[TMS320|TMS320C40]] von [[Texas Instruments]] mit 50 MHz Taktfrequenz und 5 Takte (2 ns) bei einem [[Intel-Haswell-Mikroarchitektur|Intel Haswell]] mit 2,5 GHz Taktfrequenz. FPGAs können die Operation bis zu einigen 100 MHz in einem Taktzyklus ausführen.

Multiply-Accumulate-Befehle werden u. a. für [[Digitales Filter|digitale Filter]] und andere schnelle Berechnungen in der digitalen [[Bildverarbeitung]], der Dekodierung von Videos und der [[Regelungstechnik]] eingesetzt. Die Akkumulation entspricht dabei der oft benötigten [[Integration (Mathematik)|Integration]], die Multiplikation berücksichtigt ein [[Differential (Mathematik)|Differential]] oder bewirkt eine [[Gewichtung]].

Die Argumente und das Ergebnis dieser Operation können je nach Prozessortyp und gewähltem Datentyp
* [[Integer (Datentyp)|Integer]]-Zahlen ([[Motorola 56001|Motorola DSP56K]]),
* [[Festkommazahl|Festkomma]]-Zahlen (kein Typ bekannt),
* einfach genaue [[Gleitkommazahl|Gleitkomma]]-Zahlen (TI TMS320C30/40, [[Altivec]], Intel Haswell) oder
* doppelt genaue [[Gleitkommazahl|Gleitkomma]]-Zahlen (Intel Haswell) sein
* 42 Bit Integer (FPGAs)

== Genauigkeit ==
{{Hauptartikel|Fused multiply-add}}
Bei der MAC-Operation kann eine Verbesserung der Genauigkeit im finalen Ergebnis erzielt werden, indem die notwendige Rundung erst am Ende der MAC-Operation ausgeführt wird und die Zwischenergebnisse intern mit voller Auflösung ohne Rundungen durchgeführt werden. Diese Operation wird auch als {{EnS|''Fused Multiply Accumulate''}}, abgekürzt FMA oder FMAC, bezeichnet. Die FMAC-Operation bedingt, im Gegensatz zur MAC-Operation, breitere Datenpfade und damit verbunden einen erhöhten Hardwareaufwand.<ref name="quinnell"/>

== Geschwindigkeit ==
Der Geschwindigkeitszuwachs kann bis zu 100 % betragen. So dauert in vielen DSPs der Multiply-Accumulate-Befehl genauso lange wie eine einzelne Addition oder eine einzelne Multiplikation (Beispiel: Texas Instruments TMS320C40). Der Geschwindigkeitszuwachs beim Intel Haswell ist geringer. Ein Multiply-Accumulate-Befehl dauert 5 Takte, eine einzelne Multiplikation 5 Takte und eine einzelne Addition 3 Takte, was zusammen 8 Takte ergibt und bei optimalem Einsatz ein Gewinn von 60 % bringt.

Auf der anderen Seite ist der Multiply-Accumulate-Befehl häufig der kritischste Befehl (kritischer Pfad) und begrenzt die Taktfrequenz nach oben. Ein weiteres Problem ist, dass man es in der Praxis sehr häufig mit Operationen zu tun hat, die die Form

:<math>\ z \leftarrow a + ( b \cdot c ) \cdot s</math>    mit    <math>s = \pm 0{,}5,\,\, \pm 1,\,\, \pm 2</math>.

benötigen würden.
* Es wird häufig keine Addition, sondern eine Subtraktion des Produkts benötigt (Aufwand: Ein [[Exklusiv-Oder-Gatter]] für das Vorzeichen von <math>b</math> oder <math>c</math>).
* Genauso häufig sind Skalierungen mit den Faktoren 0,5 oder 2 notwendig (Aufwand: Inkrement oder Dekrement für den Exponenten von <math>b</math> oder <math>c</math>).
* Es wird eine 4-Operanden-Form benötigt, da <math>a</math> nicht zerstört werden darf.

Im ersten Fall ist die MAC-Anweisung häufig nicht verwendbar, obwohl sie ein Exklusiv-Oder-Gatter von der benötigten Lösung entfernt ist. Im zweiten Fall bringt der MAC-Befehl einen deutlichen Nutzen, leider verbleibt eine Trivialoperation. Der dritte Fall wurde von AMD mit [[FMA x86#CPUs mit FMA4|FMA4]] adressiert, weiterhin lässt er sich durch [[Registerumbenennung]] heutiger CPUs meist verstecken.

Beispiele:
* Approximation des Kehrwertes von a mit dem [[Newton-Raphson-Verfahren]]: <math>x' = x \cdot (\underline{2 - a \cdot x})</math>
* Approximation der reziproken Wurzel von a mit dem [[Newton-Raphson-Verfahren]]: <math>x' = x \cdot (\underline{1{,}5 - 0{,}5 \cdot a \cdot (x^2)})</math>
* Komplexwerte Multiplikation: <math>r = \underline{(r_1 r_2) - i_1 i_2},\,\, i = r_1 i_2 + r_2 i_1</math>
* Iteration der [[Julia-Menge]]: <math>r_{n+1} = r_n^2 \underline{- i_n^2 + r_0},\,\, i_{n+1} = \underline{2 r_n i_n + i_0}</math>
* Approximation von Funktionen mittels Reihenentwicklung bis zum quadratischen Term

== Einzelnachweise ==
<references>
<ref name="quinnell">{{Internetquelle | url= https://repositories.lib.utexas.edu/bitstream/handle/2152/3082/quinnelle60861.pdf | titel= Floating-Point Fused Multiply–Add Architectures | autor= Eric Quinnell | hrsg= | datum= 2007 | zugriff=2013-07-25 | format= PDF; 4,4 MB}}</ref>
</references>

[[Kategorie:Digitale Schaltungstechnik]]
[[Kategorie:Computerarithmetik]]

Multiply-Accumulate - Versionsgeschichte

imported>Hoelzeli: Ein "das" zu viel