imported>Crazy1880: linkfix

2025-03-11T08:08:53Z

linkfix

Neue Seite

{{Belege fehlen}}
'''FMA x86''' ist eine [[Befehlssatz]]erweiterung für [[Mikroprozessor]]en von [[Intel]] und [[AMD]] zur Unterstützung der [[Fused multiply-add|Fused-Multiply-Add]]-Technik (FMA). Von AMD erfolgte hierzu erstmals eine Umsetzung in den [[AMD Bulldozer|„Bulldozer“-CPUs]]. Intel setzte dies erst in den [[Intel-Haswell-Mikroarchitektur|Haswell]]-Prozessoren ein.

Es gibt zwei nicht miteinander kompatible Ausführungen, FMA4 und FMA3:
* '''FMA4''' ist die vollwertige Version, die eine Operation der Form <math>d=a+b\cdot c</math> erlaubt;
* '''FMA3''' erfordert dagegen, dass das Zielregister eines der Operandenregister ist, und dieser dadurch überschrieben wird.

== Neue Eigenschaften ==
FMA erweitert die Möglichkeiten zu Vektoroperationen und kann als Erweiterung der [[AVX]]-Befehle gesehen werden.

== Neue Instruktionen ==

=== CPUs mit FMA4 ===
* Intel hat FMA4 nicht implementiert.
* AMD hatte FMA4 implementiert:
** [[AMD Bulldozer|Bulldozer]]-basierte Prozessoren (AMD FX), Q4/2011
** Piledriver-basierte Prozessoren (AMD FX, Trinity und Richland APUs), Q2/2012
** Steamroller-basierte Prozessoren (4. Generation [[AMD Fusion|A-Serie-Prozessoren]], Kaveri-APUs) Q1/2014
** [[Zen (Mikroarchitektur)|Zen]]-Prozessoren (Q1/2017) haben zwar eine funktionierende Implementierung von FMA4, allerdings wird in der [[CPUID]] nicht angezeigt, dass die Instruktion zur Verfügung steht.<ref>{{Internetquelle |autor=btarunr |url=https://www.techpowerup.com/248560/amd-zen-does-support-fma4-just-not-exposed |titel=AMD „Zen“ Does Support FMA4, Just Not Exposed |werk=TechPowerUp |datum=2018-10-15 |sprache=en |abruf=2025-03-10}}</ref> Die Implementierung vom FMA4 bei Zen ist demnach inoffiziell und ab der [[Zen 2|Zen2]]-Mikroarchitektur (Q3/2019) schließlich nicht mehr vorhanden

{| class="wikitable"
|-
! Mnemonic
! Operanden
! Operation
|-
|VFMADDPDx
|xmm, xmm, xmm/m128, xmm/m128
|rowspan="6"| a = b∙c + d
|-
|VFMADDPDy
|ymm, ymm, ymm/m256, ymm/m256
|-
|VFMADDPSx
|xmm, xmm, xmm/m128, xmm/m128
|-
|VFMADDPSy
|ymm, ymm, ymm/m256, ymm/m256
|-
|VFMADDSD
|xmm, xmm, xmm/m64, xmm/m64
|-
|VFMADDSS
|xmm, xmm, xmm/m32, xmm/m32
|}

=== CPUs mit FMA3 ===
* Intel
** Alle Intel-Core-i-Prozessoren ab der [[Intel-Haswell-Mikroarchitektur|Haswell]]-Mikroarchitektur (4. Generation Core i-Prozessoren)
* AMD
** [[AMD Bulldozer#Piledriver|Piledriver]]-basierte Prozessoren (2. Generation [[AMD FX|FX]] CPUs, [[AMD Fusion#Trinity|Trinity]] und Richland APUs), Q2/2012
** [[AMD Steamroller|Steamroller]]-basierte Prozessoren (4. Generation [[AMD Fusion|A-Serie-Prozessoren]], Kaveri-APUs) Q1/2014
** Alle Ryzen- und Epyc-Prozessoren (ab der 1. [[Zen (Mikroarchitektur)|Zen]]-Microarchitektur) Q1/2017

{| class="wikitable"
|-
! Mnemonic
! Operanden
! Operation
|-
|VFMADD132PDy
|rowspan="2"|ymm, ymm, ymm/m256
|rowspan="6"|a = a∙c + b
|-
|VFMADD132PSy
|-
|VFMADD132PDx
|rowspan="2"|xmm, xmm, xmm/m128
|-
|VFMADD132PSx
|-
|VFMADD132SD
|xmm, xmm, xmm/m64
|-
|VFMADD132SS
|xmm, xmm, xmm/m32
|-
|VFMADD213PDy
|rowspan="2"|ymm, ymm, ymm/m256
|rowspan="6"|a = b∙a + c
|-
|VFMADD213PSy
|-
|VFMADD213PDx
|rowspan="2"|xmm, xmm, xmm/m128
|-
|VFMADD213PSx
|-
|VFMADD213SD
|xmm, xmm, xmm/m64
|-
|VFMADD213SS
|xmm, xmm, xmm/m32
|-
|VFMADD231PDy
|rowspan="2"|ymm, ymm, ymm/m256
|rowspan="6"|a = b∙c + a
|-
|VFMADD231PSy
|-
|VFMADD231PDx
|rowspan="2"|xmm, xmm, xmm/m128
|-
|VFMADD231PSx
|-
|VFMADD231SD
|xmm, xmm, xmm/m64
|-
|VFMADD231SS
|xmm, xmm, xmm/m32
|}

== Anwendung ==
* Nützlich für gleitkommaintensive Berechnung, vor allem im Multimedia-, wissenschaftlichen oder Finanzberechnungen. Ganzzahloperationen sollen später folgen.
* Erhöht Parallelität und Durchsatz von Gleitkomma-SIMD-Berechnungen
* Verringert die Registerlast durch nicht destruktive Vier-Operanden-Form (im Fall von FMA4)
* Erhöht die Präzision gegenüber der Realisierung als zwei verkettete Multiplikations- und Additionsvorgänge. So kann es dazu kommen, dass wenn der Compiler automatisch eine Verkettung von Multiplikation und Addition durch eine FMA-Operation realisiert, dass man ein anderes, nämlich präziseres, Rechenergebnis bekommt.



== Einzelnachweise ==
<references />

{{Navigationsleiste x86-Erweiterungen}}

{{SORTIERUNG:Fma Instruction Set}}
[[Kategorie:Prozessorarchitektur nach Befehlssatz]]

FMA x86 - Versionsgeschichte

imported>Crazy1880: linkfix