imported>Fan-vom-Wiki: /* Erweiterung AVX-512 */ Leerzeichen entfernt

2026-02-17T04:23:52Z

Erweiterung AVX-512: Leerzeichen entfernt

Neue Seite

'''Advanced Vector Extensions''' ('''AVX''') ist eine Erweiterung des [[Befehlssatz]]es für [[Mikroprozessor]]en der [[x86-Architektur]], die von [[Intel]] im März 2008 vorgeschlagen wurde.<ref>{{Internetquelle |autor=Thomas Hübner |url=https://www.computerbase.de/2008-03/sse-nachfolger-heisst-avx-und-ist-256-bit-breit/ |titel=SSE-Nachfolger heißt AVX und ist 256 Bit breit |hrsg=ComputerBase |datum=2008-03-17 |zugriff=2018-03-29}}</ref>
AVX ist eine Erweiterung der älteren [[SIMD]]-Befehlssatzerweiterung [[Streaming SIMD Extensions 4]], die ebenfalls von Intel initiiert wurde. Die Breite der Register und Datenwörter erhöht sich auf 256 Bit.
Die folgende Tabelle zeigt die Weiterentwicklung der SIMD-Instruktionen in der x86-Architektur:

{| class="wikitable"
|-
! rowspan="2" | Name der Erweiterung !! rowspan="2" | Daten- breite !! rowspan="2" | Registeranzahl !! rowspan="2" | Adressierungs- schema !! colspan="2" | vorhanden in CPUs von
|-
! Intel !! AMD
|-
| [[Multi Media Extension|MMX]] / [[3DNow|3DNow!]] || {{0}}{{0}}64 || style="text-align:right;" | {{0}}8 {{0|X}}(MM0…{{0}}7) || || MMX ab [[Intel Pentium|Pentium]] (P55C) || [[AMD K6|K6]] (MMX) / [[AMD K6-2|K6-2]] „Chomper“ (3DNow!)
|-
| [[Streaming SIMD Extensions|SSE]] (1…4.*) || {{0}}128 || style="text-align:right;" | 8/16 (XMM0…15) || style="text-align:center;" | REX || SSE4: [[Intel Core 2|Core 2]], [[Intel-Nehalem-Mikroarchitektur|Nehalem]] || [[AMD K7|K7]] „Palomino“, [[AMD K8|K8]], K8 „Venice“
|-
| AVX || rowspan="2" | {{0}}256 || rowspan="2" align="right" | 16 (YMM0…15) || align="center" rowspan="2" | VEX || [[Intel-Sandy-Bridge-Mikroarchitektur|Sandy Bridge]], [[Intel-Ivy-Bridge-Mikroarchitektur|Ivy Bridge]] || [[AMD Bulldozer|Bulldozer]], [[AMD Bulldozer#Piledriver|Piledriver]], [[AMD Steamroller|Steamroller]], [[AMD Fusion#Jaguar|Jaguar]]
|-
| AVX2 || [[Intel-Haswell-Mikroarchitektur|Haswell]], [[Intel-Broadwell-Mikroarchitektur|Broadwell]], [[Intel-Skylake-Mikroarchitektur|Skylake-i]], [[Intel-Kaby-Lake-Mikroarchitektur|Kaby Lake-i]] || [[AMD Steamroller#Excavator|Excavator]], [[Zen (Mikroarchitektur)|Zen]], [[Zen 2]], [[Zen 3]]
|-
|rowspan="2"| AVX-512 || {{0}}512 || align="right" rowspan="2" | 32 (ZMM0…31) || align="center" rowspan="2" | EVEX || [[Intel-Skylake-Mikroarchitektur|Skylake-X]], [[Intel Xeon Phi|Xeon Phi x200]], [[Intel Xeon (Skylake)|Xeon Skylake-Scalable Processors]], [[Intel-Tiger-Lake-Mikroarchitektur|Tiger Lake]] ||
|-
| {{0}}256/512 || || [[Zen 4]], [[Zen 5]]
|-
| AVX10.1 || {{0}}256/512 || style="text-align:right;" | 32 (ZMM0…31) || style="text-align:center;" | EVEX / REX2 || [[Granite Rapids]]||
|-
| AVX10.2 || {{0}}512 || style="text-align:right;" | 32 (ZMM0…31) || style="text-align:center;" | EVEX / REX2 || [[Diamond Rapids]]||
|}

'''AVX2''' erweitert den Befehlssatz von AVX um weitere 256-Bit-Befehle und wurde erstmals von Prozessoren der [[Intel-Haswell-Mikroarchitektur|Haswell]]-Architektur (Intel) und [[AMD Excavator|Excavator]]-Architektur (AMD) unterstützt.

'''AVX-512''' wurde 2013 veröffentlicht und erweiterte die AVX-Befehle von 256 auf 512 Bit.<ref name="reinders512">{{cite web |author=James Reinders |title=AVX-512 Instructions |language=en |date=2013-07-23 |publisher=[[Intel]] |url=https://www.intel.com/content/www/us/en/developer/articles/technical/intel-avx-512-instructions.html |accessdate=2022-12-15}}</ref> Es wurde erstmals von Prozessoren der [[Intel-Knights Landing-Mikroarchitektur|Knights-Landing]]-Architektur (Intel) unterstützt.

'''AVX10''' wurde 2023 veröffentlicht und soll die konvergenten Umsetzung von AVX-512 ermöglichen. Es werden alle AVX-512 Befehle unterstützt und eine Versionsbasierte Befehlssatzaufzählung eingeführt.<ref>{{Internetquelle |url=https://cdrdv2.intel.com/v1/dl/getContent/784267 |titel=Architecture Specification for Intel® Advanced Vector Extensions 10 (Intel® AVX10) |hrsg=Intel |abruf=23.05.2025}}</ref> In einer früheren Version der Spezifikation wurde für AVX10.2 auch eine 256-bit Implementierung vorgesehen, ab Version 3 wurde diese entfernt, so dass eine 512-Bit-Implementierung nun verpflichtend ist.<ref>{{Internetquelle |url=https://www.phoronix.com/news/Intel-AVX10-Drops-256-Bit |titel=Intel AVX10 Drops Optional 512-bit: No AVX10 256-bit Only E-Cores In The Future |sprache=en |abruf=2025-05-23}}</ref>

== Neue Eigenschaften ==
[[Datei:AVX registers.svg|mini|YMM AVX-Registerschema als Erweiterung der XMM-SSE-Register]]

Die Breite der [[SIMD]]-Register wurde von 128 Bit (bei [[Streaming SIMD Extensions|SSE]]) auf 256 Bit vergrößert. Die neuen notwendigen [[Register (Prozessor)|Register]] heißen YMM0 bis YMM15. Die Prozessoren, die AVX unterstützen, führen die älteren SSE-Befehle auf den unteren 128 Bit der neuen Register aus, d. h. die unteren 128 Bit der YMM-Register
werden mit den XMM-Registern geteilt.

AVX führt ein Drei-Operanden-SIMD-Befehlsformat ''c'' := ''a'' + ''b'' ein, das Ergebnis zerstört damit nicht mehr notwendigerweise ein Quellregister, was Kopieroperationen einspart. SSE-Befehle nutzen die Zwei-Operanden-Form ''a'' := ''a'' + ''b''. Das Drei-Operanden-Format kann nur mit [[SIMD]]-Operanden (YMM) verwendet werden und nicht mit Allzweckregistern, wie z. B. EAX oder RAX.

== Anwendung ==
* Nützlich für gleitkommaintensive Berechnung, vor allem im Multimedia-, wissenschaftlichen oder Finanzbereich. Ganzzahloperationen folgten 2013.
* Erhöht Parallelität und Durchsatz von Gleitkomma- und Ganzzahl-SIMD-Berechnungen.
* Verringert die Registerlast durch nicht destruktive Drei-Operanden-Form.
* Wird auch zur Beschleunigung kryptographischer Algorithmen benutzt.

== Unterstützung in Compilern und Assemblern ==
[[GNU Compiler Collection|GCC]] ab Version 4.6, die Intel Compiler Suite ab Version 11.1 und [[Visual Studio 2010]] unterstützen AVX.
Der [[GNU Assembler]] unterstützt AVX über Inline-Assemblerbefehle, ebenso wie Intels Pendant. Außerdem unterstützen [[Microsoft Macro Assembler|MASM]] in der Version für Visual Studio 2010, [[Yasm]] ab Version 1.1.0, [[Flat assembler|FASM]] und [[Netwide Assembler|NASM]] nach eigenen Angaben auch AVX. Im x86-Codegenerator des Compiler-Unterbaus [[LLVM]] befindet sich eine vollständige AVX 1-Unterstützung ab Version 3.0.

== Betriebssystemunterstützung ==
AVX braucht explizite Unterstützung durch das [[Betriebssystem]], damit die neuen Register bei einem [[Kontextwechsel]] korrekt gespeichert und wiederhergestellt werden. Die folgenden Betriebssystemversionen unterstützen AVX:
;[[DragonFly BSD]]
:Anfang 2013<ref>{{cite web | url=https://lists.dragonflybsd.org/pipermail/commits/2013-January/032386.html | title=x86_64 – support for AVX instructions | accessdate=2013-11-20|language=en}}</ref>
;[[FreeBSD]]
:9.1 vom 13. November 2013<ref>{{cite web |url= https://www.freebsd.org/releases/9.1R/announce.html |title= FreeBSD 9.1-RELEASE Announcement |url-status= live |accessdate= 2013-05-20 |archiveurl= https://web.archive.org/web/20130515114639/http://www.freebsd.org/releases/9.1R/announce.html |archivedate= 2013-05-15 |language=en}}</ref> durch einen am 21. Januar 2012 eingereichten Patch<ref>{{cite web |url= https://svnweb.freebsd.org/base?view=revision&revision=230426 |title= Add support for the extended FPU states on amd64, both for native 64bit and 32bit ABIs |publisher= svnweb.freebsd.org |date= 2012-01-21 |accessdate= 2012-01-22|language=en}}</ref>
;[[Linux]]
:ab [[Linux (Kernel)|Kernel]] 2.6.30<ref>{{cite web | url=https://git.kernel.org/linus/a30469e7921a6dd2067e9e836d7787cfa0105627 | title=x86: add linux kernel support for YMM state | accessdate=2009-07-13|language=en}}</ref> vom 9. Juni 2009<ref>{{cite web | url=https://kernelnewbies.org/Linux_2_6_30 | title=Linux 2.6.30 – Linux Kernel Newbies | accessdate=2009-07-13|language=en}}</ref>
;[[macOS]]
:ab 10.6.8 (letztes [[Mac OS X Snow Leopard|Snow Leopard]] Update)<ref>{{cite web | url=https://twitter.com/#!/comex/status/85401002349576192 | title=Twitter | accessdate=2010-06-23|language=en}}</ref> vom 23. Juni 2011
;[[OpenBSD]]
:5.8 vom 18. Oktober 2015<ref>{{Internetquelle| url=https://www.openbsd.org/58.html| titel=OpenBSD 5.8| zugriff=2015-12-07| autor=Theo de Raadt|sprache=en}}</ref>
;[[Solaris (Betriebssystem)|Solaris]]
:10 Update 10 und Solaris 11
;[[Microsoft Windows|Windows]]
:ab [[Microsoft Windows 7|Windows 7]] SP1 und [[Microsoft Windows Server 2008 R2|Windows Server 2008 R2]] SP1 vom 22. Februar 2011<ref>{{cite web | url=https://msdn.microsoft.com/en-us/library/ff545910.aspx | title=Floating-Point Support for 64-Bit Drivers | accessdate=2009-12-06|language=en}}</ref>

== CPUs mit AVX ==
;[[Intel]]:
* [[Intel-Sandy-Bridge-Mikroarchitektur|Sandy-Bridge]]-Prozessoren, Q1 2011<ref>{{cite web | url=http://www.extremetech.com/computing/80772-intel-offers-peek-at-nehalem-and-larrabee | title=Intel Offers Peek at Nehalem and Larrabee | date=2008-03-17 | publisher=ExtremeTech| accessdate=2011-08-20|language=en}}</ref>
* [[Intel-Ivy-Bridge-Mikroarchitektur|Ivy-Bridge]]-Prozessoren, Q2 2012
* [[Intel-Haswell-Mikroarchitektur|Haswell]]-Prozessoren, Q2 2013
* [[Intel-Broadwell-Mikroarchitektur|Broadwell]]-Prozessoren, Q1 2015
* [[Intel-Skylake-Mikroarchitektur|Skylake]]-Prozessoren, Q3 2015
* [[Intel-Kaby-Lake-Mikroarchitektur|Kaby-Lake]]-Prozessoren, Q3 2016
* [[Intel-Coffee-Lake-Mikroarchitektur|Coffee-Lake]]-Prozessoren Q4 2017

;[[AMD]]:
* [[AMD Bulldozer|Bulldozer]]-Prozessoren, Q4 2011<ref>{{cite web | url=https://www.computerbase.de/2011-09/neue-alte-amd-roadmap-fuer-bulldozer-und-llano/ | title=Bulldozer Roadmap | date=2009-05-07 | publisher=Joe Doe, AMD Developer blogs | accessdate=2011-09-08}}</ref>
* [[AMD Bulldozer#Piledriver|Piledriver]]-Prozessoren, Q4 2012
* [[AMD Fusion#Jaguar|Jaguar]]-Prozessoren Q2 2013
* [[AMD Steamroller|Steamroller]]-Prozessoren, Q1 2014
* [[AMD Excavator|Excavator]]<ref>{{Internetquelle|url=http://www.planet3dnow.de/cms/18564-amd-piledriver-vs-steamroller-vs-excavator-leistungsvergleich-der-architekturen/subpage-architekturvergleich-how-to/|titel=AMD Piledriver vs. Steamroller vs. Excavator – Leistungsvergleich der Architekturen|werk=Planet 3DNow!|datum=2015-08-14|zugriff=2017-02-20|archiv-url=https://web.archive.org/web/20170221010315/http://www.planet3dnow.de/cms/18564-amd-piledriver-vs-steamroller-vs-excavator-leistungsvergleich-der-architekturen/subpage-architekturvergleich-how-to/|archiv-datum=2017-02-21|offline=ja }}</ref>-Prozessoren, Q2 2015
* [[Zen (Mikroarchitektur)|Zen]]-Prozessoren, Q1 2017
* [[Zen 2|Zen-2]]-Prozessoren, Q3 2019
* [[Zen 3|Zen-3]]-Prozessoren, Q4 2020
* [[Zen 4|Zen-4]]-Prozessoren, Q4 2022
* [[Zen 5|Zen-5]]-Prozessoren, Q3 2024

== CPUs mit AVX-512 ==
;Intel
* [[Intel-Cascade-Lake-Mikroarchitektur|Cascade Lake]]
* [[Intel-Ice-Lake-Mikroarchitektur|Ice Lake]]: Jeder P-Kern (''Performance-Kern'') hat nur zwei AVX2-Einheiten, die für AVX512 zu einer AVX512-Einheit zusammengeschaltet werden, sodass sich gegenüber AVX2, abgesehen von den erweiterten Instruktionen, keine Leistungssteigerung erzielen lässt. Die E-Kerne (''Effizienz-Kerne'') verfügen über keine AVX512-Einheit.<ref>https://cdrdv2-public.intel.com/671488/248966-Software-Optimization-Manual-R047.pdf</ref>
* [[Intel-Tiger-Lake-Mikroarchitektur|Tiger Lake]]: Jeder P-Kern hat nur zwei AVX2-Einheiten, die für AVX512 zu einer AVX512-Einheit zusammengeschaltet werden, sodass sich gegenüber AVX2, abgesehen von den erweiterten Instruktionen, keine Leistungssteigerung erzielen lässt. Die E-Kerne verfügen über keine AVX512-Einheit.<ref>https://cdrdv2-public.intel.com/671488/248966-Software-Optimization-Manual-R047.pdf</ref>
* [[Intel-Alder-Lake-Mikroarchitektur|Alder Lake]]: Nur in frühen CPU-Steppings nutzbar, AVX512 nicht offiziell unterstützt, ausschließlich in den P-Kernen implementiert. Zuerst von Intel über BIOS und Microcode-Updates deaktiviert, in späteren Steppings komplett in Hardware deaktiviert.

;AMD
* [[Zen 4]]
** [[Zen 4#Ryzen 7000 „Raphael“|Ryzen 7000 „Raphael“]]<ref>[https://www.tomshardware.com/news/amd-ryzen-7000-zen4-avx512 AMD Ryzen 7000: Up to 16 Cores, AVX-512 Support at Launch] auf ''tomshardware.com'' vom 27. Mai 2022.</ref>
** [[Zen 4#EPYC 9004 „Genoa“ & „Genoa-X“|EPYC 9004 „Genoa“]]<ref>[https://www.heise.de/news/AMD-Zen-4-Epyc-Prozessoren-mit-96-CPU-Kernen-und-AVX-512-6167618.html AMD Zen 4: Epyc-Prozessoren mit 96 CPU-Kernen und AVX-512] auf ''heise.de'' vom 17. August 2021.</ref>
* [[Zen 5]]
** [[Zen 5#Ryzen 9000 „Granite Ridge“|Ryzen 9000 „Granite Ridge“]]

== Neue Instruktionen AVX ==
{| class="wikitable floatright" style="margin-left: 1rem; text-align: center; line-height: normal"
|+ style="margin-bottom: 0.2em; font-size: small;" | Registerschema von AVX-512 als Erweiterung der AVX- (YMM0-YMM15) und SSE-Register (XMM0-XMM15)
|- style="font-size: xx-small;"
| style="width: 50%; border: none; " | 511 256
| style="width: 25%; border: none; " | 255 128
| style="width: 25%; border: none; " | 127 0
|-
| style="border-top: none" |
| style="border-top: none" |
| style="border-top: none" |
|-
| style="padding: 0" |   ZMM0 
| style="padding: 0; background: #ddd" |   YMM0 
| style="padding: 0; background: #ccc" |   XMM0 
|-
| style="padding: 0" | ZMM1
| style="padding: 0; background: #ddd" | YMM1
| style="padding: 0; background: #ccc" | XMM1
|-
| style="padding: 0" | ZMM2
| style="padding: 0; background: #ddd" | YMM2
| style="padding: 0; background: #ccc" | XMM2
|-
| style="padding: 0" | ZMM3
| style="padding: 0; background: #ddd" | YMM3
| style="padding: 0; background: #ccc" | XMM3
|-
| style="padding: 0" | ZMM4
| style="padding: 0; background: #ddd" | YMM4
| style="padding: 0; background: #ccc" | XMM4
|-
| style="padding: 0" | ZMM5
| style="padding: 0; background: #ddd" | YMM5
| style="padding: 0; background: #ccc" | XMM5
|-
| style="padding: 0" | ZMM6
| style="padding: 0; background: #ddd" | YMM6
| style="padding: 0; background: #ccc" | XMM6
|-
| style="padding: 0" | ZMM7
| style="padding: 0; background: #ddd" | YMM7
| style="padding: 0; background: #ccc" | XMM7
|-
| style="padding: 0" | ZMM8
| style="padding: 0; background: #ddd" | YMM8
| style="padding: 0; background: #ccc" | XMM8
|-
| style="padding: 0" | ZMM9
| style="padding: 0; background: #ddd" | YMM9
| style="padding: 0; background: #ccc" | XMM9
|-
| style="padding: 0" | ZMM10
| style="padding: 0; background: #ddd" | YMM10
| style="padding: 0; background: #ccc" | XMM10
|-
| style="padding: 0" | ZMM11
| style="padding: 0; background: #ddd" | YMM11
| style="padding: 0; background: #ccc" | XMM11
|-
| style="padding: 0" | ZMM12
| style="padding: 0; background: #ddd" | YMM12
| style="padding: 0; background: #ccc" | XMM12
|-
| style="padding: 0" | ZMM13
| style="padding: 0; background: #ddd" | YMM13
| style="padding: 0; background: #ccc" | XMM13
|-
| style="padding: 0" | ZMM14
| style="padding: 0; background: #ddd" | YMM14
| style="padding: 0; background: #ccc" | XMM14
|-
| style="padding: 0" | ZMM15
| style="padding: 0; background: #ddd" | YMM15
| style="padding: 0; background: #ccc" | XMM15
|-
| style="padding: 0" | ZMM16
| style="padding: 0" | YMM16
| style="padding: 0" | XMM16
|-
| style="padding: 0" | ZMM17
| style="padding: 0" | YMM17
| style="padding: 0" | XMM17
|-
| style="padding: 0" | ZMM18
| style="padding: 0" | YMM18
| style="padding: 0" | XMM18
|-
| style="padding: 0" | ZMM19
| style="padding: 0" | YMM19
| style="padding: 0" | XMM19
|-
| style="padding: 0" | ZMM20
| style="padding: 0" | YMM20
| style="padding: 0" | XMM20
|-
| style="padding: 0" | ZMM21
| style="padding: 0" | YMM21
| style="padding: 0" | XMM21
|-
| style="padding: 0" | ZMM22
| style="padding: 0" | YMM22
| style="padding: 0" | XMM22
|-
| style="padding: 0" | ZMM23
| style="padding: 0" | YMM23
| style="padding: 0" | XMM23
|-
| style="padding: 0" | ZMM24
| style="padding: 0" | YMM24
| style="padding: 0" | XMM24
|-
| style="padding: 0" | ZMM25
| style="padding: 0" | YMM25
| style="padding: 0" | XMM25
|-
| style="padding: 0" | ZMM26
| style="padding: 0" | YMM26
| style="padding: 0" | XMM26
|-
| style="padding: 0" | ZMM27
| style="padding: 0" | YMM27
| style="padding: 0" | XMM27
|-
| style="padding: 0" | ZMM28
| style="padding: 0" | YMM28
| style="padding: 0" | XMM28
|-
| style="padding: 0" | ZMM29
| style="padding: 0" | YMM29
| style="padding: 0" | XMM29
|-
| style="padding: 0" | ZMM30
| style="padding: 0" | YMM30
| style="padding: 0" | XMM30
|-
| style="padding: 0" | ZMM31
| style="padding: 0" | YMM31
| style="padding: 0" | XMM31
|}
{| class="wikitable"
|-
! Instruktion
! Beschreibung
|-
| VBROADCASTSS VBROADCASTSD VBROADCASTF128
| Kopiert einen 32-Bit-, 64-Bit- oder 128-Bit-Speicheroperanden in alle Elemente eines XMM- oder YMM-Registers.
|-
| VINSERTF128
| Ersetzt entweder die obere oder untere Hälfte eines 256-Bit-YMM-Register mit dem Wert aus dem 128-Bit-Operanden. Die andere Hälfte bleibt unverändert.
|-
| VEXTRACTF128
| Extrahiert entweder die obere oder untere Hälfte eines 256-Bit-YMM-Registers und kopiert den Wert in den 128-Bit-Operanden.
|-
| VMASKMOVPS VMASKMOVPD
| Liest eine beliebige Anzahl von Vektorelementen bedingt aus einem SIMD-Speicheroperand in ein Zielregister, wobei der verbleibende Platz mit Nullen gefüllt wird. Alternativ schreibt es eine beliebige Anzahl von Vektorelementen bedingt von einem SIMD-Register in ein SIMD-Speicheroperanden, wobei der verbleibende Platz im Speicher nicht verändert wird.
|-
| VPERMILPS VPERMILPD
| Tauscht 32-Bit- oder 64-Bit-Vektorelemente aus.
|-
| VPERM2F128
| Mischt die vier 128-Bit-Vektorelemente aus zwei 256-Bit-Ursprungsoperanden in ein 256-Bit-Zieloperanden.
|-
| VTESTPS, VTESTPD
| Setzt die Flag-Bits CF und ZF entsprechend einem Vergleich aller Vorzeichenbits.
|-
| VZEROALL
| Füllt alle YMM-Register mit Nullen und markiert sie als unbenutzt. Wird beim Umschalten zwischen 128-Bit- und 256-Bit-Modus verwendet.
|-
| VZEROUPPER
| Füllt die obere Hälfte aller YMM-Register mit Nullen. Wird beim Umschalten zwischen 128-Bit- und 256-Bit-Modus verwendet.
|}

== Erweiterung AVX 2 ==
Eine Erweiterung stellen die '''Advanced Vector Extensions 2''' ('''AVX2''') dar, bei der einige neue Instruktionen eingeführt wurden und zahlreiche bestehende Instruktionen nun ebenfalls 256 Bit breit sind. AVX2 wird erstmals mit den [[AMD Fusion#Excavator-basierte Modelle (Carrizo, Bristol Ridge)|AMD Carrizo]] bzw. Intel [[Intel-Haswell-Mikroarchitektur|Haswell]]-Prozessoren vertrieben.

== Erweiterung AVX-512 ==
Da im Bereich des [[Hochleistungsrechnen]]s mittlerweile die Energieeffizienz immer wichtiger wird und das [[Single Instruction Multiple Data|SIMD]]-Konzept hier Fortschritte verspricht, wurde für die [[Intel Xeon Phi]] genannten Rechenbeschleuniger die Befehlssatzerweiterung AVX2 nochmals komplett überarbeitet. Unter anderem wurde hierbei die Daten- und Registerbreite auf 512 Bit verdoppelt sowie die Anzahl der Register auf 32 verdoppelt. Diese überarbeitete Erweiterung nennt Intel '''AVX-512''', sie besteht aus mehreren spezifizierten Gruppen neuer Instruktionen, welche gestaffelt implementiert werden. Die zweite ''Xeon Phi''-Generation (''Knights Corner'') erhält die sogenannte ''Foundation'', die dritte Generation (''Knights Landing'', 2016) zusätzlich die ''CD''-, ''PF''- und ''ER''-Erweiterungen.

Im Unterschied zu ''Xeon Phi'' einschließlich ''Knights Landing'' sind die Befehlsgruppen ''DQ'', ''BW'' und ''VL'' Bestandteil der im Sommer 2017 erschienen [[Intel Xeon (Skylake)|Xeon Scalable Processors]] und der von ihnen abgeleiteten [[Intel-Skylake-Mikroarchitektur|Skylake-X]]-Prozessoren (ab Core i7-7800X).

Die Befehlsgruppen wurden von Intel bereits vorab dokumentiert und sind über die [[CPUID]]-Instruktion abfragbar, bestimmte Register-Bits sind bei Vorhandensein der Befehlsgruppe gesetzt. Bei AMD Zen 4 ist AVX-512 „double-pumped“ durch zwei 256-Bit-Vektoreinheiten,<ref>https://www.phoronix.com/review/amd-zen4-avx512</ref> die Leistung ist jedoch „erstaunlich gut“.<ref>https://www.tomshardware.com/news/avx-512-performance-impresses-on-ryzen-7040</ref> Bei AMD Zen 5 ist AVX-512 „voll“ implementiert, arbeitet also eine 512-Bit-AVX-Berechnung in einem Takt ab, jedoch ist aus Gründen der Einsparung (Platz und Energie), für z. B. Mobilprozessoren wie dem ''[[Zen 5#Ryzen AI 300 „Strix Point“|Ryzen AI 300]]'', auch die gleiche Aufteilung in zwei 256-Bit-Operationen, wie schon bei Zen 4, weiterhin möglich.<ref name="heiseonline_9801462">{{Heise online |ID=9801462 |Titel=AMD Ryzen AI 300: Überraschende Details zu Zen 5 sowie RDNA 3.5 und XDNA2 |Autor=Carsten Spille |Datum=2024-07-24 |Abruf=2024-09-11 |Zitat=Auch die Befehlssatzerweiterung AVX512 ist wie schon bei Zen 4 wieder mit an Bord. Die Zen-5-Kerne können, anders als bei Zen 4, AVX512 theoretisch auch in einem statt in zwei Durchgängen ausführen und so für die doppelte Rechenleistung pro Takt sorgen. Allerdings bewahrte sich AMD auch die Möglichkeit, die breiten Instruktionen platz- und energiesparend in zwei 256-Bit-Häppchen nacheinander abzuarbeiten, wie es schon Zen 4 tat.}}</ref> Bei Intel ist AVX-512 als Spezifikation beziehungsweise [[Roadmap]] zu sehen, welche Instruktionen Intel zukünftig in die AVX-Einheiten bringen will<ref>{{Internetquelle|url=https://software.intel.com/en-us/intel-architecture-instruction-set-extensions-programming-reference | titel=ISA-Extensions Programming Reference | zugriff=2017-10-17}}</ref>:

{| class="wikitable zebra"
!rowspan="2"| Befehlssatz
!rowspan="2"| Name Set
!rowspan="2"| CPUID-Bit
!colspan="2"| Prozessoren
|-
! Intel
! AMD
|-
| AVX512F (Basisbefehlssatz, restliche Befehle sind optional) || Foundation || EBX 16 || Xeon Phi x200, Xeon SP || Zen 4
|-
| AVX512PF || Prefetch || EBX 26 || Xeon Phi x200
|-
| AVX512DQ || Vector Double Word and Quad Word || EBX 17 || Xeon SP || Zen 4
|-
| AVX512BW || Vector Byte and Word || EBX 30 || Xeon SP || Zen 4
|-
| AVX512VL || Vector Length || EBX 31 || Xeon SP || Zen 4
|-
| AVX512CD || Conflict Detection || EBX 28 || Xeon Phi x200, Xeon SP || Zen 4
|-
| AVX512ER || Exponential and Reciprocal || EBX 27 || Xeon Phi x200
|-
| AVX512IFMA || Integer Fused Multiply-Add mit 512 Bit || EBX 21 || Cannon Lake || Zen 4
|-
| AVX512_VBMI || Vector Bit Manipulation || ECX 01 || Cannon Lake || Zen 4
|-
| AVX512_VBMI2 || Vector Bit Manipulation 2 || ECX 06 || Cannon Lake || Zen 4
|-
| AVX512_4FMAPS || Vector Fused Multiply Accumulation Packed Single precision || EDX 03 || Xeon Phi 72x5
|-
| AVX512_4VNNIW || Vector Neural Network Instructions Word Variable Precision || EDX 02 || Xeon Phi 72x5
|-
| AVX512_VPOPCNTDQ || Vector POPCOUNT Dword/Qword || ECX 14 || Xeon Phi 72x5 || Zen 4
|-
| AVX512_VNNI || Vector Neural Network Instructions || ECX 11 || Xeon Cascade Lake || Zen 4
|-
| AVX512_BITALG || Bitalgorithmen, Support for VPOPCNT[B,W] and VPSHUF-BITQMB || ECX 12 || Ice Lake || Zen 4
|-
| AVX512_GFNI || Galois Field New Instructions || || Ice Lake
|-
| AVX512_VPCLMULQDQ || Carry-Less Multiplication Quadword || || Ice Lake
|-
| AVX512_VAES || Vector AES || || Ice Lake
|-
| AVX512_BF16 || BFLOAT16 [[Gleitkommazahl|Floating-Point]] Format || || Cooper Lake, Sapphire Rapids || Zen 4
|}

Implementierung der einzelnen Befehlsgruppen dokumentiert für Xeon SP<ref>{{Internetquelle|url=https://software.intel.com/en-us/articles/intel-xeon-processor-scalable-family-technical-overview | titel=Xeon SP Technical Overview | zugriff=2017-10-17}}</ref> und für Xeon Phi Knights Landing (x200).<ref>{{Internetquelle|url=https://software.intel.com/en-us/articles/how-to-detect-knl-instruction-support | titel=How to detect KNL instruction support | zugriff=2017-10-17}}</ref>

== Benutzung ==
Die Benutzung dieser Spezialbefehle läuft auf folgendes hinaus:
* Isolation der zu optimierenden Programmteile, nur diese müssen überhaupt betrachtet werden
* zu optimieren sind dort:
** Speicherlayout der verwendeten Datenstrukturen (Alignment, Cache-Effizienz, Lokalität von Speicherzugriffen)
** Zerlegungen der Berechnungen in viele unabhängige Threads, die parallel und z. T. auf verschiedenen Architekturen abgearbeitet werden können (z. B. auf eine/mehrere GPU(s) ausgelagert werden können)
** Nutzen dieser erweiterten Befehlssätze durch …
*** Nutzung von Compilern, die diese Befehlssätze unterstützen
*** Nutzung von Bibliotheken, die diese Befehlssätze nutzen (z. B. [[Math Kernel Library]] oder [https://www.openblas.net/ OpenBLAS])
*** Nutzung von Bibliotheken, die wiederum solche Bibliotheken nutzen (z. B. Graphikbibliotheken)
*** Nutzung von Programmiersprachen, die von sich aus Gebrauch von diesen Befehlen machen (z. B. [[Python (Programmiersprache)|Python]] mit dem numpy-Paket)
*** Bei sehr kritischen Applikation kann das Nutzen von [[Intrinsische Funktion|Compiler Intrinsics]] oder das Schreiben von Assembler-Routinen zu einer weiteren Performance-Steigerung notwendig sein.
Die Probleme sind aber nicht neu und das Nutzen der Befehlssatzerweiterungen ist von diesen Optimierungen noch der Teil, der sich am besten automatisieren lässt.

== Fazit ==
Programme können mithilfe von ''AVX'' und dessen 256 Bit breiten Registern im ''x64-Modus'' in jedem [[Taktzyklus]] vier [[Gleitkommaoperation]]en mit [[Doppelte Genauigkeit|doppelter Genauigkeit]] oder acht Gleitkommaoperationen mit [[Einfache Genauigkeit|einfacher Genauigkeit]] bei bspw. einer einfachen Addition berechnen. Dabei befinden sich jeweils vier Werte doppelter Genauigkeit oder acht Werte einfacher Genauigkeit in jeweils einem der 16 AVX-Register, die dann mit jeweils einem Partner verrechnet werden.

Mit AVX2 verändert sich die Registerbreite nicht, es wurden lediglich einige der zuvor (bei AVX) noch mit 128 Bit ausgeführten Operationen (z. B. [[FMA x86|FMA3]]: [[Fused multiply-add|Fused-Multiply Add]]/Floating-Point [[Multiply-Accumulate]], [[Integer (Datentyp)#Rechenoperationen|Integeroperationen]]…) auf 256-Bit-Ausführung gebracht.<ref name="PG17">Gepner, Pawel. [https://www.researchgate.net/publication/321753747_Using_AVX2_Instruction_Set_to_Increase_Performance_of_High_Performance_Computing_Code "Using AVX2 instruction set to increase performance of high performance computing code"], Computing and Informatics 36.5 (2017): 1001-1018.</ref> Es ändert sich somit die Anzahl der verfügbaren 256-Bit-[[Single Instruction Multiple Data|SIMD]]-Operationen. Bei einer einfachen Addition auf einer [[64-Bit-Architektur]] werden weiterhin (nur) vier Gleitkommaoperationen mit doppelter Genauigkeit oder acht Gleitkommaoperationen mit einfacher Genauigkeit gleichzeitig berechnet.

Bei AVX-512 sind es aufgrund der Registerbreite von 512 Bit damit pro Befehl acht Additionen in doppelter Genauigkeit oder 16 Additionen in einfacher Genauigkeit.
Die Nutzung von AVX-512 beschränkt sich im Desktop-Segment gegenwärtig (2018) auf den ''X299''-Chipsatz der ''Skylake''-Architektur für den [[Sockel 2066]] sowie seit 2016 auch auf eine Reihe der [[Intel Xeon|Xeon]]-Prozessorbaureihen.

== Einzelnachweise ==
<references />

{{Navigationsleiste x86-Erweiterungen}}

[[Kategorie:Prozessorarchitektur nach Befehlssatz]]

Advanced Vector Extensions - Versionsgeschichte

imported>Fan-vom-Wiki: /* Erweiterung AVX-512 */ Leerzeichen entfernt