<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="de">
	<id>https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=MapReduce</id>
	<title>MapReduce - Versionsgeschichte</title>
	<link rel="self" type="application/atom+xml" href="https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=MapReduce"/>
	<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=MapReduce&amp;action=history"/>
	<updated>2026-05-19T18:09:56Z</updated>
	<subtitle>Versionsgeschichte dieser Seite in Wikipedia (Deutsch) – Lokale Kopie</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://wiki-de.moshellshocker.dns64.de/index.php?title=MapReduce&amp;diff=1444007&amp;oldid=prev</id>
		<title>imported&gt;SchlurcherBot: Bot: http → https</title>
		<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=MapReduce&amp;diff=1444007&amp;oldid=prev"/>
		<updated>2026-01-05T19:27:10Z</updated>

		<summary type="html">&lt;p&gt;Bot: http → https&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Neue Seite&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;MapReduce&amp;#039;&amp;#039;&amp;#039; ist ein vom Unternehmen [[Google Inc.]] eingeführtes Programmiermodell für [[Nebenläufigkeit|nebenläufige]] Berechnungen über (mehrere [[Petabyte]]&amp;lt;ref&amp;gt;{{Webarchiv|url=http://news.cnet.com/8301-10784_3-9955184-7.html |wayback=20131019063218 |text=&amp;#039;&amp;#039;Google spotlights data center inner workings&amp;#039;&amp;#039;. |archiv-bot=2022-03-22 19:37:02 InternetArchiveBot }} CNET News, Tech news blog&amp;lt;/ref&amp;gt;) große Datenmengen auf [[Computercluster]]n. &amp;#039;&amp;#039;MapReduce&amp;#039;&amp;#039; ist auch der Name einer Implementierung des Programmiermodells in Form einer Software-Bibliothek.&lt;br /&gt;
Beim MapReduce-Verfahren werden die Daten in drei Phasen verarbeitet (Map, Shuffle, Reduce),  von denen zwei durch den Anwender spezifiziert werden (Map und Reduce). Dadurch lassen sich Berechnungen parallelisieren und auf mehrere Rechner verteilen. Bei sehr großen Datenmengen ist die Parallelisierung unter Umständen schon deshalb erforderlich, weil die Datenmengen für einen einzelnen Prozess (und das ausführende Rechnersystem) zu groß sind.&lt;br /&gt;
&lt;br /&gt;
Das Programmiermodell wurde durch die in der [[Funktionale Programmierung|funktionalen Programmierung]] häufig verwendeten Funktionen &amp;#039;&amp;#039;[[map (Informatik)|map]]&amp;#039;&amp;#039; und &amp;#039;&amp;#039;[[reduce (Informatik)|reduce]]&amp;#039;&amp;#039; inspiriert,&amp;lt;ref name=&amp;quot;map&amp;quot;&amp;gt;Jeffrey Dean, Sanjay Ghemawat: [http://research.google.com/archive/mapreduce.html &amp;#039;&amp;#039;MapReduce: Simplified Data Processing on Large Clusters&amp;#039;&amp;#039;.] [[Google Labs]]: “Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages.”&amp;lt;/ref&amp;gt; auch wenn die Arbeitsweise der Bibliothek davon abweicht.&amp;lt;ref&amp;gt;Ralf Lämmel ([[Microsoft]]): [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.5859&amp;amp;rep=rep1&amp;amp;type=pdf &amp;#039;&amp;#039;Google’s MapReduce Programming Model – Revisited&amp;#039;&amp;#039;.] (PDF)&amp;lt;/ref&amp;gt; 2010 wurde für MapReduce ein US-Patent erteilt.&amp;lt;ref&amp;gt;{{Patent| Land=US| V-Nr=7650331| Code=B1| Titel=System and method for efficient large-scale data processing| A-Datum=2004-06-18| V-Datum=2010-01-19| Anmelder=Google Inc| Erfinder=Jeffrey Dean, Sanjay Ghemawat}}&amp;lt;/ref&amp;gt; Der wesentliche Beitrag von MapReduce ist jedoch das zu Grunde liegende System, das die Berechnungen stark parallelisiert, die Reorganisation der Daten im Shuffle-Schritt optimiert, und automatisch auf Fehler im Cluster reagieren kann, wie beispielsweise den Ausfall von kompletten Knoten.&lt;br /&gt;
&lt;br /&gt;
== Arbeitsweise ==&lt;br /&gt;
=== Illustration des Datenflusses ===&lt;br /&gt;
[[Datei:MapReduce2.svg|500px|]]&lt;br /&gt;
&lt;br /&gt;
Das obige Bild illustriert den Datenfluss bei der MapReduce-Berechnung.&lt;br /&gt;
* Map-Phase:&lt;br /&gt;
** Die Eingabedaten &amp;#039;&amp;#039;(D, A, T, A)&amp;#039;&amp;#039; werden auf eine Menge von Map-Prozessen verteilt (illustriert durch bunte Rechtecke), welche jeweils die vom Nutzer bereitgestellte Map-Funktion berechnen.&lt;br /&gt;
** Die Map-Prozesse werden idealerweise parallel ausgeführt.&lt;br /&gt;
** Jede dieser Map-Instanzen legt Zwischenergebnisse ab (illustriert durch pinkfarbene Sterne).&lt;br /&gt;
** Von jeder Map-Instanz fließen Daten in eventuell verschiedene Zwischenergebnisspeicher.&lt;br /&gt;
* Shuffle-Phase:&lt;br /&gt;
** Die Zwischenergebnisse werden gemäß den Ausgabeschlüsseln, die von der Map-Funktion produziert wurden, neu verteilt, sodass alle Zwischenergebnisse mit demselben Schlüssel im nächsten Schritt auf demselben Computersystem verarbeitet werden.&lt;br /&gt;
* Reduce-Phase:&lt;br /&gt;
** Für jeden Satz an Zwischenergebnissen berechnet jeweils genau ein Reduce-Prozess (illustriert durch violette Rechtecke) die vom Nutzer bereitgestellte Reduce-Funktion und damit die Ausgabedaten (illustriert durch violette Kreise &amp;#039;&amp;#039;X, Y&amp;#039;&amp;#039; und &amp;#039;&amp;#039;Z&amp;#039;&amp;#039;).&lt;br /&gt;
** Die Reduce-Prozesse werden idealerweise ebenfalls parallel ausgeführt.&lt;br /&gt;
&lt;br /&gt;
=== Definition der MapReduce-Funktion ===&lt;br /&gt;
Die MapReduce-Bibliothek realisiert eine [[Funktion (Mathematik)|Funktion]], welche aus einer [[Liste (Datenstruktur)|Liste]] von [[Schlüssel-Wert-Paar]]en (Eingabeliste) eine neue Liste von Schlüssel-Wert-Paaren (Ausgabeliste) berechnet:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
\begin{align}&lt;br /&gt;
 \mathrm{MapReduce} : (K\times V)^* &amp;amp;\to (L\times W)^* \\&lt;br /&gt;
 {\lbrack(k_1, v_1), \ldots, (k_n, v_n)\rbrack} &amp;amp;\mapsto \lbrack (l_1, w_1), \ldots, (l_m, w_m)\rbrack&lt;br /&gt;
\end{align}&amp;lt;/math&amp;gt;&lt;br /&gt;
Erläuterung:&lt;br /&gt;
* Die Mengen &amp;lt;math&amp;gt;K&amp;lt;/math&amp;gt; und &amp;lt;math&amp;gt;L&amp;lt;/math&amp;gt; enthalten &amp;#039;&amp;#039;&amp;#039;Schlüssel&amp;#039;&amp;#039;&amp;#039;, die Mengen &amp;lt;math&amp;gt;V&amp;lt;/math&amp;gt; und &amp;lt;math&amp;gt;W&amp;lt;/math&amp;gt; enthalten &amp;#039;&amp;#039;&amp;#039;Werte&amp;#039;&amp;#039;&amp;#039;.&lt;br /&gt;
* Alle Schlüssel &amp;lt;math&amp;gt;k \in K&amp;lt;/math&amp;gt; sind vom gleichen [[Datentyp|Typ]], z.&amp;amp;nbsp;B. Strings.&lt;br /&gt;
* Alle Schlüssel &amp;lt;math&amp;gt;l \in L&amp;lt;/math&amp;gt; sind vom gleichen Typ, z.&amp;amp;nbsp;B. ganze Zahlen.&lt;br /&gt;
* Alle Werte &amp;lt;math&amp;gt;v \in V&amp;lt;/math&amp;gt; sind vom gleichen Typ, z.&amp;amp;nbsp;B. Atome.&lt;br /&gt;
* Alle Werte &amp;lt;math&amp;gt;w \in W&amp;lt;/math&amp;gt; sind vom gleichen Typ, z.&amp;amp;nbsp;B. Gleitkommazahlen.&lt;br /&gt;
* Wenn &amp;lt;math&amp;gt;A&amp;lt;/math&amp;gt; und &amp;lt;math&amp;gt;B&amp;lt;/math&amp;gt; Mengen sind, so ist mit &amp;lt;math&amp;gt;A\times B&amp;lt;/math&amp;gt; die Menge aller Paare &amp;lt;math&amp;gt;(a, b)&amp;lt;/math&amp;gt; gemeint, wobei &amp;lt;math&amp;gt;a \in A&amp;lt;/math&amp;gt; und &amp;lt;math&amp;gt;b \in B&amp;lt;/math&amp;gt; ([[kartesisches Produkt]]).&lt;br /&gt;
* Wenn &amp;lt;math&amp;gt;M&amp;lt;/math&amp;gt; eine Menge ist, so ist mit &amp;lt;math&amp;gt;M^*&amp;lt;/math&amp;gt; die Menge aller endlichen Listen mit Elementen aus &amp;lt;math&amp;gt;M&amp;lt;/math&amp;gt; gemeint (angelehnt an den [[Kleene-Stern]]) – die Liste kann auch leer sein.&lt;br /&gt;
&lt;br /&gt;
=== Definition der Map- und Reduce-Funktionen ===&lt;br /&gt;
Der Nutzer konfiguriert die Bibliothek über die Bereitstellung der beiden Funktionen Map und Reduce, die wie folgt definiert sind:&lt;br /&gt;
: &amp;lt;math&amp;gt;\begin{align}&lt;br /&gt;
 \mathrm{Map} : K\times V &amp;amp;\to (L\times W)^* \\&lt;br /&gt;
 (k, v) &amp;amp;\mapsto \lbrack(l_1, x_1), \ldots, (l_{r_k}, x_{r_k})\rbrack&lt;br /&gt;
\end{align}&amp;lt;/math&amp;gt;&lt;br /&gt;
bzw.&lt;br /&gt;
: &amp;lt;math&amp;gt;\begin{align}&lt;br /&gt;
 \mathrm{Reduce} : L\times W^* &amp;amp;\to X^* \\&lt;br /&gt;
 \left(l, {\lbrack y_1, \ldots, y_{s_l}\rbrack}\right) &amp;amp;\mapsto \lbrack w_1, \ldots, w_{m_l}\rbrack&lt;br /&gt;
\end{align}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Map-Phase ===&lt;br /&gt;
* Map bildet ein Paar, bestehend aus einem Schlüssel &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; und einem Wert &amp;lt;math&amp;gt;v&amp;lt;/math&amp;gt;, auf eine Liste von neuen Paaren &amp;lt;math&amp;gt;(l_r, x_r)&amp;lt;/math&amp;gt; ab, welche die Rolle von &amp;#039;&amp;#039;&amp;#039;Zwischenergebnissen&amp;#039;&amp;#039;&amp;#039; spielen. Die Werte &amp;lt;math&amp;gt;x_r&amp;lt;/math&amp;gt; sind vom gleichen Typ wie die Endergebnisse &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt;.&lt;br /&gt;
* Bei einem neuen Paar &amp;lt;math&amp;gt;(l, x)&amp;lt;/math&amp;gt; verweist der von Map vergebene Schlüssel &amp;lt;math&amp;gt;l&amp;lt;/math&amp;gt; dabei auf eine Liste &amp;lt;math&amp;gt;T_l&amp;lt;/math&amp;gt; von Zwischenergebnissen, in welcher der von Map berechnete Wert &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt; gesammelt wird.&lt;br /&gt;
* Die Bibliothek ruft für jedes Paar in der Eingabeliste die Funktion Map auf.&lt;br /&gt;
* All diese Map-Berechnungen sind voneinander unabhängig, so dass man sie nebenläufig und verteilt auf einem Computercluster ausführen kann.&lt;br /&gt;
&lt;br /&gt;
=== Shuffle-Phase ===&lt;br /&gt;
* Bevor die Reduce-Phase starten kann, müssen die Ergebnisse der Map-Phase nach ihrem neuen Schlüssel &amp;lt;math&amp;gt;l&amp;lt;/math&amp;gt; in Listen &amp;lt;math&amp;gt;T_l&amp;lt;/math&amp;gt; gruppiert werden.&lt;br /&gt;
* Wenn Map- und Reduce-Funktionen nebenläufig und verteilt ausgeführt werden, wird hierfür ein koordinierter Datenaustausch notwendig.&lt;br /&gt;
* Die Performanz eines Map-Reduce-Systems hängt maßgeblich davon ab, wie effizient die Shuffle-Phase implementiert ist.&lt;br /&gt;
* Der Nutzer wird in der Regel nur über die Gestaltung der Schlüssel &amp;lt;math&amp;gt;l&amp;lt;/math&amp;gt; auf die Shuffle-Phase Einfluss nehmen. Daher reicht es, sie einmalig gut zu optimieren, und zahlreiche Anwendungen können hiervon profitieren.&lt;br /&gt;
&lt;br /&gt;
=== Reduce-Phase ===&lt;br /&gt;
* Sind alle Map-Aufrufe erfolgt bzw. liegen alle Zwischenergebnisse in &amp;lt;math&amp;gt;T_l&amp;lt;/math&amp;gt; vor, so ruft die Bibliothek für jede Zwischenwertliste die Funktion Reduce auf, welche daraus eine Liste von Ergebniswerten &amp;lt;math&amp;gt;w_j&amp;lt;/math&amp;gt; berechnet, die von der Bibliothek in der Ausgabeliste als Paare &amp;lt;math&amp;gt;(l, w_j)&amp;lt;/math&amp;gt; gesammelt werden.&lt;br /&gt;
* Auch die Aufrufe von Reduce können unabhängig auf verschiedene Prozesse im Computercluster verteilt werden.&lt;br /&gt;
&lt;br /&gt;
Anmerkung: Diese Darstellung war etwas vereinfacht, denn in der Regel wird die Steuerung des MapReduce Verfahrens eine Anzahl &amp;lt;math&amp;gt;R&amp;lt;/math&amp;gt; von Reduce-Prozessen anstreben, so dass, wenn es für mehr als &amp;lt;math&amp;gt;R&amp;lt;/math&amp;gt; verschiedene Schlüssel &amp;lt;math&amp;gt;l&amp;lt;/math&amp;gt; Zwischenergebnisse &amp;lt;math&amp;gt;(l,x)&amp;lt;/math&amp;gt; gibt, Zwischenergebnisse &amp;lt;math&amp;gt;(l,x)&amp;lt;/math&amp;gt; mit verschiedenen Schlüsseln &amp;lt;math&amp;gt;l&amp;lt;/math&amp;gt; in einer gemeinsamen Liste gespeichert werden. Die entsprechenden Paare werden vor der Reduce-Berechnung nach Schlüsseln sortiert.&lt;br /&gt;
&lt;br /&gt;
=== Combine-Phase ===&lt;br /&gt;
Optional kann vor der Shuffle-Phase noch eine Combine-Phase erfolgen. Diese hat in der Regel die gleiche Funktionalität wie die Reducefunktion, wird aber auf dem gleichen Knoten wie die Map-Phase ausgeführt. Dabei geht es darum, die Datenmenge, die in der Shuffle-Phase verarbeitet werden muss, und damit die Netzwerklast zu reduzieren.&amp;lt;ref name=&amp;quot;map&amp;quot; /&amp;gt; Der Sinn der Combine-Phase erschließt sich sofort bei der Betrachtung des [[#Beispiel: Verteilte Häufigkeitsanalyse mit MapReduce|Wordcount-Beispiels]]: Auf Grund der unterschiedlichen Häufigkeit von Wörtern in natürlicher Sprache, würde bei einem deutschen Text beispielsweise sehr oft eine Ausgabe der Form (&amp;quot;und&amp;quot;, 1) erzeugt (gleiches gilt für Artikel und Hilfsverben). Durch die Combine-Phase wird nun aus 100 Nachrichten der Form (&amp;quot;und&amp;quot;, 1) lediglich eine Nachricht der Form (&amp;quot;und&amp;quot;, 100). Dies kann die Netzwerkbelastung signifikant reduzieren, ist aber nicht in allen Anwendungsfällen möglich.&lt;br /&gt;
&lt;br /&gt;
== Beispiel: Verteilte Häufigkeitsanalyse mit MapReduce ==&lt;br /&gt;
=== Problem ===&lt;br /&gt;
Man möchte für umfangreiche Texte herausfinden, wie oft welche Wörter vorkommen.&lt;br /&gt;
&lt;br /&gt;
=== Angabe der Map- und Reduce-Funktionen ===&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 map(String name, String document):&lt;br /&gt;
  // name: document name (&amp;quot;key&amp;quot;)&lt;br /&gt;
  // document: document contents (&amp;quot;value&amp;quot;)&lt;br /&gt;
  for each word w in document:&lt;br /&gt;
    EmitIntermediate(w, 1);&lt;br /&gt;
&lt;br /&gt;
 reduce(String word, Iterator partialCounts):&lt;br /&gt;
  // word: a word (&amp;quot;key&amp;quot;)&lt;br /&gt;
  // partialCounts: a list of aggregated partial counts (&amp;quot;values&amp;quot;)&lt;br /&gt;
  //     for &amp;#039;word&amp;#039;&lt;br /&gt;
  int result = 0;&lt;br /&gt;
  for each v in partialCounts:&lt;br /&gt;
    result += v;&lt;br /&gt;
  Emit(word, result);&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Map-Phase ===&lt;br /&gt;
* Map bekommt jeweils einen Dokumentnamen &amp;#039;&amp;#039;name&amp;#039;&amp;#039; und ein Dokument &amp;#039;&amp;#039;document&amp;#039;&amp;#039; als [[Zeichenkette]] übergeben.&lt;br /&gt;
* Map durchläuft das Dokument Wort für Wort.&lt;br /&gt;
* Jedes Mal, wenn ein Wort &amp;#039;&amp;#039;w&amp;#039;&amp;#039; angetroffen wird, wandert eine 1 in die &amp;#039;&amp;#039;w&amp;#039;&amp;#039;-Zwischenergebnisliste (falls diese noch nicht existiert, wird sie angelegt).&lt;br /&gt;
* Ist man mit allen Wörtern durch und hat der Text insgesamt &amp;#039;&amp;#039;n&amp;#039;&amp;#039; verschiedene Wörter, so endet die Map-Phase mit &amp;#039;&amp;#039;n&amp;#039;&amp;#039; Zwischenergebnislisten, jede für ein anderes Wort sammelnd, welche so viele 1-Einträge enthält, wie das entsprechende Wort im Dokument gefunden wurde.&lt;br /&gt;
* Eventuell liefen viele Map-Instanzen gleichzeitig, falls der Bibliothek mehrere Wörter und Dokumente übergeben wurden.&lt;br /&gt;
&lt;br /&gt;
=== Shuffle-Phase ===&lt;br /&gt;
* Die Zwischenergebnislisten von mehreren Prozessen / Systemen für das gleiche Wort &amp;#039;&amp;#039;w&amp;#039;&amp;#039; werden zusammengefasst, und auf die Systeme für die Reducer verteilt.&lt;br /&gt;
&lt;br /&gt;
=== Reduce-Phase ===&lt;br /&gt;
* Reduce wird für das Wort &amp;#039;&amp;#039;word&amp;#039;&amp;#039; und die Zwischenergebnisliste &amp;#039;&amp;#039;partialCounts&amp;#039;&amp;#039; aufgerufen.&lt;br /&gt;
* Reduce durchläuft die Zwischenergebnisliste und addiert alle gefundenen Zahlen auf.&lt;br /&gt;
* Die Summe result wird an die Bibliothek zurückgegeben, sie enthält, wie oft das Wort &amp;#039;&amp;#039;word&amp;#039;&amp;#039; in allen Dokumenten gefunden wurde.&lt;br /&gt;
* Die Zwischenergebnisse konnten parallel, durch gleichzeitige Reduce-Aufrufe, berechnet werden.&lt;br /&gt;
&lt;br /&gt;
=== Insgesamt ===&lt;br /&gt;
* Aus einer Liste von Dokumentnamen und Dokumenten wird eine Liste von Worten und Worthäufigkeiten generiert.&lt;br /&gt;
&lt;br /&gt;
=== Beispielhafte Berechnung ===&lt;br /&gt;
Zum Beispiel wäre folgende Berechnung auf einem [[Das Lied von der Glocke|klassischen Text]] denkbar:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 Text = &amp;quot;Fest gemauert in der Erden&lt;br /&gt;
         Steht die Form, aus Lehm gebrannt.&lt;br /&gt;
         Heute muß die Glocke werden,&lt;br /&gt;
         Frisch, Gesellen! seid zur Hand.&lt;br /&gt;
         Von der Stirne heiß&lt;br /&gt;
         Rinnen muß der Schweiß,&lt;br /&gt;
         Soll das Werk den Meister loben,&lt;br /&gt;
         Doch der Segen kommt von oben.&amp;quot;&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Der Text wird in Sätze aufgeteilt, dabei bietet sich eine [[Normalisierung (Text)|Normalisierung]] an, indem man alles klein schreibt und die Satzzeichen entfernt:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 Eingabeliste = [ (satz_1, &amp;quot;fest gemauert in der erden steht die form aus lehm gebrannt&amp;quot;),&lt;br /&gt;
                  (satz_2, &amp;quot;heute muß die glocke werden frisch gesellen seid zur hand&amp;quot;),&lt;br /&gt;
                  (satz_3, &amp;quot;von der stirne heiß rinnen muß der schweiß soll das werk den meister loben doch der segen kommt von oben&amp;quot;) ]&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Die Eingabeliste hat drei Paare als Elemente, wir können daher drei Map-Prozesse starten:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 P1 = Map(satz_1, &amp;quot;fest gemauert in der erden steht die form aus lehm gebrannt&amp;quot;)&lt;br /&gt;
 P2 = Map(satz_2, &amp;quot;heute muß die glocke werden frisch gesellen seid zur hand&amp;quot;)&lt;br /&gt;
 P3 = Map(satz_3, &amp;quot;von der stirne heiß rinnen muß der schweiß soll das werk den meister loben doch der segen kommt von oben&amp;quot;)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Die Map-Aufrufe generieren diese Zwischenergebnispaare:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 P1 = [ (&amp;quot;fest&amp;quot;, 1), (&amp;quot;gemauert&amp;quot;, 1), (&amp;quot;in&amp;quot;, 1), (&amp;quot;der&amp;quot;, 1), (&amp;quot;erden&amp;quot;, 1),&lt;br /&gt;
        (&amp;quot;steht&amp;quot;, 1), (&amp;quot;die&amp;quot;, 1), (&amp;quot;form&amp;quot;, 1), (&amp;quot;aus&amp;quot;, 1), (&amp;quot;lehm, 1),&lt;br /&gt;
        (&amp;quot;gebrannt&amp;quot;, 1) ]&lt;br /&gt;
 P2 = [ (&amp;quot;heute&amp;quot;, 1), (&amp;quot;muß&amp;quot;, 1), (&amp;quot;die&amp;quot;, 1), (&amp;quot;glocke&amp;quot;, 1), (&amp;quot;werden&amp;quot;, 1),&lt;br /&gt;
        (&amp;quot;frisch&amp;quot;, 1), (&amp;quot;gesellen&amp;quot;, 1), (&amp;quot;seid&amp;quot;, 1), (&amp;quot;zur&amp;quot;, 1), (&amp;quot;hand&amp;quot;, 1) ]&lt;br /&gt;
 P3 = [ (&amp;quot;von&amp;quot;, 1), (&amp;quot;der&amp;quot;, 1), (&amp;quot;stirne&amp;quot;, 1), (&amp;quot;heiß&amp;quot;, 1), (&amp;quot;rinnen&amp;quot;, 1),&lt;br /&gt;
        (&amp;quot;muß, 1), (&amp;quot;der&amp;quot;, 1), (&amp;quot;schweiß&amp;quot;, 1), (&amp;quot;soll&amp;quot;, 1), (&amp;quot;das&amp;quot;, 1),&lt;br /&gt;
        (&amp;quot;werk&amp;quot;, 1), (&amp;quot;den&amp;quot;, 1), (&amp;quot;meister&amp;quot;, 1), (&amp;quot;loben&amp;quot;, 1), (&amp;quot;doch&amp;quot;, 1),&lt;br /&gt;
        (&amp;quot;der&amp;quot;, 1), (&amp;quot;segen&amp;quot;, 1), (&amp;quot;kommt&amp;quot;, 1), (&amp;quot;von&amp;quot;, 1), (&amp;quot;oben&amp;quot;, 1) ]&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Die Map-Prozesse liefern ihre Paare an die MapReduce-Bibliothek, welche diese in den Zwischenergebnislisten sammelt. Parallel könnte folgendes geschehen (Die gleiche Taktung der 3 Map-Prozesse ist unrealistisch, tatsächlich überlappen sich die Ausführungen. Die T_wort-Listen sind lokal pro Map-Prozess vorhanden und werden &amp;#039;&amp;#039;&amp;#039;nicht&amp;#039;&amp;#039;&amp;#039; zwischen den Schritten synchronisiert):&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 1. Iteration:&lt;br /&gt;
    P1:  T_fest     = [ 1 ]     (neu)&lt;br /&gt;
    P2:  T_heute    = [ 1 ]     (neu)&lt;br /&gt;
    P3:  T_von      = [ 1 ]     (neu)&lt;br /&gt;
&lt;br /&gt;
 2. Iteration:&lt;br /&gt;
    P1:  T_gemauert = [ 1 ]     (neu)&lt;br /&gt;
    P2:  T_muß      = [ 1 ]     (neu)&lt;br /&gt;
    P3:  T_der      = [ 1 ]     (neu)&lt;br /&gt;
&lt;br /&gt;
 3. Iteration:&lt;br /&gt;
    P1:  T_in       = [ 1 ]     (neu)&lt;br /&gt;
    P2:  T_die      = [ 1 ]     (neu)&lt;br /&gt;
    P3:  T_stirne   = [ 1 ]     (neu)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Im vierten Schritt sieht man, dass Zwischenergebnislisten lokal für jeden Map-Prozess existieren und nicht global wiederverwendet werden können:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 4. Iteration:&lt;br /&gt;
    P1:  T_der      = [ 1 ]     (neu, der 1. Map-Prozess hat noch kein T_der, nur P3)&lt;br /&gt;
    P2:  T_glocke   = [ 1 ]     (neu)&lt;br /&gt;
    P3:  T_heiss    = [ 1 ]     (neu)&lt;br /&gt;
&lt;br /&gt;
 5. Iteration&lt;br /&gt;
    P1:  T_erden    = [ 1 ]     (neu)&lt;br /&gt;
    P2:  T_werden   = [ 1 ]     (neu)&lt;br /&gt;
    P3:  T_rinnen   = [ 1 ]     (neu)&lt;br /&gt;
&lt;br /&gt;
 6. Iteration&lt;br /&gt;
    P1:  T_steht    = [ 1 ]     (neu)&lt;br /&gt;
    P2:  T_frisch   = [ 1 ]     (neu)&lt;br /&gt;
    P3:  T_muß      = [ 1 ]     (neu, der 3. Map-Prozess hat noch kein T_muß, nur P2)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Im siebten Schritt kommt dann zum ersten Mal vor, dass ein weiteres Vorkommen in einer bereits angelegten Zwischenergebnisliste gesammelt wird:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 7. Schritt&lt;br /&gt;
    P1:  T_die      = [ 1 ]     (neu, der 1. Map-Prozess hat noch kein T_die)&lt;br /&gt;
    P2:  T_gesellen = [ 1 ]     (neu)&lt;br /&gt;
    P3:  T_der      = [ 1, 1 ]  (beim 3. Map-Prozess seit Iteration 2 vorhandene Liste verwenden)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
usw.&lt;br /&gt;
&lt;br /&gt;
Nach 21 Schritten sind alle drei Map-Prozesse mit ihrer Arbeit fertig, die Map-Phase endet und es beginnt die Reduce-Phase.&lt;br /&gt;
Die Zwischenergebnislisten, die von verschiedenen Map-Prozessen zu demselben Wort angelegt wurden, werden zusammengefügt.&lt;br /&gt;
Für jede der entstandenen Zwischenergebnislisten (hier sortiert aufgeführt)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
                     reduce&lt;br /&gt;
   T_der      = [ 1 ] ++ [ 1, 1, 1 ] -&amp;gt; [ 4 ]&lt;br /&gt;
   T_die      = [ 1 ] ++ [ 1 ]       -&amp;gt; [ 2 ]&lt;br /&gt;
   T_fest     = [ 1 ]                -&amp;gt; [ 1 ]&lt;br /&gt;
   T_gemauert = [ 1 ]                -&amp;gt; [ 1 ]&lt;br /&gt;
   T_glocke   = [ 1 ]                -&amp;gt; [ 1 ]&lt;br /&gt;
   T_heiss    = [ 1 ]                -&amp;gt; [ 1 ]&lt;br /&gt;
   T_heute    = [ 1 ]                -&amp;gt; [ 1 ]&lt;br /&gt;
   T_in       = [ 1 ]                -&amp;gt; [ 1 ]&lt;br /&gt;
   T_muß      = [ 1 ] ++ [ 1 ]       -&amp;gt; [ 2 ]&lt;br /&gt;
   T_stirne   = [ 1 ]                -&amp;gt; [ 1 ]&lt;br /&gt;
   T_von      = [ 1, 1 ]             -&amp;gt; [ 2 ]&lt;br /&gt;
   .&lt;br /&gt;
   .&lt;br /&gt;
   . (für alle verschiedenen T-Listen)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
können wir parallel einen Reduce-Prozess starten, der jeweils die Elemente aufzählt.&lt;br /&gt;
Das Ergebnis von MapReduce sieht in etwa so aus:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;text&amp;quot;&amp;gt;&lt;br /&gt;
 Ausgabeliste = [ (&amp;quot;fest&amp;quot;, 1), (&amp;quot;heute&amp;quot;, 1), (&amp;quot;von&amp;quot;, 2), (&amp;quot;gemauert&amp;quot;, 1),&lt;br /&gt;
                  (&amp;quot;muß&amp;quot;, 2), (&amp;quot;der&amp;quot;, 4), (&amp;quot;in&amp;quot;, 1), (&amp;quot;die&amp;quot;, 2), .. ]&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Weitere Beispiele ==&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot; &amp;lt;!--width=&amp;quot;66%&amp;quot;--&amp;gt;&lt;br /&gt;
|-&lt;br /&gt;
! Verfahren&lt;br /&gt;
! Map-Funktion&lt;br /&gt;
! Reduce-Funktion&lt;br /&gt;
|-&lt;br /&gt;
| Verteiltes [[grep]] || Gibt die gefundene Zeile (hit) in einen Zwischenergebnisspeicher || Reicht durch ([[Identische Abbildung]], genauer: [[Projektion (Mengenlehre)|Projektion]] auf die 2. Komponente)&lt;br /&gt;
|-&lt;br /&gt;
| Umsatzauswertung || Schreibt für jeden Beleg die Artikelnummer und den Betrag in einen Zwischenspeicher || Addiert für jede unterschiedliche Artikelnummer die Beträge zusammen&lt;br /&gt;
|-&lt;br /&gt;
| Datenbanksystem|| Liest, filtert und verarbeitet Teilmengen von Datensätzen|| Führt Aggregatfunktionen aus&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Verallgemeinerung ==&lt;br /&gt;
Nachdem das Verfahren 2014 bereits zehn Jahre alt ist, bietet Google seit kurzem&amp;lt;!-- seit wann? --&amp;gt; eine Erweiterung &amp;#039;&amp;#039;[[Cloud Dataflow]]&amp;#039;&amp;#039; an, die größere Flexibilität bietet und das [[Cloud Computing]] noch stärker vorantreiben soll.&lt;br /&gt;
&lt;br /&gt;
== Siehe auch ==&lt;br /&gt;
* [[Apache Hadoop]] – Java-Framework basierend auf dem MapReduce-Algorithmus&lt;br /&gt;
&lt;br /&gt;
== Weblinks ==&lt;br /&gt;
{{Commonscat}}&lt;br /&gt;
=== Fachartikel ===&lt;br /&gt;
* [[Jeffrey Dean]], [[Sanjay Ghemawat]]: &amp;#039;&amp;#039;MapReduce: Simplified Data Processing on Large Clusters&amp;#039;&amp;#039;, OSDI&amp;#039;04: Sixth Symposium on Operating System Design and Implementation (Dezember 2004), [https://research.google.com/archive/mapreduce.html Online]&lt;br /&gt;
* Colby Ranger, Ramanan Raghuraman, Arun Penmetsa, Gary Bradski, Christos Kozyrakis: [https://csl.stanford.edu/%7Echristos/publications/2007.cmp_mapreduce.hpca.pdf &amp;#039;&amp;#039;Evaluating MapReduce for Multi-core and Multiprocessor Systems&amp;#039;&amp;#039;.] (PDF; 353 kB) [[Stanford University]]&lt;br /&gt;
* [https://www.dbms2.com/2008/08/26/why-mapreduce-matters-to-sql-data-warehousing/ &amp;#039;&amp;#039;Why MapReduce Matters to SQL Data Warehousing&amp;#039;&amp;#039;.] Analyse zur Einführung von MapReduce/SQL seitens [[Aster Data Systems]] und [[Greenplum]]&lt;br /&gt;
* Marc de Kruijf, Karthikeyan Sankaralingam: [https://pages.cs.wisc.edu/~dekruijf/docs/mapreduce-cell.pdf &amp;#039;&amp;#039;MapReduce for the Cell B.E. Architecture&amp;#039;&amp;#039;.] (PDF; 528 kB) [[University of Wisconsin–Madison]]&lt;br /&gt;
* Hung-Chih Yang, Ali Dasdan, Ruey-Lung Hsiao, D. Stott Parker: [http://portal.acm.org/citation.cfm?doid=1247480.1247602 &amp;#039;&amp;#039;Map-Reduce-Merge: Simplified Relational Data Processing on Large Clusters&amp;#039;&amp;#039;.] In: &amp;#039;&amp;#039;Proc. of ACM SIGMOD&amp;#039;&amp;#039;, 2007, S. 1029–1040 (Dieses Paper zeigt, wie man MapReduce auf relationale Datenverarbeitung ausweitet)&lt;br /&gt;
* FLuX: Der [http://citeseer.ist.psu.edu/647742.html &amp;#039;&amp;#039;Fault-tolerant&amp;#039;&amp;#039;], [http://citeseer.ist.psu.edu/546646.html &amp;#039;&amp;#039;Load Balancing&amp;#039;&amp;#039;] &amp;#039;&amp;#039;eXchange operator&amp;#039;&amp;#039; der [[UC Berkeley]] bietet eine Alternative zu Googles MapReduce, mit [[Failover]] aber zusätzlichen Implementierungskosten.&lt;br /&gt;
&lt;br /&gt;
=== Software ===&lt;br /&gt;
* [https://hadoop.apache.org/ Apache Hadoop MapReduce]&lt;br /&gt;
* [http://discoproject.org/ disco] Open-Source-Projekt (Python und Erlang) des [[Nokia]] Research Center&lt;br /&gt;
* [https://research.microsoft.com/en-us/projects/dryadlinq/ DryadLINQ] – MapReduce Implementierung von [[Microsoft Research]]. Basiert auf [[Parallel Extensions#Parallel LINQ|PLINQ]] und [http://research.microsoft.com/en-us/projects/dryad/default.aspx Dryad].&lt;br /&gt;
* [http://www.mathworks.de/discovery/matlab-mapreduce-hadoop.html MATLAB MapReduce] ist eine [[Hadoop]] fähige Implementierung von [[MathWorks]] in [[Matlab]].&lt;br /&gt;
* [https://projects.camlcity.org/projects/plasma.html Plasma MapReduce] ist eine Open Source MapReduce Implementierung in [[Ocaml]] mit einem eigenen verteilten Dateisystem&lt;br /&gt;
* [https://doc.qt.io/qt-5/qtconcurrentmap.html QtConcurrent] Open Source C++ MapReduce Implementierung (nicht-verteilt) der [[Qt Development Frameworks]] von [[Digia]]&lt;br /&gt;
* [http://skynet.rubyforge.org/ Skynet] [[Ruby (Programmiersprache)|Ruby]] Map/Reduce-Bibliothek&lt;br /&gt;
PlasmaFS. Plasma MapReduce wurde von Gerd Stolpmann (Darmstadt) entwickelt.&lt;br /&gt;
* [https://www.splunk.com/ Splunk.com] Data Management und Analyse Engine für Big Data, welche auf MapReduce basiert&lt;br /&gt;
* [http://www.stratosphere.eu/ Stratosphere] PACT Programmiermodell: Erweiterung und Generalisierung des MapReduce Programmiermodells&lt;br /&gt;
&lt;br /&gt;
== Einzelnachweise ==&lt;br /&gt;
&amp;lt;references /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{{Normdaten|TYP=s|LCCN=no/2013/077469|VIAF=305041139}}&lt;br /&gt;
&lt;br /&gt;
[[Kategorie:Computercluster]]&lt;br /&gt;
[[Kategorie:Google]]&lt;br /&gt;
[[Kategorie:Parallelverarbeitung]]&lt;br /&gt;
[[Kategorie:Softwarearchitektur]]&lt;br /&gt;
[[Kategorie:Verteiltes System]]&lt;/div&gt;</summary>
		<author><name>imported&gt;SchlurcherBot</name></author>
	</entry>
</feed>