imported>Wassermaus: /* Differenzierung der Begriffe durch Einführung des Unicodes */

2025-04-29T19:01:56Z

Differenzierung der Begriffe durch Einführung des Unicodes

Neue Seite

Eine '''Zeichenkodierung''' ({{enS|character encoding}}, kurz ''encoding'') erlaubt die eindeutige Zuordnung von [[Schriftzeichen]] (i. A. [[Buchstabe]]n oder [[Ziffer]]n) und [[Symbol]]en innerhalb eines [[Zeichensatz]]es. In der [[Elektronische Datenverarbeitung|elektronischen Datenverarbeitung]] werden Zeichen über einen Zahlenwert kodiert, um sie zu [[Datenübertragung|übertragen]] oder zu [[Datenspeicher|speichern]]. Der deutsche Umlaut Ü wird zum Beispiel im [[ISO 8859-1|ISO-8859-1]]-Zeichensatz mit dem Dezimalwert 220 kodiert. Im [[Extended Binary Coded Decimals Interchange Code|EBCDIC]]-Zeichensatz kodiert derselbe Wert 220 die geschweifte Klammer <code>}</code>. Zur richtigen Darstellung eines Zeichens muss also die Zeichenkodierung bekannt sein; der Zahlenwert allein reicht nicht aus.

Zahlenwerte aus Zeichenkodierungen lassen sich auf verschiedene Art speichern oder übertragen, z. B. als [[Morsecode|Morsezeichen]], verschieden hohe Töne ([[Faxgerät]]), verschieden hohe [[Elektrische Spannung|Spannungen]].

[[Binärcode|Binäre]] Systeme hatten seit jeher eine besondere Bedeutung, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt.

In älterer Fachliteratur wird mitunter auch gleichbedeutend der Begriff '''Zeichenverschlüsselung''' verwendet, wenn den Zeichen (Schlüssel-)Nummern zugeordnet werden; aufgrund der möglichen fälschlichen Zuordnung in den Bereich der [[Kryptographie]] wird diese Bezeichnung heute kaum noch verwendet.

== Geschichte ==
Die Anfänge dieser Technik liegen in der [[Antike]]. Zum Beispiel informierte [[Agamemnon]] seine Truppen von einem Schiff aus mit dem Licht eines Feuers darüber, dass er die Invasion [[Troja]]s starten wollte. Bekannt sind ferner [[Rauchzeichen]] bei den [[Indianer]]n oder Nachrichtenübermittlung durch [[Trommelzeichen]] in [[Afrika]].

Insbesondere zur Verständigung von [[Flotte (Marine)|Schiffsverbänden]] in der [[Nautik]] wurden die Techniken später verfeinert. [[Sir Walter Raleigh]] erfand für die Verständigung seines [[Geschwader]]s auf der Südamerikafahrt 1617 eine Art Vorläufer der Flaggencodierung.

Im Jahr 1648 schließlich war es [[England]]s späterer König [[Jakob II. (England)|James II.]], der das erste [[Flaggenalphabet|Signalflaggensystem]] in der britischen Marine einführte.

Nach der Erfindung der [[Telegrafie]] benötigte man auch hier eine Zeichenkodierung. Aus den ursprünglichen Ideen des Engländers [[Alfred Brain]] entstanden 1837 der originale [[Morsecode]] und 1844 der modifizierte Morsecode.

Das [[CCITT]] (Comité Consultatif International Telegraphique et Telephonique) war schließlich die erste Institution, die einen standardisierten [[Zeichensatz]] definierte. Dabei basierte dieser Zeichensatz auf einem von [[Jean-Maurice-Émile Baudot]] 1870 entwickelten 5er-Code-Alphabet für seinen [[Synchrontelegraph]]en, dem [[Baudot-Code]], dessen Prinzip noch heute verwendet wird.

== Computer und Datenaustausch ==
Mit der Entwicklung des [[Computer]]s begann die Umsetzung der im Grunde schon seit dem [[Baudot-Code]] verwendeten binären Zeichenkodierung in [[Bit]]-Folgen, bzw. intern meist in verschiedene [[elektrische Spannung]]swerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer.

Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen, sogenannte ''Zeichensätze'', engl. ''Charsets'', festgelegt werden. 1963 wurde eine erste 7-Bit-Version des [[American Standard Code for Information Interchange|ASCII]]-Codes durch die [[American National Standards Institute|ASA]] (American Standards Association) definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl [[IBM]] an der Definition mitgearbeitet hatte, führte man 1964 einen eigenen 8-Bit-Zeichencode [[Extended Binary Coded Decimals Interchange Code|EBCDIC]] ein. Beide finden bis heute in der Computertechnik Verwendung.

Da für viele Sprachen jeweils unterschiedliche [[Diakritisches Zeichen|diakritische Zeichen]] benötigt werden, mit denen Buchstaben des [[Lateinisches Schriftsystem|lateinischen Schriftsystems]] modifiziert werden, gibt es für viele Sprachgruppen jeweils eigene Zeichensätze. Die [[International Organization for Standardization|ISO]] hat mit der Normenreihe [[ISO 8859]] Zeichenkodierungen für alle europäischen Sprachen (einschließlich [[Türkische Sprache|Türkisch]]) und [[Arabische Sprache|Arabisch]], [[Hebräische Sprache|Hebräisch]] sowie [[Thailändische Sprache|Thai]] standardisiert.

Das [[Unicode Consortium]] schließlich veröffentlichte 1991 eine erste Fassung des gleichnamigen [[Standard]]s, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Codeform zu definieren. [[Unicode]] ist gleichzeitig die internationale [[Normung|Norm]] [[ISO 10646]].

Bevor ein Text elektronisch verarbeitet wird, muss der verwendete Zeichensatz und die Zeichenkodierung festgelegt werden. Dazu dienen beispielsweise folgende Angaben:

* Definition des Zeichensatzes in einer [[Hypertext Markup Language|HTML]]-Seite
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
* Definition des Zeichensatzes in den Kopfzeilen (Headern) einer [[E-Mail]] oder eines [[Hypertext Transfer Protocol|HTTP]]-Pakets
Content-Type: text/plain; charset=ISO-8859-1

== Grafische Darstellung ==

Das Vorhandensein von Software für Zeichenkodierung und -dekodierung garantiert noch nicht die richtige Darstellung auf dem Computerbildschirm. Zu diesem Zweck muss auch eine [[Schriftart]] verfügbar sein, die die Zeichen des Zeichensatzes enthält.

== Differenzierung der Begriffe durch Einführung des Unicodes ==

Mit Einführung des [[Unicode]]s mussten die Zeichen durch mehr als ein Byte dargestellt werden, und es wurden genauere Begriffe notwendig. Derzeit werden im Deutschen die Begriffe ''Zeichensatz'', ''Code'', ''Kodierung'', ''encoding'' manchmal synonym, manchmal differenzierend verwendet. Im Englischen existieren bereits klare Differenzierungen:

* Ein ''Zeichensatz'' (''character set'' oder ''character repertoire'') ist eine Menge ''S'' verschiedener Schriftzeichen.
* Eine ''Codemenge'' oder ''Coderaum'' (''code space'') ist eine Menge ''M'' [[Natürliche Zahlen|numerischer Werte]], die zum Kodieren von Zeichen verfügbar sind.<ref>{{Internetquelle |url=https://unicode.org/glossary/#codespace |titel=https://unicode.org/glossary/#codespace |abruf=2024-05-04}}</ref>
* Ein ''Zeichencode'' (''ccs'', ''coded character set'', ''codepage'') ist ein Zeichensatz ''S'' mit einer Codemenge ''M'' und einer [[Injektivität|injektiven]] Abbildung der Schriftzeichen in ''S'' auf die Zahlen in ''M.'' (→ keine mehrfache Zuordnung, Bildmenge ''S'' ≤ Zielmenge ''M'')
* Ein ''Codepunkt'' (''[[codepoint]]'') ist ein einzelner Wert aus der Codemenge ''M''.<ref>https://unicode.org/glossary/#code_point Abgerufen am 4. Mai 2024.</ref>
* Ein ''codiertes Zeichen'' (''encoded character'') ist ein Zeichen aus ''S'' zusammen mit seinem Codepunkt aus ''M''. Ein Text wird durch die Codepunkte seiner Schriftzeichen dargestellt, also als Sequenz von Zahlen aus ''M.''<ref>https://unicode.org/glossary/#encoded_character Abgerufen am 4. Mai 2024.</ref>

Als nächstes muss man die Darstellung der Codepunkte im Rechner festlegen (''encoding''):

* Eine ''Codeeinheit'' (''code unit'') ist die Speichergröße für die Codepunkte mit der geringsten Größe, z. B. 8 Bits für [[UTF-8]] und 16 Bits für [[UTF-16]].<ref name="Unicode glossary">{{Internetquelle |url=http://www.unicode.org/glossary |titel=Glossary of Unicode Terms |abruf=2021-01-18}}</ref> Ein Codepunkt wird durch ein oder mehrere Codeeinheiten dargestellt.
* Mit ''encoding form'' (''character encoding form'', ''cef'') bezeichnet man eine Abbildung der Codepunkte auf Codeeinheiten<ref name="Unicode glossary" />, z. B. UTF-16. Jedem Codepunkt wird eine Codeeinheit oder eine Folge von mehreren Codeeinheiten zugeordnet, wobei die Länge nicht für alle Codepunkte gleich sein muss.
* Mit ''encoding scheme'' (''character encoding scheme'', ''ces'') bezeichnet man Kombination von ''encoding form'' und der Byte-Reihenfolge (''big-endian'' oder ''little-endian''), mit der eine ''Codeeinheit'' abgelegt wird; z. B. UTF-16LE.

In einfachen Fällen gibt es nicht mehr als 256 = 2<sup>8</sup> Codepunkte, so dass man jeden Codepunkt in einem [[Byte]] speichern kann, z. B. bei Verwendung eines der in [[ISO 8859]] definierten Zeichencodes. Mit Unicode ist das nicht mehr möglich, da ''S'' weit mehr als 256 Zeichen enthält. Häufige Encodings sind UTF-8, UTF-16, UCS-2 und UTF-32.

Bei [[UTF-16]] (cef) werden die Codepunkte zwischen 0 und 2<sup>16</sup>−1 in zwei und alle größeren in vier Byte abgespeichert. Wie bei allen ''encodings'' mit mehr als einem Byte Elementlänge gibt es mindestens die zwei Schemen(ces) UTF-16BE ([[Byte-Reihenfolge|big-endian]]) und UTF-16LE (little-endian), die sich in der Reihenfolge der Bytes in einer Codeeinheit unterscheiden.

Bei [[UTF-32]] verwendet man immer vier Byte für jeden Codepunkt, und [[UTF-8]] verwendet je nach Codepunkt zwischen ein und vier Bytes: die Codepunkte 0 bis 127 werden in einem einzigen Byte gespeichert, so dass diese Darstellung bei den meisten Texten mit lateinischem Buchstaben platzsparend ist, denn die Zeichen mit diesen Codepunkten (Zeichen des [[American Standard Code for Information Interchange|ASCII]]) kommen mit Abstand am häufigsten vor.
Weitere Verfahren sind etwa: [[Standard Compression Scheme for Unicode|SCSU]], [[Binary Ordered Compression for Unicode|BOCU]] und [[Punycode]]. Komplexe Schemen können zwischen mehreren Varianten wechseln (ISO/IEC 2022).

Um die Reihenfolge der Bytes in einer ''Codeeinheit'' unmissverständlich anzugeben, wird oft ein ''BOM'' (''byte order mark'') vorangestellt (<code>EF BB BF</code> bei UTF-8; <code>FF FE</code> bei UTF-16LE; <code>FE FF</code> bei UTF-16BE).

Eine ''[[Glyphe]]'' ist eine grafische Darstellung eines einzelnen Schriftzeichens.

Beispiel: Das chinesische Schriftzeichen für Berg (山 ''[[shān]]'') hat im Unicode den Codepunkt U+5C71 und benötigt zur Darstellung 15 Bit. Mit UTF-16 als cef wird es als eine Codeeinheit abgelegt. Mit ces Big-endian steht <code>5C 71</code> im Speicher, mit Little-endian <code>71 5C</code>. Mit UTF-8 stehen die drei Codeeinheiten <code>E5 B1 B1</code> im Speicher.

Die weitaus meisten Texte sind in einer der drei Unicode-encodings UTF-8, UTF-16BE oder UTF-16LE gespeichert, was den Umgang mit Texten wesentlich erleichtert.

== Siehe auch ==
* [[Code]]
* [[Chinesische Zeichenkodierung]]
* [[Mojibake]]

== Literatur ==
* Jacques André: ''Caractères numériques: introduction.'' In: ''Cahiers GUTenberg.'' Bd. 26, Mai 1997, {{ISSN|1257-2217}}, S. 5–44, (in französischer Sprache).
* Yannis Haralambous: ''Fonts & encodings. From Unicode to advanced typography and everything in between.'' Übersetzt von P. Scott Horne. O’Reilly, Beijing u. a. 2007, ISBN 978-0-596-10242-5 (in englischer Sprache).
* Peter Karow: ''Digitale Schriften. Darstellung und Formate.'' 2. verbesserte Auflage. Springer, Berlin u. a. 1992, ISBN 3-540-54917-X.
* Mai-Linh Thi Truong, Jürgen Siebert, [[Erik Spiekermann]] (Hrsg.): ''FontBook. Digital Typeface Compendium'' (= ''FontBook'' 4). 4. überarbeitete und erweiterte Auflage. FSI FontShop International, Berlin 2006, ISBN 3-930023-04-0 (in englischer Sprache).

== Weblinks ==
* Joel Spolsky: ''[http://www.joelonsoftware.com/articles/Unicode.html The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)]'' (''[http://www.bitloeffel.de/DOC/joelonsoftware/Unicode_de.html deutsch]'')
* [http://www.kalytta.com/tools.php Character Set Converter] – Windowsprogramm zum Konvertieren von Zeichensätzen.
* [https://www.cqse.eu/en/blog/no-such-thing-as-plain-text/ No Such Thing As Plain Text]

== Einzelnachweise ==
<references />

[[Kategorie:Zeichenkodierung| ]]

Zeichenkodierung - Versionsgeschichte

imported>Wassermaus: /* Differenzierung der Begriffe durch Einführung des Unicodes */