Zum Inhalt springen

Schriftstatistik

aus Wikipedia, der freien Enzyklopädie

Schriftstatistik ist die paralinguistische Disziplin der quantitativen Analyse von Schriftsystemen.

Themen der Schriftstatistik

Anwendungsbezogene Aspekte

Die Schriftstatistik hat eine längere Tradition darin, die Häufigkeiten von Buchstaben und anderen Schriftzeichen in den verschiedenen Sprachen zu erheben. Dabei kann es um rein praktische Zwecke gehen, etwa darum, aufgrund der bekannten Häufigkeit von Buchstaben verschlüsselte Texte zu entziffern (De-Kryptographie). Ein anderer praktischer Ansatz waren Erhebungen zur Häufigkeit von Buchstaben und Buchstabenkombinationen, um eine möglichst sinnvolle, ökonomische Gestaltung von Kurzschriften zu erreichen.<ref>Hierher gehört als bekanntestes Werk: Friedrich Wilhelm Kaeding [Hrsg.]: Häufigkeitswörterbuch der deutschen Sprache. Festgestellt durch einen Arbeitsausschuß der deutschen Stenographie-Systeme. Erster Teil: Wort- und Silbenzählungen.Zweiter Teil: Buchstabenzählungen. Selbstverlag des Herausgebers, Steglitz bei Berlin: 1897/98. Teilabdruck in: Beiheft zu Grundlagenstudien aus Kybernetik und Geisteswissenschaften. Bd. 4 / 1963.</ref> Insoweit handelt es sich um ein traditionelles Forschungsgebiet der Sprachstatistik. Hilfreich war die Schriftstatistik auch bei der Gestaltung von optimalen Tastatur-Layouts.

Theoriebezogene Aspekte

Über diese praktischen Zwecke hinaus hat sich die quantitative Linguistik mit Schriftsystemen auseinandergesetzt. So lässt sich zum Beispiel zeigen, dass die Gestaltung von Schriftzeichen und Schriftsystemen gewissen Gesetzmäßigkeiten unterliegt. Bringt man etwa die Buchstaben eines Textes oder eines Textkorpus gemäß ihrer Häufigkeit in eine Rangordnung, so unterliegt diese Rangordnung bestimmten Gesetzen.<ref><templatestyles src="Webarchiv/styles.css" />{{#if:20150407191604

      | {{#ifeq: 20150407191604 | *
    | Vorlage:Webarchiv/Wartung/Stern{{#if: Archivierte Kopie | {{#invoke:WLink|getEscapedTitle|Archivierte Kopie}} | {{#invoke:Webarchiv|getdomain|http://lql.uni-trier.de/index.php/Phoneme_frequency}} }} (Archivversionen)
    | {{#iferror: {{#time: j. F Y|20150407191604}}
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/DatumDer Wert des Parameters {{#if: wayback | wayback | Datum }} muss ein gültiger Zeitstempel der Form YYYYMMDDHHMMSS sein!
         | {{#if: Archivierte Kopie | {{#invoke:WLink|getEscapedTitle|Archivierte Kopie}} | {{#invoke:Webarchiv|getdomain|http://lql.uni-trier.de/index.php/Phoneme_frequency}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2019-05-12 21:08:34 InternetArchiveBot | 2019-05-12 21:08:34 InternetArchiveBot |  }} |  des Vorlage:Referrer }} vom {{#time: j. F Y|20150407191604}} im Internet Archive{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
      }}
  }}
      | {{#if:
          | {{#iferror: {{#time: j. F Y|{{{webciteID}}}}}
    | {{#switch: {{#invoke:Str|len|{{{webciteID}}}}}
       | 16= {{#if: Archivierte Kopie | {{#invoke:WLink|getEscapedTitle|Archivierte Kopie}} | {{#invoke:Webarchiv|getdomain|http://lql.uni-trier.de/index.php/Phoneme_frequency}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2019-05-12 21:08:34 InternetArchiveBot | 2019-05-12 21:08:34 InternetArchiveBot |  }} |  des Vorlage:Referrer }} vom {{#time: j. F Y| 19700101000000 + {{#expr: floor {{#expr: {{#invoke:Str|sub|{{{webciteID}}}|1|10}}/86400}} }} days}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
       | 9 = {{#if: Archivierte Kopie | {{#invoke:WLink|getEscapedTitle|Archivierte Kopie}} | {{#invoke:Webarchiv|getdomain|http://lql.uni-trier.de/index.php/Phoneme_frequency}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2019-05-12 21:08:34 InternetArchiveBot | 2019-05-12 21:08:34 InternetArchiveBot |  }} |  des Vorlage:Referrer}} vom {{#time: j. F Y| 19700101000000 + {{#expr: floor {{#expr: {{#invoke:Str|sub|{{#invoke:Expr|base62|{{{webciteID}}}}}|1|10}}/86400}} }} days}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
       | #default= Der Wert des Parameters {{#if: webciteID | webciteID | ID }} muss entweder ein Zeitstempel der Form YYYYMMDDHHMMSS oder ein Schüsselwert mit 9 Zeichen oder eine 16-stellige Zahl sein!Vorlage:Webarchiv/Wartung/webcitation{{#if:  || }}
      }}
    | c|{{{webciteID}}}}} {{#if: Archivierte Kopie | {{#invoke:WLink|getEscapedTitle|Archivierte Kopie}} | {{#invoke:Webarchiv|getdomain|http://lql.uni-trier.de/index.php/Phoneme_frequency}} }} (Memento{{#if: {{#if: 2019-05-12 21:08:34 InternetArchiveBot | 2019-05-12 21:08:34 InternetArchiveBot |  }} |  des Vorlage:Referrer}} vom {{#time: j. F Y|{{{webciteID}}}}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
  }}
          | {{#if: 
              | Vorlage:Webarchiv/Today
              | {{#if:
                      | Vorlage:Webarchiv/Generisch
                      | {{#if: Archivierte Kopie | {{#invoke:WLink|getEscapedTitle|Archivierte Kopie}} | {{#invoke:Webarchiv|getdomain|http://lql.uni-trier.de/index.php/Phoneme_frequency}} }}  
                 }}}}}}}}{{#if:2019-05-12 21:08:34 InternetArchiveBot
    | Vorlage:Webarchiv/archiv-bot
  }}{{#invoke:TemplatePar|check
     |all      = url=
     |opt      = text= wayback= webciteID= archive-is= archive-today= archiv-url= archiv-datum= ()= archiv-bot= format= original=
     |cat      = Wikipedia:Vorlagenfehler/Vorlage:Webarchiv
     |errNS    = 0
     |template = Vorlage:Webarchiv
     |format   = *
     |preview  = 1
  }}{{#ifexpr: {{#if:20150407191604|1|0}}{{#if:|+1}}{{#if:|+1}}{{#if:|+1}}{{#if:|+1}} <> 1
    | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Genau einer der Parameter 'wayback', 'webciteID', 'archive-today', 'archive-is' oder 'archiv-url' muss angegeben werden.|1}}
  }}{{#if: 
    | {{#switch: {{#invoke:Webarchiv|getdomain|{{{archiv-url}}}}}
        | web.archive.org = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von Internet Archive erkannt, bitte Parameter 'wayback' benutzen.|1}} 
        | webcitation.org = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von WebCite erkannt, bitte Parameter 'webciteID' benutzen.|1}} 
        | archive.today |archive.is |archive.ph |archive.fo |archive.li |archive.md |archive.vn = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von archive.today erkannt, bitte Parameter 'archive-today' benutzen.|1}}
      }}{{#if: 
         | {{#iferror: {{#iferror:{{#invoke:Vorlage:FormatDate|Execute}}|}}
             | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Wert des Parameter 'archiv-datum' ist ungültig oder hat ein ungültiges Format.|1}}
          |  }} 
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Pflichtparameter 'archiv-datum' wurde nicht angegeben.|1}}
      }}
    | {{#if: 
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Parameter 'archiv-datum' ist nur in Verbindung mit 'archiv-url' angebbar.|1}}
      }}
  }}{{#if:{{#invoke:URLutil|isHostPathResource|http://lql.uni-trier.de/index.php/Phoneme_frequency}}
    || {{#if:  || }}
  }}{{#if: Archivierte Kopie
    | {{#if: {{#invoke:WLink|isBracketedLink|Archivierte Kopie}}
        | {{#if:  || }}
      }}
    | {{#if:  || }}Vorlage:Webarchiv/Wartung/Linktext_fehlt
  }}{{#switch: 
    |addlarchives|addlpages= {{#if:  || }}{{#if: 1 |Vorlage:Webarchiv/Wartung/Parameter}}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: enWP-Wert im Parameter 'format'.|1}}
  }}{{#ifeq: {{#invoke:Str|find|http://lql.uni-trier.de/index.php/Phoneme_frequency%7Carchiv}} |-1
    || {{#ifeq: {{#invoke:Str|find|{{#invoke:Str|cropleft|http://lql.uni-trier.de/index.php/Phoneme_frequency%7C4}}%7Chttp}} |-1
         || {{#switch: {{#invoke:Webarchiv|getdomain|http://lql.uni-trier.de/index.php/Phoneme_frequency }}
              | abendblatt.de | daserste.ndr.de | inarchive.com | webcitation.org = 
              | #default = {{#if:  || }}{{#if: 1 |Vorlage:Webarchiv/Wartung/URL}}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Archiv-URL im Parameter 'url' anstatt URL der Originalquelle. Entferne den vor der Original-URL stehenden Mementobestandteil und setze den Archivierungszeitstempel in den Parameter 'wayback', 'webciteID', 'archive.today' oder 'archive-is' ein, sofern nicht bereits befüllt.|1}}
            }} 
       }}
  }}</ref> Dasselbe gilt für die Verwendung von Schriftzeichen, deren Gestaltung sehr unterschiedlich komplex sein kann und deren Verteilung in Texten von dieser Komplexität<ref>Zur Möglichkeit, die Komplexität von Schriftzeichen zu bestimmen, siehe unter anderem: Gabriel Altmann: Script complexity, in: Glottometrics 8, 2004, S. 68–74 (PDF Volltext); Carsten Peust: Script Complexity Revisited, in: Glottometrics 12, 2006, S. 11–15 (PDF Volltext); Tomi S. Melka, Gabriel Altmann: Script complexity: A Case Study, in: Glottometrics 28, 2014, S. 56–74 (PDF Volltext).</ref> abhängig ist, wie dies besonders bei chinesischen Schriftzeichen deutlich wird.<ref>Xiaoli Yu: Zur Komplexität chinesischer Schriftzeichen. In: Göttinger Beiträge zur Sprachwissenschaft 5, 2001, Seite 121–129.</ref><ref>Hartmut Bohn: Quantitative Untersuchungen der modernen chinesischen Sprache und Schrift. Verlag Dr. Kovač, Hamburg 1998, Seite 52–56, 78–94. ISBN 3-86064-672-9.</ref><ref>http://lql.uni-trier.de/index.php/Char_Complexity</ref><ref>Panchanan Mohanty, Ioan-Iovitz Popescu, Gabriel Altmann: Script Complexity in Indian Languages. In: Glottometrics 44, 2019, Seite 94–99 (PDF Volltext).</ref>

Ein weiterer Bereich, in dem sich Gesetzmäßigkeiten aufzeigen lassen, ist die Geschichte der Vermehrung von Schriftzeichen in Sprachen wie dem Chinesischen, das keine Buchstabenschrift, sondern eine weitgehend logographische Schrift verwendet. Die Zunahme der Schriftzeichen, für die Daten von etwa 200 vor Christus bis 1995 vorliegen, folgt einem bekannten Wachstumsgesetz, dem Piotrowski-Gesetz.<ref>Karl-Heinz Best, Jinyang Zhu: Ein Modell für die Zunahme chinesischer Schriftzeichen. In: Glottometrics 20, 2010, Seite 29–33 (PDF Volltext).</ref>

Zur Wiedergabe der Phoneme einer Sprache durch Grapheme

Ein in mehrerer Hinsicht wichtiger Aspekt ist die Frage, wie in einer Sprache die Phoneme durch die Grapheme wiedergegeben werden. Unter Graphem werden in diesem Zusammenhang diejenigen Schriftzeichen verstanden, die in einer Sprache geeignet sind, ein bestimmtes Phonem orthographisch wiederzugeben. Im Deutschen kann man zum Beispiel das Phonem /i/ (kurzes i) nur durch das Schriftzeichen < i > („dick“) wiedergeben, das Phonem /o:/ (langes o) dagegen mit den Schriftzeichen/Schriftzeichenkombinationen < o, oo, oh > („Brot, Moor, Sohn“), die gemeinsam sein Graphem darstellen. Im ersten Fall gibt es also nur eine Möglichkeit der orthographischen Realisierung des Phonems /i/, im anderen Fall aber drei Möglichkeiten.

Dies kann man auf das gesamte Phonemsystem einer Sprache anwenden und berechnen, wie sicher sich jemand sein kann, wenn er die Phoneme gemäß den orthographischen Regeln schriftlich wiedergeben will. Im obigen Beispiel ist deutlich, dass die Sicherheit im Fall des Phonems /i/ größer ist als im Fall des Phonems /o:/. Je mehr Schriftzeichen durchschnittlich für die orthographische Realisierung der Phoneme möglich sind, desto höher ist die Unsicherheit, die jemand bewältigen muss, wenn er etwas schriftlich niederlegen will. Diese Unsicherheit ist ein wesentliches Merkmal von Schriftsystemen.

Neben der Unsicherheit lassen sich weitere Kriterien entwickeln: die Graphemgröße (Zahl der Schriftzeichen pro Graphem), die Graphembelastung (Zahl der Grapheme, in denen ein bestimmtes Schriftzeichen vorkommt) und die Nützlichkeit der Schriftzeichen, die als umso größer verstanden wird, je häufiger ein bestimmtes Schriftzeichen in einem Graphem an vorderer Stelle steht. Mit solchen und möglicherweise weiteren Kriterien können ganze Schriftsysteme charakterisiert und miteinander verglichen werden. Vergleicht man das deutsche mit dem schwedischen Schriftsystem, so lässt sich feststellen, dass das schwedische einen geringeren Grad an Unsicherheit aufweist.<ref>Karl-Heinz Best, Gabriel Altmann: Some properties of graphemic systems, in: Glottometrics 9, 2005, Seiten 29–39 (PDF Volltext)</ref> In einer neueren Untersuchung wurden auf dieser Basis ausführlich Probleme des persischen Schriftsystems untersucht und in Vergleich mit sieben anderen Sprachen gesetzt.<ref>Tayebeh Mosavi Miangah, Relja Vulanović: The Ambiguity of the Relations between Graphemes and Phonemes in the Persian Orthographic System, in: Glottometrics 50, 2021, Seiten 9–26 (PDF Volltext)</ref>

Bisher war nur von vier Kriterien für Schriftsysteme die Rede. Gabriel Altmann hat versucht, einen Regelkreis zu entwickeln, der insgesamt vierzehn solcher Kriterien enthält und ihre Interaktionen modelliert.<ref>Gabriel Altmann: Towards a theory of script. In: Gabriel Altmann, Fan Fengxiang: Analyses of Script. Properties of Characters and Writing Systems. Mouton de Gruyter, Berlin / New York, 2008, S. 149–164; Regelkreis: S. 160.</ref>

Literatur

  • {{#invoke:Vorlage:Literatur|f}}
  • Karl-Heinz Best: Zur Häufigkeit von Buchstaben, Leerzeichen und anderen Schriftzeichen in deutschen Texten. In: Glottometrics 11, 2005, Seiten 9–31 (PDF Volltext).

Einzelnachweise

<references />

Weblinks

[[wikt:{{#if:|{{{lang}}}:}}{{#if:Paralinguistik|Paralinguistik|{{#invoke:WLink|getArticleBase}}}}|Wiktionary: {{#if:|{{{2}}}|{{#if:Paralinguistik|Paralinguistik|{{#invoke:WLink|getArticleBase}}}}}}]]{{#switch: 1

|1|= – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen |0|-= |X|x= |#default= –

}}{{#if:| {{#ifeq: {{{lang}}} | de | {{#ifeq: 0 | 0 | }} | ({{#invoke:Multilingual|format|{{{lang}}}|slang=!|shift=m}}) }}}}

{{#invoke:TemplatePar|check

  |opt= 1= 2= lang= suffix=
  |template=Vorlage:Wiktionary
  |cat=Wikipedia:Vorlagenfehler/Schwesterprojekt
  }}