imported>Fw: Logo ergänzt

2024-11-22T16:52:04Z

Logo ergänzt

Neue Seite

[[Datei:Logo_Deutsches_Textarchiv.svg|mini|Logo Deutsches Textarchiv]]
Das '''Deutsche Textarchiv''' (DTA) ist ein seit Juli 2007 an der [[Berlin-Brandenburgische Akademie der Wissenschaften|Berlin-Brandenburgischen Akademie der Wissenschaften]] beheimatetes und im Zeitraum von 2007 bis 2017 von der [[Deutsche Forschungsgemeinschaft|Deutschen Forschungsgemeinschaft]] gefördertes<ref>{{Internetquelle |url=https://gepris.dfg.de/gepris/projekt/37149321?context=projekt&task=showDetail&id=37149321& |titel=DFG - GEPRIS - Deutsches Textarchiv (DTA) - Aufbau eines Aktiven Archivs deutscher Texte und Entwicklung entsprechender Werkzeuge |abruf=2024-11-22}}</ref> wissenschaftliches digitales Textarchiv. Das Deutsche Textarchiv hat es sich zur Aufgabe gemacht, eine disziplinübergreifende Auswahl deutschsprachiger Texte aus der Zeit um 1600 bis 1900 auf Grundlage von Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen.

== Struktur und Aufbau ==
Erklärtes Ziel des Deutschen Textarchives war es, dem Nutzer eine repräsentative und disziplinübergreifende Auswahl digitalisierter deutschsprachiger Texte zur Verfügung zu stellen. Neben [[Kanon der Literatur|kanonbildenden literarischen Werken]] legte die Konzeption des Deutschen Textarchives einen Schwerpunkt auf weniger bekannte und insbesondere auch nicht-literarische Texte. Um eine repräsentative Auswahl der Werke zu gewährleisten, griff das Deutsche Textarchiv auf eine auf der Grundlage von Bibliographien erstellte eigene Auswahlliste zurück. Das Archiv enthält zudem einen großen Teil des [[Textkorpus]] des ebenfalls an der Akademie beheimateten [[Deutsches Wörterbuch|Deutschen Wörterbuchs]] („Grimmsches Wörterbuch“). In einem letzten Schritt bat man die interdisziplinären Mitglieder der [[Berlin-Brandenburgische Akademie der Wissenschaften|Berlin-Brandenburgischen Akademie der Wissenschaften]], die nun erstellte Liste zu bewerten und aus ihrer fachlichen Perspektive fehlende Werke vorzuschlagen.

Unter der Leitung des Germanisten und Psycholinguisten [[Wolfgang Klein (Linguist)|Wolfgang Klein]] arbeitete im Deutschen Textarchiv an Aufbau und Pflege des Bestandes ein interdisziplinäres Team aus [[Buchwissenschaft|Buch-]] und [[Informationswissenschaft]]lern, [[Germanistik|Germanisten]], [[Computerlinguistik|Computerlinguisten]] und [[Informatik]]ern sowie eine Reihe von [[Studentische Hilfskraft|studentischen Hilfskräften]].

== Technische Realisierung ==
Bei der Digitalisierung des Bestandes arbeitete das DTA mit zahlreichen wissenschaftlichen Institutionen und Bibliotheken zusammen, die entsprechende Exemplare aus ihren Beständen zur Digitalisierung zur Verfügung stellten. Seit dem Beginn des Bestandsaufbaus wurden circa 540.000 Bilddigitalisate mit einem Datenvolumen von insgesamt knapp zehn Terabyte angefertigt.
Diese Digitalisate bildeten die Basis für die Erstellung der Volltexte. Je nach Qualität und Komplexität der Vorlagen wurden die Texte entweder durch eine [[Texterkennung|Texterkennungssoftware]] (OCR) erfasst und nachkorrigiert oder durch einen externen Partner im [[Double-Keying]]-Verfahren erfasst.
In einem letzten Schritt wurden die Texte sprachwissenschaftlich mit computerlinguistischen Hilfsmitteln indiziert.

Im Projekt wurden zudem Texte mit den entsprechenden Bildvorlagen aus weiteren Quellen und Beständen kuratiert und als Ergänzungskorpora<ref>{{Internetquelle |url=https://deutschestextarchiv.de/doku/textquellen#dtae |titel=Deutsches Textarchiv – Textquellen |abruf=2024-11-22}}</ref> (DTA-Erweiterungen, DTAE) im Umfang von ca. 600.000 Seiten aufgenommen.

Die Texte stehen sowohl im HTML-Format als auch in einem [[Text Encoding Initiative|TEI-P5-Format]] zum Download zur Verfügung. Ab Juli 2020 gilt für das DTA-Kernkorpus und weitere Texte aus den DTA-Erweiterungen (DTAE) die freie Creative-Commons-Lizenz CC BY-SA 4.0.<ref>{{Internetquelle |url=https://www.deutschestextarchiv.de/doku/nutzungsbedingungen |titel=Deutsches Textarchiv – Nutzungsbedingungen |abruf=2022-04-10}}</ref>

== Perspektiven ==
Das Deutsche Textarchiv dient im Rahmen der [[Nationale Forschungsdateninfrastruktur|Nationalen Forschungsdateninfrastruktur]] (NFDI) im Konsortium [[Text+]] als Repositorium für strukturierte, historische Texte. Zusätzlich zur eigenen Projektwebseite sind alle Textkorpora auch über die Korpusrecherche im [[Digitales Wörterbuch der deutschen Sprache|Digitalen Wörterbuch der deutschen Sprache]] (DWDS) abfragbar<ref>{{Internetquelle |url=https://www.dwds.de/d/korpora/dtak |titel=DTA-Kernkorpus (1598–1913) |datum=2024-08-14 |sprache=de |abruf=2024-11-22}}</ref><ref>{{Internetquelle |url=https://www.dwds.de/d/korpora/dtae |titel=DTA-Erweiterungen (1465–1969) |datum=2024-08-07 |sprache=de |abruf=2024-11-22}}</ref>.

Die Digitalisierung im Deutschen Textarchiv eröffnet neben sprach- und literaturwissenschaftlichen Untersuchungsmöglichkeiten auch buch- und kommunikationswissenschaftliche Forschungsperspektiven, wie beispielsweise Forschungen zur Typographie- und Verlagsgeschichte.

== Einzelnachweise ==
<references />

== Weblinks ==
* [https://www.deutschestextarchiv.de/ ''Deutsches Textarchiv (DTA)''] Homepage
* [https://www.bbaw.de/forschung/deutsches-textarchiv ''Deutsches Textarchiv''] Berlin-Brandenburgische Akademie der Wissenschaften

[[Kategorie:Germanistik]]
[[Kategorie:Sprachwissenschaft]]
[[Kategorie:Digitale Bibliothek]]
[[Kategorie:Korpuslinguistik]]
[[Kategorie:Computerlinguistik]]
[[Kategorie:Digital Humanities]]

Deutsches Textarchiv - Versionsgeschichte

imported>Fw: Logo ergänzt