imported>Siegbert v2: Punkt entfernt

2025-01-27T09:11:30Z

Punkt entfernt

Neue Seite

In der [[Wirtschaftsinformatik]] und [[Computerlinguistik]] sind '''unstrukturierte Daten''' digitalisierte [[Information]]en, die in einer nicht formalisierten Struktur vorliegen und auf die dadurch von [[Computerprogramm]]en nicht über eine einzelne [[Softwareschnittstelle|Schnittstelle]] [[Aggregation (OLAP)|aggregiert]] zugegriffen werden kann. Beispiele sind digitale Texte in [[Natürliche Sprache|natürlicher Sprache]] und digitale Tonaufnahmen menschlicher Sprache.

== Einordnung ==
Unterschieden werden unstrukturierte Daten von [[Datenstruktur|strukturierten]] und [[Semistrukturierte Daten|semistrukturierten]] Daten.
Betrachtet man eine [[E-Mail]], so liegt diese in einer gewissen [[Struktur]] vor: Sie enthält einen Empfänger, einen Absender und eventuell einen Titel. Damit gehört sie zu den semistrukturierten Daten. Der Inhalt der E-Mail selbst ist jedoch strukturlos.

Die automatische Nutzbarkeit unstrukturierter Daten ist dadurch eingeschränkt, dass für sie kein [[Datenmodell]] und meist auch keine [[Metadaten]] vorliegen. Auch in Textdokumenten sind Metadaten und Daten vermischt. Um Strukturen daraus zu gewinnen, ist Modellierung erforderlich. Des Weiteren wird von unstrukturierten Daten im Zusammenhang mit der Ablage von Dokumenten ohne vorhandenem [[Data-Warehouse-Prozess|Data-Warehousing]] gesprochen.<ref>{{Internetquelle |autor=Holger Eriksdotter |url=http://www.computerwoche.de/subnet/oracle-data-expert/1908337/ |titel=Unstrukturierte Daten: Der ungehobene Schatz |werk=[[Computerwoche]] |datum=2009-11-02 |sprache=de |archiv-url=https://web.archive.org/web/20101117021508/http://www.computerwoche.de/subnet/oracle-data-expert/1908337/ |archiv-datum=2010-11-17 |abruf=2010-09-26}}</ref> Dadurch sind diese nicht [[Datenbankindex|indizierbar]] und können dementsprechend nicht gemeinsam durchsucht werden.

== Bedeutung ==
Viele Daten sind bei ihrem Ursprung unstrukturiert. Sie gewinnen Struktur, indem sie durch menschliche Intervention in ein [[Schema (Informatik)|Schema]] gebracht werden. Der Vorgang der Strukturierung kann Nachteile hervorrufen, da er oft mit einem Informationsverlust verbunden ist. Im Unternehmensumfeld liegen oftmals wichtige Informationen in unstrukturierten Daten vor, deren Nichterfassung auch rechtliche Probleme verursachen kann.<ref>{{Internetquelle |url=http://www.cio.de/dynamicit/management_strategie/831500 |titel=Unstrukturierte Daten: Die Bombe tickt |werk=[[CIO (Magazin)|CIO]] |datum=2007-01-09 |sprache=de |archiv-url=https://web.archive.org/web/20101117012059/http://www.cio.de/dynamicit/management_strategie/831500 |archiv-datum=2010-11-17 |abruf=2017-01-12}}</ref> Daher befassen sich die Felder [[Wissensmanagement]] und [[Datenmanagement]] mit deren Integration und Verwaltung.

Um die unstrukturierten Daten mit Strukturen zu versehen, existiert im Bereich [[Open Source]] das [[Framework]] [[UIMA]] (Unstructured Information Management Architecture). Dies ist ein Framework zum Erstellen von Anwendungen zur Verarbeitung von unstrukturierten Informationen.

== Behandlung von unstrukturierten Daten ==

Speziell für die Strukturierung der Daten können folgende Verfahren in Betracht gezogen werden:

# Textanalyse und [[Textmining]] existieren schon seit vielen Jahren auf dem Markt. Die Produkte dafür weisen eine solide [[Marktreife]] auf. Verschiedene kleine spezialisierte Hersteller haben Werkzeuge dafür entwickelt. Manche [[Business Intelligence|Business-Intelligence]]-Hersteller haben solche Technologien auf Druck des Marktes dazu gekauft. Textmining kann manuell, durch statistische Verfahren, über maschinelles Lernen oder über die Verarbeitung natürlicher Sprachen erfolgen. Es kann Begriffe und Konzepte in [[Thesauri]] liefern, die unabdingbar für zusätzliche Business-Intelligence-Analysen werden können.<ref name=Text-Web-Mining>{{Internetquelle |autor=Klaus Manhart |url=http://www.computerwoche.de/software/bi-ecm/1755558/ |titel=Unstrukturierte Daten: Auf Datensuche mit Textmining und Web-Mining |werk=Computerwoche |datum=2008-05-20 |sprache=de |archiv-url=https://web.archive.org/web/20090729070326/http://www.computerwoche.de/software/bi-ecm/1755558/ |archiv-datum=2009-07-29 |abruf=2010-09-26}}</ref><ref>{{Internetquelle |autor=Alexandru Draghici |url=http://www.beyenetwork.de/view/12232 |titel=BI Kennzahlen benötigen einen Kontext |werk=beyenetwork.de |datum=2009-12-01 |sprache=de |archiv-url=https://web.archive.org/web/20091208164149/http://www.beyenetwork.de/view/12232 |archiv-datum=2009-12-08 |abruf=2010-09-24}}</ref>
# [[Maschinelles Lernen]] basiert auf statistischen Verfahren wie [[Bayes-Klassifikator]]en, [[Künstliches neuronales Netz|künstlichen neuronalen Netzwerken]], oder [[Latente Semantische Analyse|latenter semantischer Analyse]] (LSA). Es ist viel effektiver als die klassischen statistischen Verfahren, jedoch nicht überall anwendbar. Es erfordert Überwachung und Training der Maschinen, und wie bei den [[Data-Mining]] Verfahren ist ein tiefes Wissen der Materie notwendig.<ref name=Text-Web-Mining/>
# Linguistische Verfahren können schneller als maschinelles Lernen sein, und manchmal auch akkurater. Sie können Ambiguität reduzieren, benötigen aber nach wie vor die menschliche Intervention. Hier sind die Modelle im Vergleich zu LSA und maschinellem Lernen einfacher zu verstehen.
{{Siehe auch|Datenmodellierung}}

== Weblinks ==
* {{Internetquelle |autor=Seth Grimes |url=http://www.intelligententerprise.com/showArticle.jhtml?articleID=59301538 |titel=Structure, Models and Meaning |werk=Intelligent Enterprise |datum=2005-03-01 |sprache=en |archiv-url=https://web.archive.org/web/20050302095812/http://www.intelligententerprise.com/showArticle.jhtml?articleID=59301538 |archiv-datum=2005-03-02 |abruf=2010-09-24 |abruf-verborgen=ja}}
* {{Internetquelle |url=https://www.forbes.com/2007/04/04/teradata-solution-software-biz-logistics-cx_rm_0405data.html |titel=Structuring Unstructured Data |werk=[[Forbes Magazine]] |datum=2007-04-05 |sprache=en |abruf=2010-09-24 |abruf-verborgen=ja}}

== Einzelnachweise ==
<references />

[[Kategorie:Wirtschaftsinformatik]]
[[Kategorie:Computerlinguistik]]

Unstrukturierte Daten - Versionsgeschichte

imported>Siegbert v2: Punkt entfernt