Metainformationen zum Buch
Im Rahmen der quantitativen Linguistik werden Werke statistisch untersucht, aus statistischen Verteilungen werden Zahlenwerte zu einem Werk berechnet, welche als Charakteristika das jeweilige Werk repräsentieren können sollen.
Charakteristika von Werken, welche in digitaler Form als EPUBs oder XHTML-Dokumente frei verfügbar sind, werden in dieser Arbeit für einen deutschsprachigen und einen englischsprachigen Korpus sowie darin befindliche Sammlungen oder Einzelwerke ermittelt und hinsichtlich ihrer Relevanz und Aussagekraft untersucht.
Der deutsche Korpus umfaßt mehr als 101 Millionen Wörter, der englische mehr als 115 Millionen Wörter. Die Korpora setzen sich aus den gesammelten Werken bekannterer und weniger bekannter Autoren zusammen, hinzu kommen weitere Sammlungen und Einzelwerke aus unterschiedlichen Quellen.
Die ermittelten Wort-Rangfolge-Häufigkeitsverteilungen sowie Worttypen-Häufigkeitsverteilungen werden ferner verwendet, um simulierte Werke definierter Länge mit vorgegebenem Vokabularium zu erzeugen und zu analysieren, um die Abhängigkeit der Charakteristika vom verwendeten Vokabularium sowie der Werklänge nachzuvollziehen, Charakteristika besser in ihrer Relevanz und Aussagekraft einzuordnen.
Ferner werden weitere charakteristische Textstrukturen ermittelt, etwa Verteilungen und deren statistische Momente zu Wortlängen, Satzlängen, Häufigkeit von Kommata pro Satz, Absatzlängen, Kapitellängen. Entsprechend werden für die beiden Korpora ebenso verwendete Elemente zur semantischen Textauszeichnung und Zeichen-Rangfolge-Häufigkeitsverteilungen ermittelt, sowie die häufigsten verwendeten Zeichen und Wörter aufgelistet.
Charakteristika quantitativer Textanalyse digitaler Bücher
Inhaltsverzeichnis
Epigraph
Die Zahl ist das Wesen aller Dinge.
Pythagoras von Samos
Die Statistik ist eine schneidende Waffe, eine unanfechtbare, die allen leeren Behauptungen ein jähes Ende macht, vor welcher die schnöde Phrase wie Spreu im Winde verweht.
Hedwig Dohm
Die Sprache gehört zum Charakter des Menschen.
Francis Bacon
Alle Sprache ist Bezeichnung der Gedanken, und umgekehrt die vorzüglichste Art der Gedankenbezeichnung ist die durch Sprache, dieses größte Mittel, sich selbst und andere zu verstehen.
Immanuel Kant
Vitaler Nebel mit Sinn ist im Leben relativ.
Palindrom, unbekannter Verfasser
Vorwort
Zum Inhalt
Mehr oder weniger unabhängig voneinander ist bei den Autoren dieses Buches die Idee aufgekommen, Skripte zu entwickeln, welche Texte schreiben. Dabei blieb lange unklar, wie diese Skripte dies hinbekommen sollen. Künstliche Intelligenz dafür zu entwickeln, schien jedenfalls außer Reichweite, zudem wären damit Bücher kaum mit normalen, gängigen Rechnern und dem Aufwand einzelner Autoren hinzubekommen gewesen.
Unterdessen sind um das Jahr 2020 herum Programme wie GPT-2, GPT-3, OpenAI bekannter geworden, zudem kann mit inferkit ein solches Programm getestet werden. Einige eigene Versuche mit dem Skript sind in der Kurzgeschichtensammlung Firlefänzchen von Marie de Sade zu finden.
Bei derartigen Tests stellt sich allerdings schnell jedenfalls bei Versuchen in deutscher Sprache heraus, daß es sich eher um Künstliche Dummheit handelt oder um Künstliche Demenz, denn das Programm verliert den thematischen Faden bereits innerhalb eines Absatzes oder Satzen und produziert bloß blödsinniges Zeug, beherrscht ferner Grammatik und Satzbau nicht richtig, zudem scheint die Konstruktion zum guten Teil unabhängig von den gewählten Wörtern zu sein, implizieren doch zahlreiche Verben etwa besondere Satzkonstruktionen, Erweiterungen, was dem Programm nicht bekannt zu sein scheint.
Dies könnte sich allerdings im Laufe der nächsten Dekade ändern.
In sehr speziellen Bereichen wie Sportberichterstattung produzieren spezielle Programme wohl schon brauchbare stereotype Texte, was allerdings mit Intelligenz nicht notwendig viel zu tun hat, jedenfalls was das Programm anbelangt, hinsichtlich der Programmierer eventuell durchaus.
Insgesamt schien zum Beginn gemeinsamer Überlegungen 2017 also zunächst ein anderer Weg lohnenswert. Dieser hat allerdings Skripte zur quantitativen Textanalyse erfordert, ebenso zur statistischen Aufbereitung der Ergebnisse für größere Korpora. Auf der Grundlage oder teils auch parallel dazu konnten wiederum Skripte entwickelt werden, um die gewünschten Texte mit verschiedenen Ansätzen schreiben zu lassen, welche als Abstrakte Literatur veröffentlicht werden, welche also anders als Texte von Künstlichen Intelligenzen keineswegs den Anspruch haben, verständliche Texte von Menschen zu simulieren.
In der Diskussion miteinander ergab sich alsdann relativ schnell ein grobes Konzept, wie dabei schrittweise vorgegangen werden könnte. Grundlage dazu wurde die Entwicklung eines Skriptes, welches in der Lage ist, die klar definierten Strukturen von EPUBs zu analysieren, charakteristische Größen zu berechnen, um so Merkmale, Verteilungen zu erhalten, welche als Vorlage oder Vorbilder für von einem Skript erzeugten Werken dienen könnten. Damit war letztlich ein Einstieg in die quantitative Linguistik digitaler Bücher gegeben.
Klassisch gehört die Linguistik zu den deskriptiven Wissenschaften, insbesondere ist die quantitative Linguistik stark deskriptiv und wenig konstruktiv ausgerichtet. Folglich ist auch hier die Hypothesenbildung zurückhaltend. Weil aber in der Linguistik bereits Merkmale oder Charakteristika etabliert sind, lohnt es sich, deren Relevanz als Hypothese zu untersuchen, sorgsam zu vergleiche, zu prüfen, zu visualisieren, zu reflektieren, was dem Publikum die Daten über Werke sagen mögen.
Es geht also dabei um die Frage, was derart statistisch ermittelte Zahlen, Daten dem Publikum über Werke sagen, inwiefern können damit verschiedene Werke verglichen werden?
Über wen oder was wird alsdann bei solch einem Vergleich eigentlich was für eine Aussage getroffen?
Sind vielleicht Schlußfolgerungen aus solchen statistisch ermittelten Daten immer Rhetorik?
Handelt es sich trotzdem immer um eine Frage der Auslegung, Interpretation, wobei die statistische Auswertung, die dargebrachten Zahlen objektive Maße, relevante Charakteristika suggerieren?
Die Ergebnisse der ersten Analysen wurden alsdann verwendet, um mit weiteren Skripten erste einfache Texte zu erzeugen. Dabei handelt es sich um Texte aus dem Genre der Abstrakten Literatur unterschiedlicher Komplexität und Struktur.
Auch die Analyse frei verfügbarer Texte wurde weiter fortgesetzt, sowohl in Form der Vergrößerung des verwendeten Korpus als auch der Verfeinerung der Untersuchung selbst. Daraus haben sich Fragestellungen ergeben, was eigentlich gemeinhin benutzte Charakteristika über ein Werk aussagen, was davon wirklich relevant ist, um Aussagen über Werke zu machen oder damit verschiedene Werke zu vergleichen.
Daraus hat sich letztlich dieses Buch als eigenständiges Werk entwickelt. Die Anfänge davon wurden zunächst im ersten Werk der Abstrakten Literatur der beiden Autoren ‚Ic‘ als Vorspann veröffentlicht. Mit zunehmenden Umfang der untersuchten Korpora sowie der Visualisierung von Verteilungen in Graphiken sowie der gelisteten Ergebnisse erschien es jedoch sinnvoller, den Sachtext mit den Analysen in ein eigenes Buch auszulagern.
Damit ist die Analyse von der Kreation neuer Werke getrennt, kann unabhängig davon dem Publikum angeboten und weiter gepflegt oder erweitert werden.
Der Fokus der Untersuchungen liegt zum guten Teil darauf, darüber zu reflektieren, welche Charakteristika der quantitativen Linguistik wirklich aussagekräftig oder verwertbar sind, um einerseits brauchbare Aussagen über Texte wagen zu können, andererseits für eigene Werke der genannten speziellen Art passable Verteilungen zu erzeugen. Was gemeinhin in dem Fachbereich verwendet wird, muß nicht zwangsläufig besonders aussagekräftig oder relevant sein. In anderen Fachbereichen wie etwa der Informatik oder der statistischen Physik haben sich andere Observablen für Information oder Entropie etabliert, welche ebenfalls als relevant untersucht werden sollten. Daher war in dieser Arbeit insbesondere auch zu untersuchen, was charakteristisch ist, wie sich in den Daten individuelle Unterschiede zwischen Werken oder Autoren äußern könnten.
Technisches
Technisch wurden bei diesem EPUB einige Hilfen integriert, um dem Leser besseren Zugang zum Inhalt zu ermöglichen. Es gibt etwa verschiedene Stilvorlagen, zwischen denen gewählt werden kann. Bei einem Darstellungsprogramm, welches EPUB komplett interpretieren kann, wird es eine solche Auswahlmöglichkeit geben. Von daher kann dann leicht zwischen heller Schrift auf dunklem Grund und einer dunklen Schrift auf hellem Grund gewechselt werden.
Wem der voreingestellte Stil nicht so zusagt, kann einfach zu einem anderen Stil wechseln oder die Interpretation von Autoren-Stilvorlagen komplett deaktivieren oder eine eigene Stilvorlage verwenden.
Einige Darstellungsprogramme sind allerdings fehlerhaft und bieten keine Wahlmöglichkeit an. Falls der voreingestellte Stil dann nicht zusagt, ist zu empfehlen, einfach ein leistungsfähigeres Programm zu verwenden, welches EPUB korrekt interpretiert.
Verfügbare alternative Stilvorlagen:
Autoren sowie Mitarbeiter dieses Buches haben keinerlei Einfluß auf Mängel, Fehler, Lücken in der Interpretation von EPUB durch das jeweils verwendete Darstellungsprogramm. Bei Darstellungsproblemen sollten diese zunächst analysiert, lokalisiert werden. Dazu kann es unter anderem als erster Schritt helfen, mit verschiedenen Programmen auf Reproduzierbarkeit zu prüfen oder auch mit speziellen Prüfprogrammen zu verifizieren, daß insbesondere im Buch selbst wirklich kein Fehler vorliegt.
Entsprechend wird es anschließend möglich sein, eine zielführende Fehlermeldung korrekt zu adressieren. Die Autoren sowie Mitarbeiter können je nach Fehler durchaus die korrekten Ansprechpartner sein. Bei der Qualität aktueller Darstellungsprogramme können dies jedoch gleichfalls mit hoher Wahrscheinlichkeit die Entwickler dieser Darstellungsprogramme sein. Entsprechend sind möglichst präzise Angaben zum Problem bei einer Fehlermeldung immer hilfreich.
Generell ist die Fehlerrate bei Darstellungsprogrammen vom Typ Brauser gängiger Anbieter deutlich geringer als bei speziellen Programmen oder Erweiterungen für Brauser zur Interpretation von EPUB. Insofern kann es bei größeren Problemen mit der Darstellung ebenfalls ein Ausweg sein, das EPUB-Archiv zu entpacken (es handelt sich bei EPUB immer um ein Archiv vom Typ ZIP, das Buch alsdann direkt im Brauser zu lesen, wozu zunächst die Datei Inhaltsverzeichnis.xhtml im Verzeichnis Inhalt aufzurufen ist, um einen Einstieg in die Lesereihenfolge sowie einen Überblick über den Inhalt zu bekommen. Über die Verweisfunktion des Verzeichnisses kann anschließend jeweils der gewünschte Inhalt aufgerufen werden.
Dieses Vorgehen kann gleichfalls nützlich sein, um Probleme oder Fehler zu lokalisieren. Bei Einzeldokumenten sind überdies andere Prüfprogramme verwendbar.
Bei automatischen Konversionen dieses Buches im Format EPUB in andere Formate können diverse Mängel auftreten, welche sowohl an Fehlern und Problemen der zu naiv und einfach konzipierten Konversionsprogramme als auch an dem Format liegen können, in welches konvertiert wird. Autorin und Mitarbeiter dieses Buches haben keine Kontrolle über spätere Manipulationen oder Formatkonversionen, haben also keinen Einfluß auf die komplette Verfügbarkeit von Inhalten und Hilfen solch manipulierter Versionen. Sie empfehlen daher dringend, das unveränderte Original zu verwenden und sich dieses von einem leistungsfähigen Darstellungsprogramm präsentieren zu lassen.
Manuell ist es recht problemlos möglich, einige Techniken und Merkmale des Buches so weit zu vereinfachen, Inhalte anders aufzubereiten, um diese auch in verminderter Qualität in anderen Formaten verfügbar zu machen. Insbesondere bei wohl noch immer recht beliebten proprietären Amazon-Formaten (Mobipocket oder KF8) ist es recht einfach, ein passend vereinfachtes EPUB zu erstellen, aus welchem sich ein lesbares Buch in diesen minderwertigeren Formaten erzeugen läßt, sofern man sich mit EPUB und den Möglichkeiten dieser Formate etwas auskennt.
Quantitative Linguistik
Betrachtungsgegenstand der quantitativen Linguistik ist Sprache – wie wird diese verwendet, welche Unterschiede ergeben sich zwischen verschiedenen Sprachen, der Verwendung der gleichen Sprache durch verschiedene Autoren, die Veränderung der Verwendung von Sprache bei einem Autor über dessen Lebenszeit.
Welche Strukturen, Charakteristika lassen sich in verschiedenen Werken erkennen, was davon eignet sich, um diese unabhängig vom jeweils behandelten Thema voneinander abzugrenzen?
Welcher Wörter werden häufig genug verwendet, um in Wörterbücher aufgenommen zu werden?
Eng verwandt, teilweise Grundlage ist ferner die statistische Linguistik, welche sich weitgehend auf die statistische Analyse von Strukturhäufigkeiten beschränkt, auf Hypothesenbildung verzichtet.
Ziel ist also ein besseres Verständnis durch statistische Auswertungen von Texten, den Vergleich von Werken, dem Schaffen von Autoren. Mehr oder weniger zwangsläufig geht es dabei hauptsächlich um schriftlich fixierte Sprache. Gesprochene Sprache weicht davon noch einmal deutlich ab. Ferner ist es je nach Person höchst unterschiedlich, wieviele Äußerungen schriftlich festgehalten sowie für eine statistische Untersuchung frei verfügbar sind.
Bevorzugt untersucht oder untersuchbar sind somit primär Werke von Personen, welche sich ausgiebig schriftlich geäußert haben, deren Werke ferner digitalisiert einer statistischen Untersuchung gut zugänglich sind. Eine Sammlung von untersuchten Texten oder Dokumenten wird Korpus oder Textkorpus genannt. Je nachdem, aus welchen Texten ein Korpus zusammengesetzt ist, kann die statistische Analyse unterschiedliche Ergebnisse erbringen. Weil es keinen Korpus geben kann, welcher zum Beispiel eine gesamte Sprache umfaßt, ebenso eine repräsentative Auswahl als Korpus schwerlich belegbar ist, kann sich aus der Wahl der Texte ein systematisches Problem ergeben. Daher ist es eher möglich, in Form von Gegenbeispielen Hypothesen zu falsifizieren als präzise Gesetzmäßigkeiten herauszufinden. Diese mögen sich indessen näherungsweise ergeben, wenn verschiedene Korpora dieselbe Hypothese gut belegen.
Für bestimmte Fragestellungen jedoch kann ein Korpus hingegen durchaus als repräsentativ oder gar vollständig gelten, wenn zum Beispiel lediglich bloß die gesammelten Werke bestimmter Autoren betrachtet werden sollen. Hier bedingt dies Auswahlkriterium bereits, daß der Betrachtungsgegenstand von endlicher Größe ist. Entsprechend ist es, wenn es darum geht, Einzelwerke miteinander zu vergleichen.
Weil statistisch untersucht wird, was bereits vorhanden ist, nähert sich die quantitative Linguistik somit den Naturwissenschaften. Aufgestellte Hypothesen werden durch die statistische Auswertung prüfbar, beziehungsweise aufgrund der statistischen Daten ergeben sich erst Hypothesen, welche somit statistisch sowie reproduzierbar belegbar sind.
Obgleich die Ursprünge der quantitativen Linguistik bis ins antike Griechenland zurückreichen, haben erst digitale Texte sowie Computer systematische Untersuchungen von großen Textmengen relativ einfach ermöglicht. Ohne Digitalisierung würden Untersuchungen von umfangreicheren Werken Jahrzehnte in Anspruch nehmen, während dies bei bereits digitalisierten Werken innerhalb von Minuten, Stunden oder wenigen Tagen erledigt ist, jedenfalls was die Ermittlung statistischer Daten anbelangt, nicht unbedingt deren Interpretation oder die Festlegung, welche Charakteristika oder statistische Observablen aussagekräftig, einfach oder sinnvoll interpretierbar sind, welche sich für welche Art von Fragestellung eignen.
Abgrenzung zur qualitativen Textanalyse, Interpretation
Bei einer qualitativen Textanalyse geht es primär um Interpretation, Auseinandersetzung mit der inhaltlichen Aussage eines Werkes oder Textes. Bei einer quantitativen Analyse hingegen geht es eher um die Sprachverwendung innerhalb eines Textes, weniger um die Bedeutung des jeweiligen Inhaltes.
Weil auch schriftlich fixierte Sprache einer langen Tradition unterliegt, ist immer ein gewisses Maß an Interpretation notwendig, um Strukturen zu erkennen, welche quantitativ untersucht werden sollen. So werden etwa Leerzeichen gerne verwendet, um Wörter eines Textes voneinander zu separieren. Dies wurde allerdings nicht immer so gehandhabt, es handelt sich also genaugenommen um eine Konvention, welche beim betrachteten Text wirklich verwendet werden muß, damit anhand eines solchen Merkmals ein Text in Einzelwörter aufgeteilt werden kann.
Entsprechendes gilt sinngemäß für Satzzeichen. Punkt, Ausrufezeichen, Fragezeichen, Frageausrufezeichen beenden einen Satz. Etwa in der geschriebenen spanischen Sprache gibt es entsprechend umgedrehte Zeichen für Ausrufezeichen, Fragezeichen, Frageausrufezeichen ebenso zu Beginn des Satzes. Derartige Konventionen sind also genauso zu berücksichtigen, wenn es darum geht, Strukturen wie Sätze automatisch mit Analyseprogrammen zu erfassen.
Der Punkt kann bereits mehrdeutig sein, kann ebenfalls als Dezimaltrennzeichen bei Zahlen verwendet werden, ferner bei Ordinalzahlen, etwa bei der Durchnumerierung von Kapiteln.
Ähnlich problematisch: Schließt ein Doppelpunkt etwas wie eine Satzstruktur ab oder ist es doch eher wie ein Semikolon oder Komma ein Zeichen, welches zwei Satzstrukturen miteinander verbindet?
Kommata werden wiederum zur Abtrennung von Nebensätzen verwendet, ebenso für Aufzählungen, je nach Sprache sowie Autor gleichfalls als Dezimaltrennzeichen.
Anführungszeichen zur Kennzeichnung wörtlicher Rede werden je nach Sprache oder Autor andere verwendet, teilweise unterscheiden sich die verwendeten Zeichen nicht, welche für den Anfang und das Ende der Kennzeichnung verwendet werden, in einer anderen Sprache kann wiederum bei unterschiedlichen Zeichen dafür die Reihenfolge umgedreht sein.
An diesen Beispielen ist bereits erkennbar, daß ein gewisses Maß an Vorkenntnissen über die verwendete Sprache, die Konventionen ebenso hilfreich bei der quantitativen Textanalyse ist.
Zum besseren Verständnis des Unterschiedes zwischen quantitativ und qualitativ seien folgende Sätze betrachtet: ‚Das Buch ist umfangreich.‘ zu ‚Das Buch hat einen Umfang von 1532794 Wörtern.‘
Die erste Aussage ist rein qualitativ, allenfalls in einem spezifischen oder allgemeinen Kontext verständlich, welcher vorgeben könnte, was mit umfangreich gemeint sein könnte. Die zweite Aussage ist quantitativ, Wörter lassen sich zählen, die Aussage somit nachprüfen. Quantitative Aussagen sind also prüfbar, ohne größeren Kontext verständlich.
Entsprechend bei einem Vergleich: ‚Werk A ist umfangreicher als Werk B.‘ zu ‚Werk A ist mit 1532794 Wörtern wesentlich umfangreicher als Werk B mit 73711 Wörtern.‘
Erstere Aussage ist ebenfalls qualitativ, immerhin jedoch prinzipiell nachprüfbar, der Informationsgehalt ist allerdings relativ gering. Bei der zweiten Aussage ist durch die quantitative Angabe der Zahlen hingegen der Informationsgehalt deutlich höher, die Aussage beinhaltet nicht nur einen allgemeinen Vergleich, sie ermöglichst es sofort, die Größe des Unterschiedes zu beurteilen. Gleichzeitig wird durch die Zahlen im Beispielsatz klar, was unter ‚wesentlich umfangreicher‘ einzuordnen ist.
Zudem gibt es prinzipiell qualitative Aussagen wie: ‚Autor A hat einen liebenswerten Stil.‘ oder ‚Werk B ist ein schönes Buch.‘ Mit derartigen qualitativen Aussagen ist wissenschaftlich nichts anzufangen. Sie sind nicht einfach oder gar nicht prüfbar, sind subjektive Wahrnehmungen, jedenfalls solange den Aussagen keine weiteren Informationen hinzugefügt werden, was in dem Zusammenhang präzise als liebenswert oder schön verstanden oder bezeichnet wird, wie diese Merkmale meßbar, reproduzierbar prüfbar sein könnten.
Weiterhin gibt es einige Tücken bei qualitativen Aussagen, welche sich als quantitative tarnen, zum Beispiel: ‚Buch C hat einen Wahrheitsgehalt von 48 Prozent.‘ Die Angabe einer Zahl schafft die Anmutung von Objektivität, es wird eine quantitative Aussage suggeriert. Diese Vermutung einer manipulativen Suggestion stimmt jedenfalls, solange nicht präzise nachprüfbar definiert ist, wie der Wahrheitsgehalt numerisch präzise gemessen, berechnet, statistisch bestimmt werden kann, welches die Kriterien sind, nach denen die Aussage getroffen wurde. Sofern nirgends mathematisch sauber definiert ist, wie Wahrheitsgehalt reproduzierbar meßbar ist, ist 48 Prozent keine Quantität, bloß eine verwirrende Angabe.
Methodik
Bei der Methodik der quantitativen Statistik geht es folglich heute praktisch darum, digitale Dokumente zu analysieren. Weil diese digital sind, ist zunächst einmal eindeutig normativ festgelegt, wie diese auf Zeichenebene zu dekodieren sind. Damit könnte auf dieser Ebene bereits eine Zeichenstatistik erhoben werden, es kann also schlicht gezählt werden, welche Zeichen mit welcher Häufigkeit vorhanden sind.
Oft werden indessen nicht bloß Klartextdateien verwendet, vielmehr handelt es sich meistens um spezielle Dateiformate, in welchen der zu untersuchende Text mittels einer Auszeichnungssprache strukturiert ist. Einerseits ist es somit notwendig, den Text von den Metainformationen der Auszeichnungssprache zu trennen, bevor eine statistische Analyse erfolgt. Andererseits beinhaltet insbesondere eine semantische Textauszeichnung selbst normativ festgelegte Bedeutungen der Inhalte. Die Textauszeichnung kann also selbst statistisch untersucht werden, gibt zudem Auskunft über die Struktur sowie Bedeutung des Inhaltes, vermeidet also eine Interpretation des Inhaltes auf dieser Ebene durch die linguistischen Werkzeuge, vielmehr haben Autoren oder Herausgeber der Dateien bereits eindeutig festgelegt, welche Strukturen es gibt, wie diese zu interpretieren sind. Dies können zum Beispiel Strukturen wie Absätze, Zitate, Texthervorhebungen, Abschnitte, Kapitel etc sein. Meistens gibt es allerdings auf Ebene der Auszeichnungssprachen keine Auszeichnung für Strukturen wie Wörter, Satzteile, Sätze. Hier verbleibt die Notwendigkeit, heuristisch zu interpretieren, wie zuvor bereits angedeutet.
Je nach Fragestellung können die Werkzeuge unterschiedlich sein, gelegentlich geht es auch nur darum, herauszufinden, welche Redewendungen oder Wörter wo in einem Korpus zu finden sind, diese auffindbar zu machen. Im engeren Sinne beginnt die Analyse allerdings erst, wenn per Zählung Häufigkeitsverteilungen von Strukturen erzeugt werden.
Einmal abgesehen von den heuristischen Einschränkungen sowie Vorarbeiten wird insgesamt jedoch erst einmal gezählt. Das Ergebnis des Zählens an sich ist reproduzierbar, hängt nicht davon ab, wer womit wie zählt. Somit ist ein Ergebnis ebenfalls prüfbar. Dies gilt zumindest, wenn die heuristischen Vorarbeiten hinreichend eindeutig festgelegt sind, somit ausreichend eindeutig festgelegt ist, was überhaupt gezählt wird.
Relevanz digitaler Bücher (EPUB)
Hinsichtlich einer statistischen Analyse von Werken ist immer eine möglichst geringe, willkürliche Interpretation bei der Analyse gewünscht, gleich ob durch Programme oder Menschen, um die Ergebnisse reproduzierbar, prüfbar zu halten. Dies bei handgeschriebenen oder gedruckten Werken zu erreichen, ist schon deswegen kompliziert, weil Autoren keine Metainformation darüber hinzugefügt haben, welche semantische Bedeutung inhaltliche Strukturen haben. Bei einer Handschrift etwa gibt es nicht einmal eine Norm, wie Glyphen dargestellt werden.
Im Laufe des handschriftlichen Textes kann ferner die Form der verwendeten Glyphen variieren.
Selber bei gedruckten Texten, welche zu Pixelbildern digital eingerastert werden, ist es für Programme oft nicht einfach, die Pixelanordnungen eindeutig und korrekt Zeichen zuzuordnen. Die dafür verwendeten Programme werden OCR genannt, zu deutsch: Optische Zeichenerkennung. Je nach verwendeten Zeichensätzen fällt die Trefferquote solcher Programme höchst unterschiedlich aus. Bei Handschriften werden daher die Trefferquoten eher niedrig sein, umso niedriger, je mehr die verwendeten Glyphen für dasselbe Zeichen im Verlaufe des Textes variieren. In der Praxis werden so digitalisierte Texte von verschiedenen Menschen mehrfach korrekturgelesen.
Somit ist ein digitaler Text mit normierter Kodierung ein klarer Vorteil, um reproduzierbar statistisch untersucht zu werden.
Bei digitalen Texten ist somit schon einmal eine einfachere Erfassung der Texte mit Programmen gegeben, dadurch wird eine automatisierte, schnelle Verarbeitung ermöglicht. Die Kodierung von Zeichen ist normativ festgelegt; ist erst einmal festgestellt, welche Kodierung für einen Text verwendet wurde, ist bereits eindeutig, reproduzierbar dekodierbar, welche Zeichenfolge vorliegt. Auf dieser Ebene braucht es also nur wenige Zusatzinformationen, Metainformationen zum Text, um diesen eindeutig zu einer Zeichenfolge dekodieren zu können.
Auf einer weiteren Abstraktionsebene ist es bei digitalen Texten möglich, Metainformationen zu weiteren Strukturen, zur semantischen Bedeutung von Textsegmenten zu notieren, um diese somit eindeutig identifizierbar, automatisch auswertbar zu machen. Dieses wird mit Textauszeichnungssprachen erreicht. Dies gilt insbesondere für die Formatfamile XML. Die Regeln zur Auszeichnung von Textstrukturen mit diesem Format sind einfach, daher ist die semantische Information über die Struktur eines Textes einfach zu analysieren. Der eigentliche Inhalt ist allerdings dabei wieder von den Metainformationen zu separieren, gleichzeitig ermöglichen es erst diese Metainformationen im Dokument, bei einer Analyse den Textsegmenten ihre semantische Bedeutung eindeutig zuzuweisen.
Das Standardformat für digitale Bücher EPUB besteht wiederum aus dem standardisierten Archivformat ZIP, in welchem Einzeldokumente zu einem digitalen Buch zusammengefaßt sowie komprimiert
Tag der Veröffentlichung: 01.02.2020
Alle Rechte vorbehalten