Metainformationen zum Buch
Voynich-Manuskript und Codex Rohonczi sind bereits seit Jahrzehnten oder gar Jahrhunderten als bislang nicht entschlüsselte Bücher mit unbekannten Inhalten bekannt.
In dieser Sammlung werden nun weitere umfangreiche Werke in unbekannter Schrift und in einer unbekannten Sprache verfügbar gemacht.
Dies erfolgt zudem in digitaler Form.
Dieser Band enthält ein Werk des gesamten Korpus.
Aufgrund der Formen der Glyphen wird die Schrift Cusy (kubisch-symmetrisch) genannt, die Sprache CusyA, vorsorglich schon einmal, sollten in Zukunft weitere Dokumente mit den gleichen Schriftzeichen, allerdings mit anderen Wörtern auftauchen.
Inhaltlich sind die Texte bislang nicht entschlüsselt, lediglich die grobe semantische Struktur von Kapiteln, Überschriften, Absätzen, Strophen, Zeilen ist bekannt und entsprechend in der Veröffentlichung umgesetzt.
Aus derselben Quelle wie die Texte selbst wird die bislang entschlüsselte Grammatik von CusyA zur Verfügung gestellt, vielmehr eine plausible Hypothese dazu, deren Umfang vermuten läßt, daß es weitere Werke in CusyA gibt, aufgrund derer die Grammatik entschlüsselt wurde, welche jedoch derzeit nicht zur Verfügung stehen.
CusyA umgibt viele Geheimnisse. Herkunft und Historie sind unbekannt, die Schrift weist wenig Ähnlichkeit mit Schriften aus der menschlichen Geschichte auf, die Grammatik ist ebenfalls speziell, spiegelt allerdings typische Sprachstrukturen in einer stark formalisierten, regelmäßigen Form wider.
Den Autoren dieses Buches wurden die Texte zugespielt, weil diese sich bereits in anderen Büchern im Rahmen der Reihe Abstrakte Literatur mit Xenolinguistik, quantitativer Textanalyse und statistischer Kryptologie von Texten beschäftigt haben.
Entsprechend werden statistische Daten einer quantitativen Textanalyse zusammen mit den Texten veröffentlicht, um bei der weiteren Entschlüsselung der eigentlichen Inhalte zu helfen.
Ergänzt werden die Texte mit Abstrakter Kunst, wobei diese Graphiken die kubische Bézierkurven der Glyphen wieder aufnehmen, jedoch auf Symmetrie verzichten, um das Buch graphisch etwas aufzulockern, auch um einen Kontrast zu den Textwerken als Kommentar anzubieten. Die Graphiken sind somit auch im Sinne von Verfremdungseffekten dazu konzipiert, die kritische Sicht des Publikums wachzuhalten und bei der Entschlüsselung der Texte skeptisch gegenüber den eigenen Hypothesen zu bleiben.
Inhaltsverzeichnis
Epigraph
Wer fremde Sprachen nicht kennt, weiß nichts von seiner eigenen.
Johann Wolfgang von Goethe
Die Sprache der Wahrheit ist einfach.
Euripides
Stets ist die Sprache kecker als die Tat.
Friedrich von Schiller
Der Geist einer Sprache offenbart sich am deutlichsten in ihren unübersetzbaren Worten.
Marie Freifrau von Ebner-Eschenbach
Vorwort
Zum Inhalt
In der Folge unserer bisherigen Veröffentlichungen zur Abstrakten Literatur, insbesondere mit den Werken Ic, #3, Syegih, damit auch mit der Beschäftigung mit quantitativer Xenolinguistik, sind wir nunmehr in der Lage, einen bereits relativ umfangreichen Korpus sehr geheimnisvoller Texte vorzustellen, die eindeutig eine Grammatik aufweisen, die bereits entschlüsselt ist, während der eigentliche Inhalt noch im Dunkeln liegt. Nicht auszuschließen ist, daß mit der Zeit noch weitere Werke in dieser Sprache auftauchen und somit helfen mögen, die inhaltliche Bedeutung der Sammlung zu erhellen.
Die Quelle der Texte soll anonym bleiben, von daher gilt es, sich auf die Texte und die Schrift zu konzentrieren. Die allgemeine Veröffentlichung wird eventuell in einigen Kreisen nicht so gerne gesehen, schon deshalb hat die Quelle es sehr penibel vermieden, bei der Kontaktaufnahme und der Übersendung der Rohdaten der Werke verfolgbare Spuren zu hinterlassen.
Aufgrund der Formen und Symmetrien der Glyphen der Schrift wurde diese Cusy getauft, kurz für kubisch-symmetrisch (cubic symmetric). Das Postfix A könnte darauf hinweisen, daß mit der Schrift verschiedene Sprachen verschriftlicht sind, ähnlich wie bei den Schriften linearA oder linearB könnte es folglich auch Werke geben, die zwar dieselbe Grammatik, dieselben Glyphen verwenden, allerdings ganz andere Wortbedeutungen verwenden.
Die Sammlung umfaßt mittlerweile mehrere Werke, jeweils begonnen mit einem Titelblatt, auf welchem Titel, Autorenname und Kurzzusammenfassung als Inhaltsstrukturen identifiziert sind.
Bei den paar Blätter zu Ziffern, Zahlen, Operatoren kommen allerdings noch weitere, zudem entschlüsselte Zeichen hinzu, allerdings sind bei diesen Blättern der oder die Autoren unklar.
Über die Historie der Werke ist den Herausgebern dieses Buches leider wenig bekannt. Verfügbar sind nicht die Originale selbst, lediglich eingerasterte Digitalisate in Form von Pixelgraphiken guter Qualität und hoher Auflösung.
Die Herausforderung der endgültigen Digitalisierung und weiteren allgemeinen und effizienten Verbreitung bestand also darin, in den Pixelgraphiken die Glyphen zu erkennen und diese im Weiteren zu einem echten digitalen Text mit möglichst kleiner Fehlerrate anzuordnen.
Bei bekannten Schriftarten kann dies heute relativ effizient mit optischer Zeichenerkennung (englisch: OCR) erfolgen, bei bekannten Sprachen ist hier auch eine Kombination mit Listen bekannter Wörter zur automatischen Fehleranzeige oder gar Fehlerkorrektur möglich. Dies entfällt erst einmal, wenn weder die Schrift noch die Sprache entschlüsselt sind.
Weil allerdings ein kompletter Glyphensatz vorlag, konnte dieser in ein modifiziertes OCR-Programm eingepflegt werden, welches in dieser angepaßten Form verwendet werden konnte, um Rohfassungen zu generieren. Aufgrund der guten Qualität der Pixelgraphiken war die Fehlerrate gering, eine Kombination mit den ja nicht verfügbaren Wortlisten folglich redundant.
Von der Quelle ist lediglich bekannt, daß die Digitalisierung in Pixelgraphik erst in jüngerer Zeit erfolgt ist, was nicht alle verfügbaren Werke einschließt. Weitere Digitalisierungen könnten folglich mit der Zeit zum Auftauchen und zur Verbreitung der Digitalisate weiterer Werke in CusyA führen.
Gemäß der Pixelgraphiken handelt es sich beim originalen Trägermaterial um altes, vergilbtes Papier oder ein ähnliches Material mit leichten Gebrauchs- und Verschleißspuren am Rand, allerdings ohne Randnotizen von vorherigen Besitzern oder Lesern.
Die originale Ausfertigung ist keine Buchform mit Einzelseiten, es handelt sich um Schriftrollen. Das Titelblatt ist dabei jeweils als eine Art Einband zu verstehen, welches die jeweiligen Kapitelrollen im geschlossenen Zustand umgibt.
Insgesamt soll ein Werk ferner jeweils für Transport und Archivierung in einer Art Köcher stecken, welcher allerdings unabhängig von den Werken später angefertigt sein könnte. Es gibt jedenfalls Anzeichen dafür, daß die Schutzköcher mit den eigentlichen Werken ansonsten nichts zu tun haben. Hauptindiz dafür ist, daß sie selbst nicht in CusyA beschriftet sind, vielmehr archivarische und bibliographische Vermerke verschiedener Herkunft aufweisen.
Aufgrund der Alterungserscheinungen des Trägermaterials, der Gebrauchsspuren, der Struktur des Materials ist höchstwahrscheinlich davon auszugehen, daß die Rollen weder aus diesem noch dem letzten Jahrhundert stammen, vermutlich auch nicht aus dem vorletzten. Leider enthalten die Werke selbst keine Passagen, die als Zeitangaben zur Entstehung der Werke einzuordnen wären, ebensowenig sind die Ortsangaben, die aufgrund von Markern durchaus zu finden sind, bislang bekannten Orten zuzuordnen, sie bieten folglich keinen Schlüssel zur Dekodierung. Aufgrund der fehlenden Zeitangaben gibt es auch keine Hinweise darauf, ob oder wie die Werke zueinander in Beziehung stehen.
Von der Quelle wurde uns lediglich zugetragen, was bloß als Gerüchte aufzufassen sein sollte. Demzufolge sollen sich bereits einige berühmte Personen unter strenger Geheimhaltung an der Dekodierung von CusyA versucht haben. Aus diesen Versuchen resultiert immerhin die Liste verfügbarer Glyphen, die Zuordnung von Zahlen-Glyphen, von Markern der Grammatik und einiger anderer Zeichen. Es soll Hinweise geben, daß bereits Isaac Newton, Gottfried Wilhelm Leibniz, Leonhard Euler und Johann Wolfgang von Goethe sich an CusyA versucht haben. Ferner soll es einige weitere Personen aus den damaligen Szenen der Alchemisten und Freimaurer gegeben haben, welche sich mit den Werken beschäftigt haben, hinsichtlich der Dekodierung ohne Ergebnis.
Angeblich sollen die Werke allerdings Einfluß auf gewisse weitere Aktivitäten der Dekodierer gehabt haben.
So ist eventuell die Binärzahldarstellung von Leibniz eine Folge der starken Affinität der CusyA-Werke zu Zweierpotenzen.
Auch Eulers Beschäftigung insbesondere mit der Zahl e, heute eulersche Zahl genannt, könnte auf CusyA zurückgehen, ebenfalls die Beschäftigung mit komplexen Zahlen.
Das bedeutet nun nicht, daß diese Teilbereiche der Mathematik ihren Ursprung in CusyA hätten, denn diese Teilbereiche sind vermutlich schon länger bekannt, als die CusyA-Werke im Umlauf sind. Plausibel ist allenfalls, daß die immerhin dekodierbaren mathematischen Notizen zur weiteren Beschäftigung mit diesen Teilbereichen angeregt haben könnten, eventuell gar in der irrigen Auffassung, so mehr über den Inhalt der nicht dekodierten Textwerke herauszufinden, die sich allerdings wohl nicht mit Mathematik beschäftigen.
Bei der Analyse der Werke und der ebenfalls verfügbar gemachten Grammatik fällt unmittelbar auf, daß die Grammatik auch bereits Strukturen beschreibt, welche in den vorhandenen Texten nicht vorkommen, insbesondere gibt es auch mathematische Operatoren und einige Satzzeichen, welche in den normalen Texten gar nicht vorkommen, allerdings zum großen Teil in der losen Sammlung zum Zahlenwerk auftauchen, welches von unbekannten Verfassern stammt.
Weil die bekannte Grammatik etwas umfangreicher ist als der Zeichenvorrat der verfügbaren Texte, kann schon einmal geschlossen werden, daß es weitere Texte in CusyA gibt, die uns für dieses Werk einstweilen nicht verfügbar sind.
So besteht also Hoffnung, daß noch weitere Werke mit der Zeit auftauchen, welche in Zukunft ebenfalls helfen werden, CusyA besser zu verstehen, eventuell auch die Grammatik noch zu ergänzen oder zu korrigieren, vielleicht gar die Inhalte selbst irgendwann zu entschlüsseln!
Abstrakte Graphiken wurden jeweils an eine Inhaltsseite für dieses Werk als dekorative Auflockerung angehängt. Die Graphiken verwenden ähnlich den Glyphen kubische Bézierkurven, verzichten allerdings auf Symmetrien, harmonieren also teilweise mit den Glyphen, bilden allerdings auch einen auflockernden Kontrast zur Strenge der Schrift.
Ähnlich wie beim Voynich-Manuskript oder dem Codex Rohonczi stehen das Publikum mit CusyA vor einem Rätsel, welches verlockt einzutauchen und zu erforschen, welches Geheimnis, welcher Schatz sich in den Texten verbergen mag, welche Erkenntnisse und wertvolle Gedanken dort von wem und warum verschlüsselt sein mögen.
Es ist die Faszination des Unbekannten, welche uns immer wieder hypnotisch anzieht, um zu erkunden, um zu ermitteln, um herauszufinden, was uns einerseits offenbart wurde, andererseits aber doch noch unverständlich ist. In solch kryptischen Schriften spiegelt sich das Rätsel der eigenen Existenz und des gesamten Seins, des Universums und des ganzen Restes im Kleinen wider.
Auch deswegen fühlen wir uns so angezogen, auch deswegen sind wir so begierig, wenigstens solch kleine Rätsel zu entschlüsseln, die ja als Werk von Menschen oder auch anderen intelligenten Lebensformen (Außerirdischen?) eigentlich viel eher der begrenzten menschlichen Erkenntnisfähigkeit zugänglich sein müßten als etwa das Universum selbst, an welchem wir uns mit den Naturwissenschaften seit Jahrhunderten abmühen, um diesem immer wieder ein klein wenig mehr vorläufige Erkenntnis abzutrotzen, um besser darin bestehen zu können.
Unsere Analysen, unsere Beiträge in diesem digitalen Buch beschränken sich jedenfalls erst einmal einerseits auf die Wiedergabe der bislang bekannten Werke und der Grammatik, andererseits auf eine quantitative Analyse, auf Statistiken zu den vier Werken, um über solch eine formale Einordnung auf Textqualität zu schließen, um Werke mit Inhalt zuverlässig zu bestätigen, welche also nicht nur zufälliges Rauschen enthalten, sondern wirklich verschlüsselte, relevante Information.
Wir sind jedenfalls gespannt darauf, was vielleicht andere Forscher etwa mit spezialisierten kryptologischen Methoden beitragen können, um das Rätsel um CusyA zu lüften und uns inhaltlich zugänglich zu machen, um was es inhaltlich bei den Werken geht.
Technisches
Die Schrift der enthaltenen Werke haben wir für dieses Werk erstmals in gängigen Schriftartendateien transkribiert, um sie allgemein in Form des internationalen Standards für digitale Bücher EPUB verfügbar zu machen. Die uns zugänglichen Originale oder Faksimiles davon weisen jedenfalls auf eindeutig automatisierte Prozesse der Herstellung hin, die Glyphen sind als solche also eindeutig identifizierbar, somit also auch eindeutig in die Form einer Schriftartendatei übertragbar. Diese Stufe der Transkription kann damit als sicher und abgeschlossen betrachtet werden.
Folglich ist es notwendig für die weitere Textanalyse, daß das verwendete Darstellungsprogramm Schriftartendateien interpretieren kann. Da es für die Schrift keine Standardkodierung in Unicode gibt, mußte hier ein privater Nutzungsblock von Unicode verwendet werden. Darstellungsprogramme können also keine Schrift für diese unbekannte Sprache vorinstalliert haben, sind auf die angebotenen Schriftartendateien angewiesen.
Sollte das verwendete Darstellungsprogramm Probleme mit der Präsentation der Texte haben, sollte zunächst geprüft werden, ob dem Programm die Verwendung eingebetteter Schriftarten erlaubt ist. Ist selbst nach einer solchen Freischaltung der bucheigenen Schriftarten die Anzeige noch immer mangelhaft, ist die Verwendung eines geeigneteren Darstellungsprogrammes zu empfehlen. Es lohnt sich folglich, bei anfänglich kleineren Problemen nicht gleich aufzugeben - alternativ, was der wahrscheinlichere Fall sein dürfte - sich über eine schöne und korrekte Präsentation gleich von Anfang an zu freuen.
Technisch wurden bei diesem EPUB einige Hilfen integriert, um dem Leser besseren Zugang zum Inhalt zu ermöglichen. Es gibt etwa verschiedene Stilvorlagen, zwischen denen gewählt werden kann. Bei einem Darstellungsprogramm, welches EPUB komplett interpretieren kann, wird es eine solche Auswahlmöglichkeit geben. Von daher kann dann leicht zwischen heller Schrift auf dunklem Grund und einer dunklen Schrift auf hellem Grund gewechselt werden. Für eigene Einstellungen eignet sich der ebenfalls alternativ verfügbare einfache Stil, welcher lediglich einige Strukturen hervorhebt oder anordnet.
Verfügbare alternative Stilvorlagen:
Bei automatischen Konversionen dieses Buches im Format EPUB in andere Formate können diverse Mängel auftreten, welche sowohl an Fehlern und Problemen der zu naiv und einfach konzipierten Konversionsprogramme als auch an dem Format liegen können, in welches konvertiert wird. Autorin und Mitarbeiter dieses Buches haben keine Kontrolle über spätere Manipulationen oder Formatkonversionen, haben also keinen Einfluß auf die komplette Verfügbarkeit von Inhalten und Hilfen solch manipulierter Versionen. Sie empfehlen daher dringend, das unveränderte Original zu verwenden und sich dieses von einem leistungsfähigen Darstellungsprogramm präsentieren zu lassen.
Manuell ist es recht problemlos möglich, einige Techniken und Merkmale des Buches so weit zu vereinfachen, Inhalte anders aufzubereiten, um diese auch in verminderter Qualität in anderen Formaten verfügbar zu machen. Insbesondere bei wohl noch immer recht beliebten proprietären Amazon-Formaten (Mobipocket oder KF8) ist es recht einfach, ein passend vereinfachtes EPUB zu erstellen, aus welchem sich ein lesbares Buch in diesen minderwertigeren Formaten erzeugen läßt, sofern man sich mit EPUB und den Möglichkeiten dieser Formate etwas auskennt.
Quantitative und vergleichende Textanalyse: Auswertungsverfahren
Zur quantitativen und vergleichenden Textanalyse der vorliegen CusyA-Werke wird ein selbstentwickeltes Skript verwendet, welches einstweilen allerdings nicht auf spezielle, bereits bekannte Strukturen von CusyA hin optimiert wurde, weswegen die Ergebnisse direkt mit denen bereits untersuchter Texte vergleichbar sind. Analysen anderer Bücher mit diesem Skript sind im Buch Ic verfügbar, zum Beispiel zum Vergleich.
Digitale Werke in textbasierten Formaten wie EPUB eignen sich ausgezeichnet zur quantitativen Textanalyse mit dafür ausgelegten Programmen oder Skripten. Somit ist es relativ einfach, mit Rechnern schnellen Zugang zum eigentlichen Textkörper eines Buches zu bekommen und diesen einer systematischen Untersuchung zu unterziehen. So können aus einem Werk schnell statistische Daten extrahiert werden. Die statistischen Daten verschiedener Werke können so relativ einfach aufbereitet und miteinander verglichen werden.
Zum Vergleich von digitalen Werken werden wenige spezielle Werkzeuge zur Analyse benötigt. Das EPUB beinhaltet neben einigen anderen Dateien hauptsächlich Inhaltsdateien. Das sind hinsichtlich Textinhalt hauptsächlich XHTML-Dateien, Inhalt kann allerdings auch in Vektorgraphiken stecken, also in SVG-Dateien. Beides sind XML-Formate, haben also eine definierte Syntax, die es relativ einfach macht, den Inhalt zu analysieren.
Nach der Prüfung auf technische Mängel wird in einem nächsten Schritt eine Statistik der verwendeten Elemente aufgestellt. Es wird also auf semantischer Ebene festgestellt, was im Buch zu finden ist.
Beides ist im Falle der CusyA nicht relevant für den eigenen Inhalt, weil die Texte auf der XHTML-Ebene nicht von den Autoren der Texte erstellt wurden.
In einem weiteren Schritt werden bestimmte Attribute als Sonderinhalt extrahiert, sofern diese Textinformation enthalten, also etwa Alternativtexte oder Beschreibungen von Abbildungen außerhalb des normalen Textflusses, dazu auch besondere Nutzerhilfen, Erklärungen von Abkürzungen, Metainformationen etc.
Als kleine Korrektur der Statistik werden identisch mehrfach vorkommende Sonderinhalte nur einmal gezählt. So wird zum Beispiel vermieden, daß relativ belanglose Textalternativen für eigentlich dekorative, wiederholt eingesetzte Bilder zu Artefakten in Verteilungen führen. Ähnliche Artefakte würde auch die Namen alternativer Stilvorlagen ergeben, weil diese bei jeder einzelnen Inhaltsdatei neu angegeben werden, aber keine neue Information liefern, lediglich eine Nutzerhilfe zur Auswahl der passenden Stilvorlage darstellen.
In XHTML wird unter anderem zwischen inzeiligen Elementen oder Phrasenelementen einerseits und Blockelementen andererseits unterschieden. Phrasenelemente treten innerhalb des normalen Textflusses auf, Blockelemente bilden eigene Textsegmente, dazu gehören Überschriften Absätze, Sektionen, Listen etc.
Dazu gibt es überdies auch noch Elemente, die immer leer sind, also nicht weiter zum Text beitragen, etwa Elemente für horizontale Unterbrecher, Elemente zur Referenzierung darzustellender Bilder. Ferner gibt es auch noch Elemente, die transparent sind, also alles das an Inhalt haben können, was ihr Elternelement an Inhalt haben kann, für eine Auswertung sind sie also an dieser Stelle nicht mehr relevant.
Hinsichtlich der Textanalyse können zu diesem Zeitpunkt die Markierungen der Phrasenelemente aus dem zu analysierenden Dokument entfernt werden, ebenso die immer leeren Elemente und die Markierungen der meisten transparenten Elemente.
Danach verbleiben potentiell ineinander verschachtelte Blockelemente. Folglich wird in einem nächsten Schritt diese Struktur linearisiert oder entschachtelt, die Elemente werden also nacheinander in eine eindeutige Reihenfolge gebracht. Aufeinanderfolgende Leerzeichen werden durch jeweils genau ein Leerzeichen ersetzt. Elemente, die leer sind oder nur Leerzeichen enthalten, werden als solche gezählt, ansonsten nicht weiter berücksichtigt, weil inhaltlich sinnfrei und mangelhaft.
Bei Elementen, bei denen semantisch nicht eindeutig klar ist, daß ihr Inhalt grob äquivalent zu einem Absatz oder nur einem Satz, einem einzelnen Wort oder Zeichen ist, wird der Inhalt grob auf Satzzeichen und Länge untersucht. Bei hinreichender Komplexität werden diese Elemente äquivalent zu Absätzen angesehen, sonst als äquivalent zu einem Satz oder Wort, sodann entsprechend statistisch ausgewertet.
Bei den verbleibenden Absätzen und äquivalenten Elementen wird alsdann der Inhalt als Absatz analysiert, das Element selbst als Absatz gezählt. Ferner wird die Statistik der verwendeten Zeichen für die Elementinhalte erstellt.
Die Absatzlänge in Zeichen wird festgestellt. Es werden im Weiteren Satzzeichen gezählt und anhand dieser auf Sätze geschlossen und der jeweilige Absatz wird in solche aufgespalten. Überschüssige Leerzeichen werden entfernt und die jeweilige Satzlänge wird festgestellt.
Anschließend wird jeder Satz in Worte aufgespalten, Leerzeichen und Satzzeichen entfernt und die Wortlänge analysiert und die Häufigkeit jedes einzelnen Wortes festgestellt.
Bei CusyA handelt es sich um eine Silbenschrift, nicht um eine Buchstabenschrift. Zudem verwendet CusyA für grammatikalische Merkmale intensiv Marker, teils als eigenständige Strukturen, etwa für Absätze, Strophen, Zeilen, teils allerdings auch als Bestandteile von Wörtern, welche folglich aus Markern und einem Wortkern bestehen. Bei der Analyse mit dem verwendeten allgemeinen Skript werden die Marker nicht weiter aufgeschlüsselt, das bedeutet, das Skript interpretiert nicht bereits auf einer Inhaltsebene. Zwar könnte dies einerseits eine Verfeinerung der Analyse mit sich bringen, andererseits stellt das so auch eine Verengung der Sichtweise dar, die auf diesem Niveau jedoch vermieden werden soll.
Nachdem das Dokument so analysiert und reduziert wurde, werden die dabei erstellten Häufigkeitslisten untersucht, Mittelwert, Standardabweichung und Schiefe berechnet, ebenso wie die Verteilungsfunktionen visualisiert.
Quantitative und vergleichende Textanalyse: Die untersuchten Korpora
Der Korpus enthält also mehrere inhaltlich nicht entschlüsselte Werke. Überschriften und Autorennamen können bis auf die Ausnahme des Zahlenwerkes zugeordnet werden. Lediglich zu Vereinfachung der Diskussion und Bezeichnung werden die einzelnen Werke und Autoren im Folgenden mit einzelnen Buchstaben bezeichnet. Die Reihenfolge der Werke in diesem Korpus hat ansonsten keinerlei Bedeutung und ist als willkürlich anzusehen. Ein inhaltlicher Zusammenhang der Werke ist nicht bekannt, damit auch keine vorgegebene Reihenfolge.
Leider gibt es zu den Werken auch keine Hinweise, die eine chronologische Einordnung ermöglichen würden, so bleibt ebenfalls komplett unbekannt, ob sich die Werke irgendwie aufeinander beziehen oder Bezüge aufweisen, die eine sinnvolle Anordnung ermöglichen könnten. Die Zuordnung zu den Kennbuchstaben ist also so notgedrungen schlicht willkürlich.
Die folgenden Tabellen geben Daten zum kompletten Korpus an.
Die untersuchten Texte haben jeweils ein Titelblatt mit Angaben zu den Titeln und zu den Autoren. Zur Vereinfachung der Bezeichnung werden Platzhalter in lateinischer Schrift verwendet. In der Reihenfolge der Anordnung sind die Werke:
Im Folgenden werden die statistischen Daten zu den Werken tabellarisch aufgeführt. Zusätzlich zu den Einträgen für die einzelnen Werke werden auch noch die Daten für alle Werk zusammen angegeben.
Hinsichtlich der Charakterisierung der Korpora ist es natürlich erst einmal sinnvoll, einen groben Überblick über deren Umfang zu bekommen. Die folgende Tabelle gibt Auskunft über Dateigröße, Anzahl der Zeichen, eine erste Schätzung der Anzahl Wörter.
Weitere Daten zur Charakterisierung sind die Menge der Kapitel, Absätze, Sätze, Wörter, Glyphen. Das ist in folgender Tabelle zusammengefaßt.
Dabei ist zu beachten, daß B ein poetisches Werk ist, also schon von daher kaum Absätze beinhaltet, diese lediglich auf dem Titelblatt. Daher wurden bei diesem Werk die Strophen zu den Absätzen gezählt, was inhaltlich und semantisch nicht ganz korrekt ist, statistisch aber immerhin ähnlich genug, um dieses Vorgehen zu rechtfertigen.
Auffällig ist, daß die Anzahl der Kapitel aus 1 (dem Titelblatt) und einer Zweierpotenz besteht.
Nach Betrachtung der Rohdaten ist es ebenfalls hilfreich, einen genauen Blick in die Textstruktur zu werfen und zu betrachten, aus wievielen verschiedenen Wörtern ein Werk zusammengesetzt ist. Offenbar hängt dies mit der Gesamtlänge des Werkes zusammen. Der Zusammenhang ist allerdings keine einfache Proportionalität, aus dem Verhältnis verschiedener Wörter zur Gesamtzahl der Wörter läßt sich also nur bedingt ein charakteristisches Merkmal eines Textes ermitteln.
Auffällig ist allerdings schon, daß das Verhältnis im Vergleich mit typischen längeren Werken bekannter Sprachen relativ hoch ist.
Bei bekannten Sprachen liegt dieses Verhältnis meistens unter 0.1. Die Abweichung hier dürfte auch an der intensiven Verwendung von Markern als Präfixe liegen, an welche zwar immer wieder gleiche Wortkerne anschließen, aufgrund der unterschiedlichen Präfixe hier in der Statistik allerdings als neue Wörter gezählt werden.
Bei Werk D kommen etwa alle Zeitformen von Verben vor, allerdings in einer speziellen Systematik, was jedenfalls bereits dazu führt, daß sich aufgrund der Zeitform-Präfixe Verben mit unterschiedlichen Zeitformen in solch verschiedenen Kapiteln gar nicht wiederholen können.
Allerdings liegt der Wert für das Verhältnis für alle Werke zusammen eindeutig unter dem der Einzelwerke, was immerhin die Hypothese stützt, daß in allen Werken dieselbe Sprache verwendet wird.
Aus der Informatik kommt mit dem Informationsgehalt oder der Informationsdichte eines Werkes eine Größe, die deutlich charakteristischer für ein Werk ist. Die Größe wird in der Einheit Shannon gemessen. Grob gibt diese Zahl an, wieviel verschiedene Bits ausreichen, um das Werk mit der Betrachtungsgröße der jeweiligen Abstraktionsebene zu charakterisieren. Bei Büchern bieten sich Glyphen und Wörter als Abstraktionsebenen an.
Werden die Glyphen einer Buchstabenschrift betrachtet, werden in einsprachigen Werken meist um die einhundert verschiedene Glyphen verwendet, im Grunde sind davon aber einige redundant oder werden selten gebraucht, so daß statt etwa einem Wert von acht nur einer von vier bis fünf Shannon herauskommt. Tatsächlich sind historische digitale Zeichensätze wie ASCII gerade mit 7 Bit kodiert, also 128 Zeichen. Die etwas umfangreicheren Kodierungen nach ISO verwenden 256 Zeichen, also 8 Bit.
Bei einem mehrsprachigen Werk liegt der Wert natürlich höher. Ebenso liegt der Wert bei einer Silbenschrift deutlich höher. Bei CusyA handelt es sich um eine Silbenschrift mit mehr als 300 häufiger verwendeten Silben und zusätzlich diversen anderen Zeichen.
Entsprechend dem Bedarf, Zeichen diverser Sprachen repräsentieren zu können, ist der Zeichenvorrat von UTF-8 nicht mehr auf eine bestimmte Anzahl von Bits pro Zeichen begrenzt.
Interessanter als der Informationsgehalt auf der Abstraktionsebene der Glyphen ist allerdings jener auf der Wortebene. Typisch liegt ein Werk in einer natürlichen Sprache ungefähr zwischen zehn und elf Shannon. Eher bei elf sind kompliziertere wissenschaftliche Werke oder aber auch Verschwörungstheorien zu erwarten, die ebenfalls oft ein wissenschaftliches oder pseudowissenschaftliches Vokabularium verwenden.
Ein Wert von deutlich unter zehn Shannon weist vermutlich auf eine eher einfache Sprache hin, einerseits leicht verständlich, andererseits vielleicht auch nicht besonders anspruchsvoll oder eindrucksvoll. Daran ist bereits erkennbar, daß der Informationsgehalt allein keinesfalls ein Qualitätsmerkmal ist, denn es ist gut möglich, daß Werke mit einem relativ kleinen Informationsgehalt gerade deswegen leicht lesbar sind, sich also besonders zur Entspannung eignen. Vielleicht eignen sie sich auch gut zur Einlullung der Leserschaft.
Auch beim Informationsgehalt bezüglich der Worte ergeben sich für mehrsprachige Werke natürlich größere Werte.
Mit einem Shannon-Wert von über sechs erweist sich CusyA als reichhaltige Sprache oder Schrift mit einer relativ großen Anzahl von Silben, von welchen die meisten tatsächlich in den Werken benutzt werden, sogar relativ gleichmäßig. Abstriche gibt es hier primär bei dem Markern, von denen einige komplett bei einem Werk entfallen können, bei einem anderen wiederum regelmäßig vorkommen mögen. So erklärt sich auch, daß der Shannon-Wert des Werkes D sogar leicht über dem aller Werke zusammen liegt.
Zum einen liegt der große Shannon-Wert also daran, daß es sich um eine Silbenschrift handelt, zum anderen sicherlich aber auch daran, daß die Sprache oder Schrift Grammatik und Struktur kurz und knapp mit Markern repräsentiert, sonst wäre vermutlich noch ein größerer Wert zu erwarten.
Da die Shannon-Werte auf Wortebene ziemlich ähnlich sind, stützt dies die These, daß es sich bei allen Werken um dieselbe Sprache handelt, das paßt alles gut zusammen.
Ganz anders sieht es auf der Wortebene aus, zum einen variieren die Shannon-Werte der einzelnen Werke untereinander erheblich, zum anderen sind sie mit zwischen 12.4 und 15.2 sehr hoch, repräsentieren also sicherlich inhaltlich sehr komplexe Sachverhalte oder sind poetisch sehr weitschweifig oder üppig, je nachdem, wie man es sehen will.
Bereits bei oberflächlicher Betrachtung fällt bei den Texten schon die reichliche Verwendung von Adjektiven und Adverbien auf, auch die vielfältigen Möglichkeiten der Objekt-Erweiterungen mögen zur Reichhaltigkeit der Werke beitragen. Es darf wohl vermutet werden, daß es sich bei den Werken jedenfalls nicht um schlichte Unterhaltungsliteratur ähnlich den sogenannten Groschenromanen handelt, da steckt schon deutlich mehr an Information drin.
Die Variation der Shannon-Werte auf Wort-Ebene stützt ebenfalls die These, daß es sich um unterschiedliche Autoren handelt. Die Komplexität könnte darauf hindeuten, daß es sich zudem um herausragende Werke der CusyA-Kultur oder -Literatur handelt.
Da es sich bei Z um die Sammlung loser Blätter mit zudem geringem Umfang zu Zahlen, Grundrechenarten und Formeln handelt, ist die deutliche Abweichung zu den anderen Werken nicht erstaunlich.
Quantitative und vergleichende Textanalyse: Daten und Ergebnisse
Die folgenden Tabellen zeigen die Ergebnisse der quantitativen Analyse der CusyA-Werke des Korpus. Angegeben sind jeweils die ersten statistischen Momente für die jeweilige charakteristische Größe.
Weil Werk B ein Gedicht ist, enthält es Absätze nur auf dem Titelblatt, daher sind Werte bezogen auf Absätze bei dem Werk nicht sonderlich aussagekräftig. Hier wurde verallgemeinert und Strophen wurde als Absätze gezählt.
Glyphen: Vergleich Häufigkeit
Die folgende Graphik zeigt einen Vergleich der relativen Häufigkeit von Glyphen bei den betrachteten Werken der Sprache CusyA. Klar erkennbar sind die Unterschiede und Charakteristika der verschiedenen Verteilungen.
Insbesondere weichen die Text B und Z signifikant von den anderen Texten ab. Bei Text B handelt es sich um Poesie, also um Strophen und Strophenzeilen. Eine besondere Struktur ist daher plausibel.
Werk Z ist die lose Sammlung zu Zahlen, daher dominieren die dort natürlich.
Die Unterschiede zwischen den anderen Texten, allesamt Prosa, allerdings durchaus mit einer anderen Struktur auf der Ebene von Kapiteln und Unterkapiteln, sind deutlich subtiler. Darin zeichnet sich bereits die charakteristische Struktur einer gemeinsamen Sprache ab. Ähnliche Glyphenhäufigkeiten stützen also die Hypothese, daß die Werke in derselben Sprache verfaßt sind.
Unterschiedliche Häufigkeiten von Markern zwischen Einzelwerken sind schon daher plausibel, weil etwa unterschiedliche Zeitformen verwendet werden, bei dem poetischen Werk wohl auch kaum Eigennamen verwendet werden.
Häufigkeit von Wortlängen in Glyphen: Vergleich von Verteilungen
Die folgende Graphik zeigt einen Vergleich der Wortlängen in Glyphen bei den betrachteten Werken der Sprache CusyA. Klar erkennbar sind auch hier Gemeinsamkeiten, Unterschiede und Charakteristika der verschiedenen Verteilungen.
Gemeinsam ist allen eine Kompaktheit der Wörter, was darauf hinweist, daß in CusyA Komposita vermieden werden. Dies wird offenbar noch konsequenter eingehalten als etwa in der englischen Sprache. Zudem handelt es sich um eine Silbenschrift. So reichen elf, meistens gar weniger als sechs Silben einschließlich der Marker aus, um ein Wort zu bilden.
Die Häufung bei einer Silbe liegt an alleinstehenden Markern etwa für Absätze, Strophen, Zeilen und Fragewörtern.
Häufigkeit der Wörter pro Satz: Vergleich von Verteilungen
Die folgende Graphik zeigt einen Vergleich der Wörter pro Satz bei den betrachteten Werken der Sprache CusyA. Klar erkennbar sind auch hier Gemeinsamkeiten, Unterschiede und Charakteristika der verschiedenen Verteilungen.
Insgesamt zeigen sich ziemlich gleichmäßige, harmonische Verteilungen bei den Texten. Natürlich weicht die lose Sammlung zu Zahlen und Mathematik Z deutlich ab. Erneut weicht ebenso das poetische Werk von den anderen ab, was allerdings nicht sonderlich überraschend ist. In der Statistik wurden Strophen wie Absätze behandelt. Bei dem Werk besteht jede Strophe immerhin aus vier Zeilen, die ohne abschließendes Satzzeichen notiert sind. So zählt formal eine Strophe als ein Satz. Bei Poesie haben Strophenzeilen zwar typisch eine kürzere Struktur als Prosa-Sätze in Absätzen, was bei dieser Zählung dann allerdings nicht zum Tragen kommt.
Satzlänge in Glyphen: Vergleich von Verteilungen
Die folgende Graphik zeigt einen Vergleich der Satzlänge in Glyphen bei den betrachteten Werken der Sprache CusyA. Klar erkennbar sind auch hier Gemeinsamkeiten, Unterschiede und Charakteristika der verschiedenen Verteilungen.
Die Werke weisen relativ breite Verteilungen auf, allerdings von der Form her ziemlich ähnlich und gleichmäßig. Erwartungsgemäß weicht das poetische Werk B deutlich von den anderen ab, noch deutlicher das Zahlenwerk Z. Auffällig beim poetischen Werk B ist insbesondere die hohe Wahrscheinlichkeit für den Wert 11. So wie gezählt wird, ist das folglich eine Strophenzeile mit 11 Silben. Das entspricht wiederum bei der typischen Länge von Wörtern einschließlich Markern einem Satz mit jeweils einfachem Subjekt, Prädikat, Objekt.
Sätze pro Absatz: Vergleich von Verteilungen
Die folgende Graphik zeigt einen Vergleich der Verteilungen für Sätze pro Absatz bei den betrachteten Werken der Sprache CusyA. Klar erkennbar sind auch hier Gemeinsamkeiten, Unterschiede und Charakteristika der verschiedenen Verteilungen.
Die Abweichung des poetischen Werkes B ist primär dadurch zu erklären, daß bei diesem die Strophen als Absätze gezählt werden und Strophenzeilen nicht mit einem Satzzeichen beendet werden, weshalb jede Strophe als ein Satz interpretiert wird. Poesie unterscheidet sich ohnehin deutlich von Prosa. Absätze kommen da Strophen noch am nächsten.
Das Zahlenwerk Z weicht natürlich aufgrund seiner besonderen Struktur ebenfalls stark ab.
Die Verteilungen der anderen Werke sind ziemlich gleichmäßig, allerdings gegeneinander verschoben, was die Hypothese stützt, daß es sich um verschiedene Autoren oder mindestens Textstrukturen handelt. Die Gleichmäßigkeit der Verteilungen weist allerdings auf eine jeweils in sich schlüssige Harmonie der einzelnen Werke hin, in welchen die Gedankengänge auch von der Menge her offenbar bereits wohldosiert sind, wohlbedacht, über die äußere Struktur auch auf eine innere Gleichmäßigkeit verweisen.
Wörter pro Absatz: Vergleich von Verteilungen
Die folgende Graphik zeigt einen Vergleich der Verteilungen für Wörter pro Absatz bei den betrachteten Werken der Sprache CusyA.
Aufgrund der anderen Struktur weicht die Verteilung des poetischen Werkes B auch hier wieder deutlich von den Prosa-Werken ab. Ähnlich verhält es sich natürlich beim Zahlenwerk Z.
Die relative breiten Verteilungen sind zu erwarten, fallen für die Prosa-Werke allerdings relativ ähnlich aus. Die Häufigkeiten zwischen den verschiedenen Texten sind deutlich unterschiedlich, was wiederum die Hypothese verschiedener Autoren oder Textstrukturen stützt.
Worthäufigkeiten im Vergleich
Die folgende Graphik zeigt einen Vergleich der Verteilungen der Worthäufigkeiten bei den betrachteten Werken der Sprache CusyA. Natürlich kommt es hier nicht so sehr darauf an, welche Wörter konkret wie häufig auftreten, statistisch spannend ist eher, ob die Verteilungen auffällige Gemeinsamkeiten oder Unterschiede aufweisen, eventuell auch abweichend von dem Verhalten bekannter Sprachen.
Die Verteilungen für bekannte Sprachen entsprechen häufig grob dem Zipfschen Gesetz. Gemäß dem Zipfschen Gesetz sollte die Häufigkeit umgekehrt proportional zur Position in der Rangfolge abnehmen. Typisch für Sprachen ist eine individuelle Abweichung je nach Sprache insbesondere einerseits im Bereich der häufigsten Wörter. Hier findet sich regelmäßig eine schwächere Abnahme. Andererseits gibt es auch Abweichungen im Bereich der selten verwendeten Wörter.
Bei den Werken ist das Verhalten relativ ähnlich. Natürlich weicht das Zahlenwerk Z deutlich von den anderen ab.
Abermals weicht das poetische Werk B ebenfalls von den anderen deutlich ab. Dabei bleibt offen, ob dies lediglich an der speziellen Struktur von poetischen Werken in CusyA liegt oder ob dieses poetische Werk B vielleicht aus einer anderen Zeit als die anderen Werke stammt oder vielleicht sogar doch in einem anderen Dialekt geschrieben wurde.
Insgesamt passen die Verteilungen zu dem, was man für eine Sprache erwarten würde, also durchaus eine gewisse Ähnlichkeit mit dem Zipfschen Gesetz einschließlich der genannten Abweichungen für wirkliche Sprachen, wie sie etwa auch bei Deutsch oder Englisch auftreten.
CusyA – einfache Textproduktion und Grammatik
Texte in der Schriftsprache CusyA (kurz für: cubisch-symmetrisch) sind inhaltlich nicht komplett entschlüsselt. Die grundlegende Grammatik, die Bedeutung einiger Glyphen und einige einfache Regeln der Textproduktion sind allerdings bekannt. Die hier verfügbare Übersicht sollte bei der Analyse von Texten erheblich helfen.
CusyA ist gleichzeitig der Prototyp einer reichhaltigen, regelmäßigen Sprache. Anders als bei vielen anderen Sprachen werden bei CusyA viele syntaktische Redundanzen und Mehrdeutigkeiten vermieden.
Ein weiteres Charakteristikum von CusyA sind die durchgehend verwendeten Marker oder Präfixe zur Kennzeichnung der regelmäßigen grammatikalischen Strukturen.
Das Vokabularium von CusyA besteht also primär aus Markern und den Wortkernen. Aus der Kombination ergibt sich die Bedeutung in der Textstruktur. Somit erzeugen die dem Wortkern als Präfixe vorangestellten Marker, ob das so gebildete Wort ein Subjekt, Prädikat, Objekt, Adjektiv oder Adverb ist.
Durch diverse Satzzeichen werden überdies Satzstrukturen voneinander separiert und in der Intention verfeinert.
Neben der Grammatik der Marker und Wortkerne gibt es zudem für mathematische Ausdrücke und Zahlen eine gesonderte Syntax.
Die Schriftsprache CusyA hat zum großen Teil einen eigenen Zeichenvorrat und eine eigene, einfache Grammatik.
Zum Versuch der Beschreibung der formalen Produktion der Struktur und Grammatik einfacher Textstrukturen von CusyA wird im Folgenden eine Variante der Kurznotation nach (e)BNF verwendet.
Zusätzlich werden Klammern verwendet, um den Vorrang der Zuordnung eindeutig zu priorisieren.
$ wird als Platzhalter verwendet, um sich wiederholende Strukturen nicht mehrmals beschreiben zu müssen. Dabei bedeutet A (=$), daß in den folgenden Definitionen das $ jeweils durch ein zuvor angegebenes A zu ersetzen ist.
Im Rahmen semantischer Textauszeichnung etwa mit XHTML wird diese Produktion in kleineren Strukturen ergänzt, sie ist allerdings auch wichtig, um größere Strukturen als Absätze, Strophen und Zeilen zu erzeugen, die hier beschrieben werden. Die folgende Kurznotation berücksichtigt also lediglich die bloße Textproduktion, nicht die zusätzliche semantische Textauszeichnung mit Elementen, welche Typisch eine Textstruktur beinhalten, allerdings etwa bei betonten Textstellen, Verweisen, Zitaten etc auch kleine Strukturen beinhalten können, also innerhalb von hier beschriebenen Strukturen zusätzlich auftauchen. Meistens umschließen Markierungen von Auszeichnungssprachen wie XHTML die hier bezeichneten Textstrukturen. Alternativ treten sie auch oft auch dort auf, wo Leerzeichen erlaubt sind. In besonderen Situationen können die Markierungen allerdings auch an anderen Stellen auftreten.
Die folgend skizzierte Grammatik beschreibt auch nicht die komplette Struktur vollständiger Werke, sie beginnt grob auf der Ebene von Absätzen, Strophen, Überschriften als Textstruktur. Übergeordnete Strukturen und Zusammenhänge sind also anderweitig semantisch zu kennzeichnen. Neben Absatz, Strophe und Zeile kann es allerdings auch noch weitere Strukturen auf dem Abstraktionsniveau geben, die hier nicht formal berücksichtigt sind, allerdings damit auch nicht ausgeschlossen werden. Die hier angegebene Grammatik ist also einstweilen nur ein Anhaltspunkt für mögliche Strukturen. Bei einer realen Sprache ist es ja ohnehin kaum möglich, sie vollständig durch einen formalen Algorithmus zu beschreiben, ein solcher ist zwangsläufig immer nur ein hilfreicher Anhaltspunkt bei der Textanalyse.
Beschrieben wird also die digitale Repräsentation solcher Strukturen. Das ist auf den oberen Ebenen und teils auch auf Ebene der in ihrer Bedeutung bereits identifizierten Zeichen zwangsläufig eine Abbildung auf das, was wie in einem XHTML-Dokument darstellbar ist.
Textstruktur: Absatz | Strophe | Zeile
Zeile: '' Leerzeichen+ (Wörter | SatzblockA | Satz ) Leerzeichen+ '' Leerzeichen*
Semantisch gesehen ist die Zeile ein Blockelement, wird also in einer Auszeichnungssprache jeweils von einem Blockelement umgeben, jedenfalls mindestens bei einfachem, traditionellem Text mit einem Zeilenumbruch abgeschlossen.
Typische Zeilen treten in Strophen von Gedichten auf, allerdings auch als Überschriften von Werken und Kapiteln.
Strophe: '' Leerzeichen+ Zeile+ Leerzeichen+'' Leerzeichen*
Semantisch gesehen ist die Strophe ein Blockelement, wird also in einer Auszeichnungssprache jeweils von einem Blockelement umgeben, jedenfalls mindestens bei einfachem, traditionellem Text mit einem Zeilenumbruch abgeschlossen und weiterem, vertikalen Textabstand zum vorhergehenden und folgenden Text separiert.
Absatz: '' Leerzeichen+ SatzblockA+ '' Leerzeichen*
Semantisch gesehen ist die Absatz ein Blockelement, wird also in einer Auszeichnungssprache jeweils von einem Blockelement umgeben, jedenfalls mindestens bei einfachem, traditionellem Text mit einem Zeilenumbruch abgeschlossen und weiterem, vertikalen Textabstand zum vorhergehenden und folgenden Text separiert. In XHTML wird der Absatz durch das Element p repräsentiert.
Leerzeichen umfassen das normale Leerzeichen, allerdings ebenfalls die gängigen Zeichen für Zeilenumbrüche.
Leerzeichen (Unicode): #x20 | #x9 | #xD | #xA
Diese genaue Kodierung von Leerzeichen ist natürlich lediglich Bestandteil dieser digitalen Repräsentation der Sprache, nicht von CusyA selbst.
Wörter: (Fragemarker Leerzeichen+)? (Wort | Wort (Leerzeichen+ Wort)+) Leerzeichen*
Wort: WortE | WortE (Verbinder WortE)+
WortE: Adjektiv | Subjekt | Objekt | Prädikat | NameE | Term | Zahl | Gatter Zahl | Symbol
SatzblockA: (Satzblock Leerzeichen+)+ | Zitat Leerzeichen+ | DirekteRede Leerzeichen+ | Anführung3 Leerzeichen+ | Anführung4 Leerzeichen+
Zitat: '' (Satzblock | Satzblock (Leerzeichen+ Satzblock)+ ) ''
DirekteRede: '' (Satzblock | Satzblock (Leerzeichen+ Satzblock)+ ) ''
Anführung3: '' (Satzblock | Satzblock (Leerzeichen+ Satzblock)+ ) ''
Anführung4: '' (Satzblock | Satzblock (Leerzeichen+ Satzblock)+ ) ''
Satzblock: Aussage | Frage | Subjektfrage
Subjektfrage: '¿' Subjektmarker Leerzeichen+ Prädikate Leerzeichen+ Objekte '?'
Frage: '¿' Fragemarker Leerzeichen+ Satz '?'
Aussage: NormalAussage | AbgeschwächteAussage | ImperativAusruf | Term Leerzeichen+
Normalaussage: (''| '…') Satz ('.' | '…')
AbgeschwächteAussage: '' Satz ''
ImperativAusruf: '¡' Satz '!'
Satz: Hauptsatz | Hauptsatz ((',' | ';' | Leerzeichen+ '…' | Leerzeichen+ '–' | Leerzeichen+ '/' | Leerzeichen+ '\') Leerzeichen+ Hauptsatz)+
Hauptsatz: Subjekte Leerzeichen+ Prädikate Leerzeichen+ Objekte
Subjekte (=$): Subjekt | Klammern$+
Prädikate (=$): Prädikat | Klammern$+
Objekte (=$): Objekt | Klammern$+
Adjektive (=$): Adjektiv | Klammern$+
Klammern$: Aufzählung$ | '(' Aufzählung$ ')' | '[' Aufzählung$ ']' | '{' Aufzählung$ '}' | '' Aufzählung$ ''
Mehr als ein Klammerausdruck ist anzuwenden, wenn verschiedene Typen von Aufzählung$ kombiniert werden, damit die Aufzählung eindeutig ist. Die Klammern können auch bei komplizierteren Aufzählungen hilfreich sein, etwa wenn Subjekte, Prädikate oder Objekte aufgezählt werden, welche wiederum Aufzählungen von Adjektiven oder Adverbien enthalten.
Aufzählung$: Und$ | Oder$ | EntwederOder$ | Wedernoch$
Und$: $ ('' Leerzeichen+ $)+
Oder$: $ ('' Leerzeichen+ $)+
Entwederoder$: $ ('' Leerzeichen+ $)+
Wedernoch$: $ ('' Leerzeichen+ $)+
Subjekt: (Adjektive Leerzeichen+)? Subjektmarker Pluralmarker? Genusmarker? (Wortkern | Name) (Leerzeichen+ Erweiterung)?
Prädikat: (Adjektive Leerzeichen+)? Prädikatmarker Passivmarker? Wortkern (Leerzeichen+ Erweiterung)?
Objekt: (Adjektive Leerzeichen+)? Objektmarker Pluralmarker? Genusmarker? (Wortkern | Name) (Leerzeichen+ Erweiterung)?
Adverbien haben dieselben Syntax wie Adjektive:
Adjektiv: '' | Adjektivmarker Wortkern
Name: Namensmarker Glyphe+
Name außerhalb einer Satzkonstruktion:
NameE: Pluralmarker? Genusmarker? Namensmarker Glyphe+
Erweiterung: Erweiterungsanfangmarker Leerzeichen+ Objekte Leerzeichen+ Erweiterungsendmarker
Adjektivmarker stehen in der angegebenen Reihenfolge für: Positiv, Komperativ, Superlativ, Maximativ, Negativ/Negation, negierter Komperativ, negierter Superlativ, negierter Maximativ.
Adjektivmarker: '' | '' | '' | '' | '' | ''| '' | ''
Genusmarker werden nur eingesetzt, wenn das Geschlecht besonders betont werden soll, sonst entfällt der Genus. Die Marker stehen in angegebener Reihenfolge für: männlich (der), weiblich (die), sächlich (das), zwitter, weder noch, wechselnd oder verändert, unbestimmt (jemand), irrelevant oder neutral.
Genusmarker: | '' | '' | '' | '' | '' | '' | '' | ''
Die zentrale Struktur des Prädikates ist das Verb, beginnend mit einem Prädikatmarker, gegebenenfalls gefolgt von einem Passivmarker.
Die Prädikatmarker stehen für folgende Zeitformen: Infinitiv, Allgemeingültig oder ewig, Präsens, Präteritum, Perfekt, Plusquamperfekt, Futur 1, Futur 2, Konjunktiv 1, Konjunktiv 2 (bedingt), Indirekte Rede 1, Indirekte Rede 2, Irrartionalis 1, Irrartionalis 2, Imperativ 1, Imperativ 2
Prädikatmarker: '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | ''
Der Subjektmarker kennzeichnet den Akteur einer Aussage, beziehungsweise fragt danach. Die verknüpften Fragewörter sind wer oder was (tut etwas oder wird behandelt)?
Subjektmarker: ''
Objektmarker korrespondieren mit einem Kasus wie Nominativ, Genitiv, Dativ, Ablativ etc, die Auswahl ist allerdings deutlich umfangreicher als im Deutschen. Die jeweiligen Fälle oder Fragemarker korrespondieren mit folgenden Fragewörtern: (wer, was), wessen, wem, wen, womit, wogegen, wann, (wofür, wozu), (warum, weshalb, wieso, weswegen), (welche, welcher, welches), wie, wieviel, wieweit, wobei, wozu, worüber (modal), worunter (modal), woran, wovor, wo, wohin, woher, wovon, woraus, worum (modal), wodurch, worin (positional), worauf, worüber (positional), worunter (positional), wohinter, woneben.
Fragemarker oder Objektmarker: '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | ''
Erweiterungen dienen der näheren Erläuterung des Subjektes oder eines Objektes. Um eine eindeutige Zuordnung zu gewährleisten, wird eine Erweiterung jeweils von speziellen Erweiterungsmarkern umschlossen.
Erweiterungsanfangmarker: ''
Erweiterungsendmarker: ''
Pluralmarker: ''
Passivmarker: ''
Namensmarker kennzeichnen unterschiedliche Entitäten, die Eigennamen haben können, in der angegebenen Reihenfolge: Person, Gruppe, Organisation, Lebewesen, Ortschaft, Landschaft oder Region, Berg oder Tal, Fluß, Personifizierung, Abstraktion, Objekt, sonstiger Name.
Namensmarker: '' | '' | '' | '' | '' | '' | '' | '' | '' |'' | '' | '' |
Wortkern: Glyphe+ | Zahl
Terme repräsentieren einfache mathematische Ausdrücke, Gleichungen, Ungleichungen etc.
Term: (Zahl | Glyphe | Zahl Glyphe) (Operator (Zahl | Glyphe | Zahl Glyphe))*
Zahl: Vorzeichen? Ziffer+ (Fließtrenner Ziffer+)? | Vorzeichen? Spezialzahl
Vorzeichen +, -, i:
Vorzeichen: '+' | '-' | ''
Fließtrenner: ''
Ziffern von 0 bis 9:
Ziffer: '0' | '1' | '2' | '3' | '4' | '5' | '6' | '7' | '8' | '9'
Spezialzahlen sind e (2.71828182846 …), π (3.14159265359 …), Φ (Goldene Zahl, 1.61803398875 …), 1/Φ (0.61803398875 …)
Spezialzahl: '' | '' | '' | ''
Operatoren sind plus, minus, mal, geteilt, potenzieren, wurzeln, logarithmieren, frei definierbar, modulo, teilen ohne Rest, gleich, ungleich, identisch, definiert gleich (Zuweisung für links), ähnlich, beinahe gleich, kleiner, größer, kleiner gleich, größer gleich.
Operator: '+' | '-' | '' | '' | '' | '' | '' | '' | '' | '' | '=' | '≠' | '≡' | '' | '∼' | '≈' | '<' | '>' | '≤' | '≥' | Symbol | Gatter
Glyphe: Silbe | Verbinder
Typisch kommen bei Glyphe+ nicht zwei Verbinder hintereinander vor.
Ein Verbinder verbindet eher Gruppen von Silben zu einer neuen Konstruktion, wie etwa das Zeichen @ eine email-Adresse kennzeichnet, den Namen der Person mit dem Namen des Dienstrechners zu einer Adresse verbindet.
Verbinder: '%' | '@'
Ein Symbol steht meist entweder allein oder ist ein Präfix oder ein Suffix einer Silbenfolge oder Ziffernfolge, kann allerdings auch als weiterer, frei definierbarer Operator verwendet werden. Ebenso wird ein Symbol als einfache Variable eingesetzt.
Symbol: '*' | '$' | '§' | '´' | '`' | '^' | '_' | '°' | '&' | '' | ''' | '"'
Ein Gatter dient gelegentlich als besonderer Marker für Numerale, kann allerdings auch als weiterer, frei definierbarer Operator verwendet werden. Ebenso wird ein Gatter als einfache Variable für Zahlen eingesetzt.
Statt ‚erstens‘ oder ‚1.‘ zu schreiben, wird in CusyA der Zahl ein Gatter vorangestellt.
Gatter: '#' | '' | '' |''
Silbe: '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | '' | ''
Tag der Veröffentlichung: 02.07.2018 Alle Rechte vorbehaltenImpressum