En: This webpage is a visualization of measures. It compares 2D examples and gives and interpretation for token heuristic vector comparison. Measures are a mathematical expression of the notion of distinction/equality between a series of mathematical objects. If the mathematical objects represent a text by holding abundance values of its tokens, one may interpret the computed values as differences. But there are some properties of the computation that will influence/shape the results in a general way. This webpage tries to visualize the differences and discuss which arithmetical situation and by this which token frequencies, will result in which measure values. The baseline for the visualization will be the euclidean measure.
Dt: Diese Website stellt Visualisierungen zu Maßen vor. Zunächst werden mit den Maßen Vergleiche ausgerechnet. Die Ergebnisse werden in Hinsicht darauf interpretiert, dass die Beispiele Token-Heuristiken sind. Maße sind mathematische Ausdrücke, die als Ahnung der Unterschiedlichkeit/Gleichheit herangezogen werden. Wenn die mathematischen Objekte, die in die Berechnung eingehen, Vektoren von Häufigkeiten von Token in Texten sind, dann kann man davon sprechen, dass die mathematischen Objekte Text repräsentieren. Wenn die Eingaben zur Maßberechnung Texte repräsentieren, dann kann man das Ergebnis, das ausgerechnet wird, als Unterschiedlichkeit/Gleichheit auffassen. Es gibt jedoch ein paar arithmetische Eigenschaften der Berechnungen, die sich auf die Ergebnisse auswirken. In den Darstellungen geht es um diese Eigenschaften, bzw. wie sie sich in den Ergebnissen niederschlagen. Die Grundidee und auch die erste Berechnung leitet sich vom Euklidischen Maß ab.
Um eine einheitliche Darstellung herzustellen, müssen zwei Punkte Berücksichtigung finden: 1. Es gibt eine Namenskonvention, die ein Maß auch als Distanz oder Distanzmaß benennt (weitere Versuche zur Namensgebung beinhalten "Unterschiedlichkeit", "Distinktionsmaß", "Ähnlichkeit", "Kostenmaß" etc.) - wir benutzen
Maß als den Namen für die Definition der Berechnung,
Abstand für einen konkreten, berechneten Wert und
Metrik ist die Ergebnismenge aller Vergleichesberechnungen (Umsetzung der Eigenschaften der Maßdefinition). Ein Maß ist an sich kein Wert der Gleichheit oder Unterschiedlichkeit, sondern das Ziel der Interpretation, die ihre Gültigkeit als Metrik gewinnt (nur innerhalb einer Menge aller Ergebnisse ist eine Unterscheidung in den Begriffe von Gleichheit und Unterschiedlichkeit sinnvoll). Die arithmetische Gleichheit bleibt von dieser Definition unberührt und stellt eine andere Ebene der Betrachtung dar.
Der Anwendungsbereich des Maßes ist für die Interpretation der Ergebnisse von großer Bedeutung. Der Bereich, den wir annehmen werden, ist der der
string-Heuristik (Häufigkeiten von einzelnen
string-Mustern in längeren
strings) und der Vergleiche zwischen diesen. Die Methode
string-Heuristiken zu vergleichen kommt in verschiedenen Aufgaben zum Einsatz, so zum Beispiel der computergestützten Stylometrie oder der Plagiatermittlung. Bevor wir fortfahren, wollen wir uns den wiederkehrenden Arbeitsablauf ins Gedächtnis rufen: Nachdem die digitalen Dokumente eingelesen wurden, geht es zunächst darum, den Zeichenbestand sowie die Formate auf ein Gemeinsames zu bringen. Dieser Verarbeitungsschritt wird Normalisierung genannt. Dazu zählen auch Maßnahmen, die Steuerzeichen aus den Dokumentinhalten tilgen. Anschließend geht es darum festzulegen, in welche Einheiten ein digitaler Dokumenteninhalt zerlegt werden soll. Dieser Schritt wird Tokenisierung genannt.
Token und
Type gehen auf Charles Sanders Peirce zurück. Aus seiner Definition wird deutlich, dass für einen zählenden Apparat ausschließlich die
Token-Ebene zugänglich ist, dazu
[Nöth PEIRCE]. Wenn der
string-Inhalt der Dokumente in
Token zerlegt wurde, dann kann der Auszählungsprozess beginnen. Unter Umständen wird anschließend noch eine Auswahl aus den Häufigkeitslisten getroffen. Dies geschieht in Form von
culling, Stoppwort-Listen oder von Abschnitten innerhalb der Häufigkeitsverteilungen. Nun kommt der Augenblick im Ablauf, an dem die Maße zum Einsatz kommen. Diese werden zwischen den Häufigkeitsverteilungen der
Token für jeden Text (eigentlich: tokenisierter, ausgewählter,
string-Inhalt der eingelesenen Dokumente) berechnet. Die Maße können nur zwischen identisch dimensionierten Häufigkeitsverteilungen berechnet werden. Also bekommen
Token, die in einem Text nicht vorkommen, die Häufigkeit null und kommen in der Verteilung vor. Diese Werte werden für alle Textpärchen berechnet. Anschließend werden die Texte so geordnet, dass die mit kleinen berechneten Werte näher beieinander dargestellt werden und jene mit größer berechneten Werten weiter voneinander entfernt stehen. Dieser Arbeitsschritt heißt clustern. Es gibt eine Reihe von Verfahren, um die Grundidee umzusetzen. Wir werden hier lediglich etwas zu den Maßen und den numerischen Verhältnissen sagen. Dabei kommen die Maße, wie die beschriebenen Arbeitsschritte bereits andeuten, im Kontext des Textvergleichs zum Einsatz.
Die Visualisierung: Die Darstellungen bestehen aus einer quadratischen Grundfläche. Die karthesischen Verhältnise sind in dieser Grafik notiert:
Jede nicht gegenüberliegende Seite der Grundfläche steht für die Häufigkeit einer Wortform. Ein Punkt auf der Grundfläche stellt einen hypothetischen Text aus zwei Wortformen dar. Zunächst geht es darum, eine Anzahl hypothetischer Texte auszuwählen. Diese Texte enthalten jeweils zwei Wortformen, nur mit unterschiedlichen Häufigkeiten. Diese werden so gewählt, dass man sie auf der Grundfläche so einzeichnen kann, dass
es einen zentralen Text und eine Anzahl von Texten gibt, die sich in gleichem (euklidischen) Abstand zum zentralen Text anordnen. Mit anderen Worten, die Grundfigur der gewählten Texte (Kreistexte, Referenztexte) ist ein Kreis mit Mittelpunkt (Mittelpunkttext, Basistext). Es ist das Grundprinzip der Visualisierung, dass die Texte so angeordnet sind. Denn es geht darum die unterschiedlichen Ergebnisse der Maßberechnungen aufzuzeigen. So gehen wir von der Definition des Kreises im euklidischen Rahmen aus, um Maße, die andere Abstände für den Vergleich zweier Texte liefern, in diesem Rahmen visuell zu gestalten. Die Werte, die das jeweilige Maß für einen berechneten Vergleich zwischen zwei Texten liefert, werden mit einem Strich zwischen Zentrum und äußeren Vergleichstext dargestellt. Für das euklidische Maß verbindet jede berechnete Linie den Kreis der äußeren Texte mit dem Mittelpunkt. Die Linie zwischen zwei Punkten muss aber nicht unbedingt diese Länge haben. Bestimmte Maße bewerten die Zusammensetzung an Zahlen, die hinter einem Text stehen, auf verschiedene Weise und errechnen unterschiedlich große Abstände. Falls die Ergebnisse des Maßes besonders klein sind, dann werden, um die Darstellung sinnvoll zu erhalten, die Werte so vergrößert, dass das größte Ergebnis den Mittelpunkttext mit dem zugehörigen Text auf der Kreisbahn verbindet. Sind die Ergebnisse besonders groß, werden die Linien so verkürzt, dass das größte Ergebnis das Zentrum mit der Kreisbahn verbindet.
Wenn der Mauszeiger auf einen der Punkte (Texte) bewegt wird, dann bekommen sie die Zahlenzusammensetzung angezeigt. Die Zahlen sind die absoluten Häufigkeiten zweier Wortformen, die in allen Texten enthalten sind. Alle Texte beinhalten nur diese zwei Wortformen. Klicken sie einen Punkt an, dann bekommen sie den zugehörigen hypothetischen Text angezeigt. Für die Visualisierung haben wir den einfachsten anschaulichen Fall von Textvergleich konstruiert. Dabei handelt es sich um die künstlichen Texte, die nur zwei Wortformen beinhalten.
Nun wollen wir uns vergegenwärtigen, wie die Visualisierung zu lesen ist: Wir wollten ein vergleichbares 2D-Diagramm der Ergebnisse der Maßanwendung. Dazu haben wir ein Rechteck definiert in dem wir Texte einzeichnen können (Höhe und Breite des Rechtecks entsprechen der Häufigkeit einer der zwei Wortformen). Es ist zu zeigen was dieses Rechteck bedeutet und welche Bedeutung dem Ort des ausgewählten Textes zukommt. Die Interpretation der Ergebnisse der Maße ist an zwei Aspekte gebunden: Die Häufigkeit und die Unterschiedlichkeit von Häufigkeiten zwischen den Vergleichstexten. Erinnern wir nochmals daran, dass ein Punkt, der im Rechteck eingezeichnet, ist zwei Zahlenwerte verbirgt. Diese Zahlenwerte definieren seine Position im Rechteck und stehen für die absolute Häufigkeit von Wortformen in einem Text. Das Rechteck ist durch einen Farbverlauf von Grau nach Golden koloriert. Die grauen Bereiche geben an, dass Texte, die in diesem Bereich markiert, sind insgesamt mit kleineren Zahlenwerten ausgestattet sind, also kleinere absolute Häufigkeiten aufweisen. Texte, die in Bereichen kräftiger Färbung eingezeichnet werden, weisen hingegen größere Zahlenwerte, also größere absolute Häufigkeiten für die beiden Wortformen auf. Texte, die in einer Reihe parallel zu einer Hauptachse (Kante) des Rechtecks markiert sind, weisen einen starken Zusammenhang zwischen den Häufigkeitswerten einer Wortform bzw. einen gleichen Zahlenwert auf. Diese Beziehung zwischen den Texten ist dann so auszudrücken, dass die beiden Texte
weniger unterschiedlich hinsichtlich der Häufigkeit der Wortformen sind. Texte, die parallel zu einer der Diagonalen des Rechtecks markiert werden, unterscheiden sich in den Häufigkeiten beider Wortformen. Dabei sind die Texte entlang der Diagonalen
am stärksten unterschiedlich.
Für die Bewertung der Maße bzw. der Besprechung ihrer unterschiedlichen Ergebnisse werden die Aspekte der Reaktion auf größere oder kleinere Zahlenwerte der Häufigkeiten und die Unterschiedlichkeit der Text (Lage der Vergleichstexte parallel zur Diagonalen oder parallel zur Seite des Rechtecks) immer wieder verwendet. Es sind diese Aspekte, die von der Visualisierung herausgearbeitet werden. Was in dieser Visualisierung und Besprechung unberücksichtigt bleibt, sind die Konsequenzen der Ergebnisse der Maße für die Clusterung. Es geht hier nur um die Empfindlichkeit der Maße für verschiedene Häufigkeitssituationen der Wortformen in den Texten. Was den Vergleich der Maße in Begriffen absoluter Ergebnisse angeht, muss Berücksichtigung finden, dass manche Grafiken skaliert sind. Die Visualisierungen, deren Strahlen die Farbe
FFFFFFF tragen, sind nicht skaliert; wenn die Farbe
FFFFFFF ist, dann sind die Strahlen in Wahrheit länger (Stauchung), und wenn die Farbe
FFFFFFF ist, dann sind die Strahlen in Wahrheit kürzer (Streckung). Neben den farbigen Strahlen werden, leicht nach rechts unten verschoben, dünne schwarze Strahlen angezeigt. Diese stellen die Ergebnisse für relative Häufigkeiten dar.
Die Visualisierungen der Ergebnisse sind interaktiv. Führe Sie den Mauszeiger über einen Punkt in der Graphik, werden die beiden Häufigkeiten des hypothetischen Texts angezeigt, der sich hinter diesem Punkt verbergen. Klicken Sie wiederum auf einen Punkt, dann bekommen Sie den hypothetischen Text aus zwei Wortformen angezeigt, der sich hinter diesem Punkt verbirgt. Da es sich um ein konstruiertes, einfachstes Beispiel einer Gruppe von Texten handelt, die alle genau zwei gemeinsame Wortformen verwenden, ist die Anzeige des Textes ausschließlich dazu da, das Beispiel plastischer zu machen.
Unter jedem Diagramm findet sich ein kleines Menü. Ein Klick auf die Bezeichung "DOWNL." aktiviert den Download der Grafik. Ein Klick auf "3D.3T" zeigt, sofern verfügbar, eine Grafik für Texte, die mit drei Wortformen gebildet werden. Ein Klick auf "2Danima" zeigt eine Annimation für verschiedene Zahlenverhältnisse in den hypothetischen Texten.
Formeln: Es sind X und Y die nach Wortformen geordneten Häufigkeitsverteilungen zweier Texte. Die xi sind Häufigkeiten aus X, also die Häufigkeit für eine einzelne Wortform im Text. So auch yi. Alle Rechnungen verwenden ferner das große SIGMA oder PI, um anzuzeigen, dass die anschließenden Werte zusammengenommen (addiert oder multipliziert) werden.
Die Maße sind als JS Bibliothek unter
https://github.com/ecomp-shONgit/vector-measures verfügbar.
Literature / Literatur
01) [Nöth PEIRCE] Winfried Nöth "Charles Sanders Peirce, Pathfinder in Linguistics", Absch. 4,
WEBSITE (01.05.2022)
02) [Deza ENCYCLOPEDIA] Elena Deza / Michel-Marie Deza "Encyclopedia of Distances", Elsevier Science, 2009,
PDF (09.05.2022)
03) [Villani TRANSPORT] C´edric Villani, "Optimal transport, old and new", Springer, 2008,
PDF (09.05.2022)
04) [Korenius PCA] Tuomo Korenius, Jorma Laurikkala, Martti Juhola "On principal component analysis, cosine and Euclidean measures in information retrieval", Information Sciences, Volume 177, Issue 22, 2007,
PDF (09.05.2022)
05) [Korenius PCA] Tuomo Korenius, Jorma Laurikkala, Martti Juhola "On principal component analysis, cosine and Euclidean measures in information retrieval", Information Sciences, Volume 177, Issue 22, 2007,
PDF (09.05.2022)
06) [Kunwar TAXICAB] Rajendra Kunwar "EXPLORING CONCEPTS AND APPLICATIONS OF TAXICAB GEOMETRY", International Journal of Development Research, Vol. 08, Issue 11, 2018,
PDF (09.05.2022)
07) [Minkowski GEOMETRIE] Hermann Minkowski "Geometrie der Zahlen", Verlag von B. G. Teubner, Leipzig, 1910,
WEBSITE (11.05.2022)
08) [Lance/Williams CLASSIFICATION] G. N. Lance, W. T. Williams "Computer Programs for Hierarchical Polythetic Classification (Similarity Analyses)", The Computer Journal, Volume 9, Issue 1, 1966,
WEBSITE (12.05.2022)
09) [Somerfield IDENTIFICATION] Paul J. Somerfield "Identification of the Bray-Curtis similarity index: Comment on Yoshioka", Marine Ecology-progress Series, Vol. 372, 2008,
WEBSITE (12.05.2022)
10) [Gower SIMILARITY] J. C. Gower "A General Coefficient of Similarity and Some of Its Properties", Biometrics, Vol. 27, No. 4, 1971,
WEBSITE (09.06.2022)
11) [Ehsani/Drablos ROBUST] Rezvan Ehsani, Finn Drabløs "Robust Distance Measures for kNN Classification of Cancer Data", Cancer Inform, Vol. 19, 2020,
WEBSITE (24.06.2022)
12) [Cha COMPREHENSIVE] Sung-Hyuk Cha "Comprehensive Survey on Distance/Similarity Measures Between Probability Density Functions", International Journal of Mathematical Models and Methods in Applied Sciences, 1(4), 2007,
WEBSITE (08.09.2022)
[Finger Kreinin EXPORT] J. M. Finger, M. E. Kreinin "A Measure of `Export Similarity' and Its Possible Uses", Oxford University Press, The Economic Journal
Vol. 89, No. 356, pp. 905-912, 1979
WEBSITE (20.02.2023)
12) [Deza ENCYCLOPEDIA] Elena Deza, Michel-Marie Deza "Encyclopedia of Distances", Elsevier Science, 2009,
WEBSITE (08.09.2022)
15) [Hassanat INVARIANT] Ahmad Basheer Hassanat "Dimensionality Invariant Similarity Measure", Journal of American Science, Vol. 10, No. 8, 2014,
WEBSITE (14.06.2022)
16) [Hassanat REVIEW] Ahmad Basheer Hassanat et al. "Applications Review of Hassanat Distance Metric", Conference Paper, 2022,
WEBSITE (20.02.2023)
17) [Warrens INEQUALITIES] Matthijs J. Warrens "Inequalities Between Similarities for Numerical Data", Journal of Classification 3, 2016,
WEBSITE (20.02.2023)
18) [Ružička Geobotanik] Milan Ružička "Anwendung Mathematisch-Statisticher Methoden in Der Geobotanik (Synthetische Bearbeitung Von Aufnahmen)", Biologia, Bratisl, volume 13, p. 647 - 661, 1958
WEBSITE (20.02.2023)