Measure comparison / Vergleich von MaSZen
En: This webpage is a visualization of measures. It compares 2D examples and gives and interpretation for token heuristic vector comparison. Measures are a mathematical expression of the notion of distinction/equality between a series of mathematical objects. If the mathematical objects represent a text by holding abundance values of its tokens, one may interpret the computed values as differences. But there are some properties of the computation that will influence/shape the results in a general way. This webpage tries to visualize the differences and discuss which arithmetical situation and by this which token frequencies, will result in which measure values. The baseline for the visualization will be the euclidean measure.

Dt: Diese Website stellt Visualisierungen zu Maßen vor. Zunächst werden mit den Maßen Vergleiche ausgerechnet. Die Ergebnisse werden in Hinsicht darauf interpretiert, dass die Beispiele Token-Heuristiken sind. Maße sind mathematische Ausdrücke, die als Ahnung der Unterschiedlichkeit/Gleichheit herangezogen werden. Wenn die mathematischen Objekte, die in die Berechnung eingehen, Vektoren von Häufigkeiten von Token in Texten sind, dann kann man davon sprechen, dass die mathematischen Objekte Text repräsentieren. Wenn die Eingaben zur Maßberechnung Texte repräsentieren, dann kann man das Ergebnis, das ausgerechnet wird, als Unterschiedlichkeit/Gleichheit auffassen. Es gibt jedoch ein paar arithmetische Eigenschaften der Berechnungen, die sich auf die Ergebnisse auswirken. In den Darstellungen geht es um diese Eigenschaften, bzw. wie sie sich in den Ergebnissen niederschlagen. Die Grundidee und auch die erste Berechnung leitet sich vom Euklidischen Maß ab.
1. Single measures / Einzelmaße
1.1 Description / How to read the visualization
1.2 Beschreibung / Lesen der Visualisierung
1.3 Measures / Maße
2. Groups of measures / Gruppen von Maszen
2.1 Description of visualization
2.2 Beschreibung der Visualisierung
2.3 Groups / Gruppen

1. Single measures / Einzelmaße

1.1 Description / How to read the visualization

1.2 Beschreibung / Lesen der Visualisierung

Um eine einheitliche Darstellung herzustellen, müssen zwei Punkte Berücksichtigung finden: 1. Es gibt eine Namenskonvention, die ein Maß auch als Distanz oder Distanzmaß benennt (weitere Versuche zur Namensgebung beinhalten "Unterschiedlichkeit", "Distinktionsmaß", "Ähnlichkeit", "Kostenmaß" etc.) - wir benutzen Maß als den Namen für die Definition der Berechnung, Abstand für einen konkreten, berechneten Wert und Metrik ist die Ergebnismenge aller Vergleichesberechnungen (Umsetzung der Eigenschaften der Maßdefinition). Ein Maß ist an sich kein Wert der Gleichheit oder Unterschiedlichkeit, sondern das Ziel der Interpretation, die ihre Gültigkeit als Metrik gewinnt (nur innerhalb einer Menge aller Ergebnisse ist eine Unterscheidung in den Begriffe von Gleichheit und Unterschiedlichkeit sinnvoll). Die arithmetische Gleichheit bleibt von dieser Definition unberührt und stellt eine andere Ebene der Betrachtung dar.
Der Anwendungsbereich des Maßes ist für die Interpretation der Ergebnisse von großer Bedeutung. Der Bereich, den wir annehmen werden, ist der der string-Heuristik (Häufigkeiten von einzelnen string-Mustern in längeren strings) und der Vergleiche zwischen diesen. Die Methode string-Heuristiken zu vergleichen kommt in verschiedenen Aufgaben zum Einsatz, so zum Beispiel der computergestützten Stylometrie oder der Plagiatermittlung. Bevor wir fortfahren, wollen wir uns den wiederkehrenden Arbeitsablauf ins Gedächtnis rufen: Nachdem die digitalen Dokumente eingelesen wurden, geht es zunächst darum, den Zeichenbestand sowie die Formate auf ein Gemeinsames zu bringen. Dieser Verarbeitungsschritt wird Normalisierung genannt. Dazu zählen auch Maßnahmen, die Steuerzeichen aus den Dokumentinhalten tilgen. Anschließend geht es darum festzulegen, in welche Einheiten ein digitaler Dokumenteninhalt zerlegt werden soll. Dieser Schritt wird Tokenisierung genannt. Token und Type gehen auf Charles Sanders Peirce zurück. Aus seiner Definition wird deutlich, dass für einen zählenden Apparat ausschließlich die Token-Ebene zugänglich ist, dazu [Nöth PEIRCE]. Wenn der string-Inhalt der Dokumente in Token zerlegt wurde, dann kann der Auszählungsprozess beginnen. Unter Umständen wird anschließend noch eine Auswahl aus den Häufigkeitslisten getroffen. Dies geschieht in Form von culling, Stoppwort-Listen oder von Abschnitten innerhalb der Häufigkeitsverteilungen. Nun kommt der Augenblick im Ablauf, an dem die Maße zum Einsatz kommen. Diese werden zwischen den Häufigkeitsverteilungen der Token für jeden Text (eigentlich: tokenisierter, ausgewählter, string-Inhalt der eingelesenen Dokumente) berechnet. Die Maße können nur zwischen identisch dimensionierten Häufigkeitsverteilungen berechnet werden. Also bekommen Token, die in einem Text nicht vorkommen, die Häufigkeit null und kommen in der Verteilung vor. Diese Werte werden für alle Textpärchen berechnet. Anschließend werden die Texte so geordnet, dass die mit kleinen berechneten Werte näher beieinander dargestellt werden und jene mit größer berechneten Werten weiter voneinander entfernt stehen. Dieser Arbeitsschritt heißt clustern. Es gibt eine Reihe von Verfahren, um die Grundidee umzusetzen. Wir werden hier lediglich etwas zu den Maßen und den numerischen Verhältnissen sagen. Dabei kommen die Maße, wie die beschriebenen Arbeitsschritte bereits andeuten, im Kontext des Textvergleichs zum Einsatz.
Die Visualisierung: Die Darstellungen bestehen aus einer quadratischen Grundfläche. Die karthesischen Verhältnise sind in dieser Grafik notiert:

Jede nicht gegenüberliegende Seite der Grundfläche steht für die Häufigkeit einer Wortform. Ein Punkt auf der Grundfläche stellt einen hypothetischen Text aus zwei Wortformen dar. Zunächst geht es darum, eine Anzahl hypothetischer Texte auszuwählen. Diese Texte enthalten jeweils zwei Wortformen, nur mit unterschiedlichen Häufigkeiten. Diese werden so gewählt, dass man sie auf der Grundfläche so einzeichnen kann, dass es einen zentralen Text und eine Anzahl von Texten gibt, die sich in gleichem (euklidischen) Abstand zum zentralen Text anordnen. Mit anderen Worten, die Grundfigur der gewählten Texte (Kreistexte, Referenztexte) ist ein Kreis mit Mittelpunkt (Mittelpunkttext, Basistext). Es ist das Grundprinzip der Visualisierung, dass die Texte so angeordnet sind. Denn es geht darum die unterschiedlichen Ergebnisse der Maßberechnungen aufzuzeigen. So gehen wir von der Definition des Kreises im euklidischen Rahmen aus, um Maße, die andere Abstände für den Vergleich zweier Texte liefern, in diesem Rahmen visuell zu gestalten. Die Werte, die das jeweilige Maß für einen berechneten Vergleich zwischen zwei Texten liefert, werden mit einem Strich zwischen Zentrum und äußeren Vergleichstext dargestellt. Für das euklidische Maß verbindet jede berechnete Linie den Kreis der äußeren Texte mit dem Mittelpunkt. Die Linie zwischen zwei Punkten muss aber nicht unbedingt diese Länge haben. Bestimmte Maße bewerten die Zusammensetzung an Zahlen, die hinter einem Text stehen, auf verschiedene Weise und errechnen unterschiedlich große Abstände. Falls die Ergebnisse des Maßes besonders klein sind, dann werden, um die Darstellung sinnvoll zu erhalten, die Werte so vergrößert, dass das größte Ergebnis den Mittelpunkttext mit dem zugehörigen Text auf der Kreisbahn verbindet. Sind die Ergebnisse besonders groß, werden die Linien so verkürzt, dass das größte Ergebnis das Zentrum mit der Kreisbahn verbindet.
Wenn der Mauszeiger auf einen der Punkte (Texte) bewegt wird, dann bekommen sie die Zahlenzusammensetzung angezeigt. Die Zahlen sind die absoluten Häufigkeiten zweier Wortformen, die in allen Texten enthalten sind. Alle Texte beinhalten nur diese zwei Wortformen. Klicken sie einen Punkt an, dann bekommen sie den zugehörigen hypothetischen Text angezeigt. Für die Visualisierung haben wir den einfachsten anschaulichen Fall von Textvergleich konstruiert. Dabei handelt es sich um die künstlichen Texte, die nur zwei Wortformen beinhalten.
Nun wollen wir uns vergegenwärtigen, wie die Visualisierung zu lesen ist: Wir wollten ein vergleichbares 2D-Diagramm der Ergebnisse der Maßanwendung. Dazu haben wir ein Rechteck definiert in dem wir Texte einzeichnen können (Höhe und Breite des Rechtecks entsprechen der Häufigkeit einer der zwei Wortformen). Es ist zu zeigen was dieses Rechteck bedeutet und welche Bedeutung dem Ort des ausgewählten Textes zukommt. Die Interpretation der Ergebnisse der Maße ist an zwei Aspekte gebunden: Die Häufigkeit und die Unterschiedlichkeit von Häufigkeiten zwischen den Vergleichstexten. Erinnern wir nochmals daran, dass ein Punkt, der im Rechteck eingezeichnet, ist zwei Zahlenwerte verbirgt. Diese Zahlenwerte definieren seine Position im Rechteck und stehen für die absolute Häufigkeit von Wortformen in einem Text. Das Rechteck ist durch einen Farbverlauf von Grau nach Golden koloriert. Die grauen Bereiche geben an, dass Texte, die in diesem Bereich markiert, sind insgesamt mit kleineren Zahlenwerten ausgestattet sind, also kleinere absolute Häufigkeiten aufweisen. Texte, die in Bereichen kräftiger Färbung eingezeichnet werden, weisen hingegen größere Zahlenwerte, also größere absolute Häufigkeiten für die beiden Wortformen auf. Texte, die in einer Reihe parallel zu einer Hauptachse (Kante) des Rechtecks markiert sind, weisen einen starken Zusammenhang zwischen den Häufigkeitswerten einer Wortform bzw. einen gleichen Zahlenwert auf. Diese Beziehung zwischen den Texten ist dann so auszudrücken, dass die beiden Texte weniger unterschiedlich hinsichtlich der Häufigkeit der Wortformen sind. Texte, die parallel zu einer der Diagonalen des Rechtecks markiert werden, unterscheiden sich in den Häufigkeiten beider Wortformen. Dabei sind die Texte entlang der Diagonalen am stärksten unterschiedlich.
Für die Bewertung der Maße bzw. der Besprechung ihrer unterschiedlichen Ergebnisse werden die Aspekte der Reaktion auf größere oder kleinere Zahlenwerte der Häufigkeiten und die Unterschiedlichkeit der Text (Lage der Vergleichstexte parallel zur Diagonalen oder parallel zur Seite des Rechtecks) immer wieder verwendet. Es sind diese Aspekte, die von der Visualisierung herausgearbeitet werden. Was in dieser Visualisierung und Besprechung unberücksichtigt bleibt, sind die Konsequenzen der Ergebnisse der Maße für die Clusterung. Es geht hier nur um die Empfindlichkeit der Maße für verschiedene Häufigkeitssituationen der Wortformen in den Texten. Was den Vergleich der Maße in Begriffen absoluter Ergebnisse angeht, muss Berücksichtigung finden, dass manche Grafiken skaliert sind. Die Visualisierungen, deren Strahlen die Farbe FFFFFFF tragen, sind nicht skaliert; wenn die Farbe FFFFFFF ist, dann sind die Strahlen in Wahrheit länger (Stauchung), und wenn die Farbe FFFFFFF ist, dann sind die Strahlen in Wahrheit kürzer (Streckung). Neben den farbigen Strahlen werden, leicht nach rechts unten verschoben, dünne schwarze Strahlen angezeigt. Diese stellen die Ergebnisse für relative Häufigkeiten dar.

Die Visualisierungen der Ergebnisse sind interaktiv. Führe Sie den Mauszeiger über einen Punkt in der Graphik, werden die beiden Häufigkeiten des hypothetischen Texts angezeigt, der sich hinter diesem Punkt verbergen. Klicken Sie wiederum auf einen Punkt, dann bekommen Sie den hypothetischen Text aus zwei Wortformen angezeigt, der sich hinter diesem Punkt verbirgt. Da es sich um ein konstruiertes, einfachstes Beispiel einer Gruppe von Texten handelt, die alle genau zwei gemeinsame Wortformen verwenden, ist die Anzeige des Textes ausschließlich dazu da, das Beispiel plastischer zu machen.
Unter jedem Diagramm findet sich ein kleines Menü. Ein Klick auf die Bezeichung "DOWNL." aktiviert den Download der Grafik. Ein Klick auf "3D.3T" zeigt, sofern verfügbar, eine Grafik für Texte, die mit drei Wortformen gebildet werden. Ein Klick auf "2Danima" zeigt eine Annimation für verschiedene Zahlenverhältnisse in den hypothetischen Texten.

Formeln: Es sind X und Y die nach Wortformen geordneten Häufigkeitsverteilungen zweier Texte. Die xi sind Häufigkeiten aus X, also die Häufigkeit für eine einzelne Wortform im Text. So auch yi. Alle Rechnungen verwenden ferner das große SIGMA oder PI, um anzuzeigen, dass die anschließenden Werte zusammengenommen (addiert oder multipliziert) werden.

Die Maße sind als JS Bibliothek unter https://github.com/ecomp-shONgit/vector-measures verfügbar.

1.3 Measures / Maße

Euclidean Measure / Euklidisches Mass

DOWNL. / 3D.3T / 2Danima
En:

Dt: Das Euklidische Maß realisiert die geometrische bzw. die auf die Raumwahrnehmung bezogene Intuition. In dieser ist jeder Punkt auf der Kreisbahn zum Zentrum gleich weit entfernt. Das Maß liefert die Größe dieser Entfernung. Zeichnet man diese ein, dann ergeben sich Strahlen vom Zentrum zur Peripherie des Kreises. Diese Anordnung dient uns als Grundlage der Visualisierung. Das Euklidische Maß beton keines der Zahlenverhältnisse, die in den einzelnen Textpunkten vertreten sind. Es ist in diesem Sinne ein neutrales Maß.
Formel der Implementierung: d XY = 0i ( xi - yi ) 2
Link Paper: [Korenius PCA]

Chebyshev Measure / Tschebyschow Mass

DOWNL. / 2Danima
En:

Dt: Die Abstandswerte des Tschebyschow Maßes unterscheiden sich, im Vergleich zum Euklidischen Maß, darin, dass die Hauptachsenrichtungen größere und die Richtungen entlang der Diagonalen kleinere Werte erzielen. Die Ausprägung der Ergebnisse entlang dieser beiden Richtungen lässt uns formulieren, dass für ausgezählte Texte mit großen Unterschieden in den Häufigkeiten der Wortformen ein kleinerer Wert errechnet wird und für ausgezählte Texte mit kleineren Unterschieden in den Häufigkeiten der Wortformen größere Werte. Da das Ergebnis des Maßes punktsymmetrisch ist, kommt es zu keiner grundsätzlichen Unterscheidung zwischen sehr großen oder sehr kleinen Häufigkeitswerten. Das Maß wird außerdem Schachbrettmaß oder Maximumsnorm genannt.
Formel der Implementierung: d XY = max 0i ( | xi - yi | )
Link Paper: [] !!!

Manhattan Measure / Manhattan Mass

DOWNL. / 3D.3T / 2Danima
En:

Dt: Das Manhattan Maß stellt, nach seiner Formel zu urteilen, das dar, was Minkowski Spanne (Minkowski GEOMETRIE S. 2) nannte. Der völlig abwegigen Vorstellung, dass zwei Punkte unterschiedliche Distanzen haben können in Abhängigkeit vom verwendeten Maß, könnte die Intuition entgegen gesetzt werden, dass die Entfernung zwischen zwei Punkten durch den Weg, den man nimmt, bestimmt ist. Diese Aussage ist besonders schön durch das Manhattan Maß gezeigt, dessen moderne Definition diesen unterschiedlichen Weg (verglichen mit dem Euklidischen Maß, dem direkten Weg) parallel zu den Achsen der Koordinaten aussagt. Wenn man beispielsweise, wie es das Manhattan Maß tut, einen Umweg nimmt, dann liegen zwei Punkte weiter auseinander. Und auch der Weg, den man nimmt, hängt von der Lage der Punkte ab. Also manche Wege, auch wenn man vorsätzlich einen weiteren Weg nach einem festen Prinzip mutwillig einschlägt, sind nicht weiter als der kürzeste Weg auseinander entfernt. Hier wirkt sich nicht der Vorsatz, den weiteren Weg zu wählen aus, sondern, dies nach einem wiederholbaren Schema zu tun. So ist jedes definierte Maß eher die Definition wie und wo entlang IMMER gemessen werden soll. Dieses Vorgehen zeitigt interessante arithmetische Erscheinungen, die man sich im Ausdruck von vermuteten oder belegten Verhältnissen in nummerisierten Problemen zu Nutze macht. Das Manhattan Maß liefert für ähnliche Häufigkeitswerte in den Vektoren der Texte einen kleineren Wert. Es liefert dagegen größere Werte für stärker verschiedenen Häufigkeitswerte zwischen den Auszählungen der Texte.
Formel der Implementierung: d XY = 0i| xi - yi |
Link Paper: [Kunwar TAXICAB]

Minkowsky Measure Order 0.7

DOWNL. / 2Danima
En:

Dt: Minkowski unterscheidet zwischen Distanzmaß und Spanne. Dabei scheint er die Intuition der Entfernung zwischen zwei Punkten zu integrieren wollen. Spannen sind die tatsächliche Differenz zwischen den Koordinaten zweier Punkte und Distanzmaße sind die Strahldistanzen, dazu S. 1 - 3 seines Werks Geometrie der Zahlen. Minkowski ist sich ebenfalls der Ambivalenz der Untersuchung bewusst. Die Norm, die hier der Formel für das Minkowski Maß Modell steht, entwickelt er im Rahmen der analytischen Betrachtung von Folgen. Hier treffen sich Geometrie und Analysis durch gleichen notationellen Charakter ihrer Objekte. Dies bringt Minkowski in seiner Einleitung zum Ausdruck. Das Maß beinhaltet die Potenzierung der einzelnen Koordinaten-Unterschiede (Unterschiede der Wortformhäufigkeiten) und die Potenzierung der Summer der potenzierten Einzelunterschiede. Beide Potenzierungen haben gegensätzliche arithmetische Wirkung. Ist der angegebene Grad (order) größer Null, dann sind die Potenzen der Einzelrechnungen größer Null und die Potenz der Summe kleiner Null. Ist der Grad kleiner Null, dann ist es umgekehrt. Mit dieser Veränderbarkeit kann das Minkowski Maß sowohl Ergebnisse hervorbringen, die dem Manhattan Maß oder dem gegensätzlichen Tschebyschow Maß ähneln. Das Minkowski Maß mit einer Potenz kleiner als 1 verhält sich ähnlich dem Manhattan Maß.
Formel der Implementierung: d XY = ( 0i ( | xi - yi | ) p ) 1/p
Link Paper: [Minkowski GEOMETRIE]

Minkowsky Measure Order 3

DOWNL. / 2Danima
En:

Dt: Das Minkowski Maß mit einer Potenz größer als 1 nimmt für größere Unterschiedlichkeit der Häufigkeiten zwischen der ausgezählten Texten einen kleineren Wert an. Für Häufigkeiten, die zwischen der Texten ähnlicher sind, nimmt es größere Werte an. Je nach Wahl der Potenz kann das Tschebyschow Maß angenähert werden.
Formel der Implementierung: d XY = ( 0i ( | xi - yi | ) p ) 1/p
Link Paper: [Minkowski GEOMETRIE]

Canberra Measure / Canberra Mass

DOWNL. / 2Danima
En:

Dt: Das Maß ist eine Abwandlung einer Formel, die Czekanowski 1913 (hier bestehen Unterschiede/Ungereimtheiten siehe dazu die Veröffentlichung aus der Besprechung des Soerensen Maßes) angibt. Die Ergebnisse dieser Formel ähneln denen der Soerensen oder Soergel Maße. In der Visualisierung zeigt dieses Maß für größere Häufigkeitswerte kleinere Ergebnisse und für kleinere Häufigkeitswerte größer Ergebnisse. Für ähnlichere Häufigkeitswerte zwischen den Texten gibt die Formel generell kleinere Ergebnisse aus. Die Kombination beider Charakteristiken führt zu einem Ergebnisbild, das dem des Manhattan Maß ähnelt, aber die Berücksichtigung des globalen Häufigkeitsniveau ergänzt.
Formel der Implementierung: d XY = 0i ( ( | xi - yi | ) / ( |xi| + |yi | ) )
Link Paper: [Lance/Williams CLASSIFICATION]

Soerensen Measure

DOWNL. / 2Danima
En:

Dt: Die Formel des Maßes ist jene, die Lance/Williams ihrer Arbeit zugrunde gelegt hatten und die durch sie die Wandlung erfuhr, die zum Canberra Maß führte. Die Diskussion, wie eine Reihe von Maßen historisch zusammenhängen, kann in der angeführten Veröffentlichung nachgelesen werden. Das Maß ist vom Manhattan Maß abgeleitet, wie die Formel zeigt. In dieser wird das Ergebnis des Manhattan Maßes durch die Summe aller Häufigkeiten geteilt. Für sehr ähnliche Häufigkeitsverteilungen gibt das Maß kleinere Werte und für eher unterschiedliche Häufigkeitsverteilungen größere Werte. Für eher kleine Häufigkeiten gibt es größere und für eher größere Häufigkeiten gibt es kleinere Werte aus.
Formel der Implementierung: d XY = 0i | xi - yi | / 0i |xi| + |yi |
Link Paper: [Somerfield IDENTIFICATION]

Gower Measure

DOWNL. / 2Danima
En:

Dt: Das Gower Maß versucht, zusätzlich zum Manhattan Maß zwei Dinge zu berücksichtigen: Falls es zu einer Wortform keine Häufigkeit gibt, diese also gar nicht vorkommt in einem Text, dann soll der Ausgabe Wert größer werden. Die Spanne der Werte je Wortform im Gesamtkorpus zu berücksichtigen. Die Formel zeigt, dass der Wert des Manhattan Maßes durch die generelle Spanne geteilt wird. Anschließend wird das Gesamtergebnis durch die Anzahl der nicht-null Werte geteilt. Im einfachen Beispiel der Visualisierung wird jedoch deutlich, dass sich die Charakteristik des Manhattan Maßes erhält.
Formel der Implementierung: d XY = 0i (| xi - yi | / Ri ) / 0i xi yi
Link Paper: [Gower IDENTIFICATION]

Soergel Measure

DOWNL. / 2Danima
En:
Dt: Das Maß berechnet den Quotienten des gesamten Unterschiedes und des gesamten maximalen Wert der Einzelvergleiche. Das heißt, wenn der Unterschied gegen den maximalen Wert der Einzelvergleiche geht, dann geht das Maß gegen 1. Daher betont die Rechnung die Vergleiche entlang der Hauptdiagonalen der Darstellung. Vektoren, in denen einzelne Werte gleich sind, ergeben an diesen Stellen sehr kleine Werte, das vermindert die Werte in Achsenrichtung. Das Maß liefert für Texte, die durch gleiche Häufigkeiten in den Vektoren gekennzeichnet sind, kleinere Werte. Für im Ganzen kleinere Häufigkeiten liefert das Maß größere Ergebnisse.
Formel der Implementierung: d XY = 0i | xi - yi | / 0i max(xi,yi )
Link Paper: [Ehsani/Drablos ROBUST]

Lorentzian Measure

DOWNL. / 2Danima
En:
Dt: Das Maß ist nur insofern als Lorenz Metrik zu erkennen, als die Differenz der Einzelunterschiede logarithmiert (natürlicher Logarithmus) werden und daraus das Gesamtergebnis gebildet wird. Damit ist das Maß eine spezialisierte Form der Lp-Norm der Definition des Lorenz Raums. Das Maß hat ausschließlich positive Ergebnisse für positive Eingaben. Das garantiert die Verschiebung des natürlichen Logarithmus entlang der Y Achse ("1+" in der Formel). Wollte man sich den Weg zwischen zwei Punkten vorstellen, dessen Länge als der Abstand der zwei Punkte durch das Maß angegeben wird, dann ist die Verbindung zwischen zwei Punkten gebogen, wie es der Graph des natürlichen Logarithmus ist.
Formel der Implementierung: d XY = 0i ln( 1 + | xi - yi | )
Link Paper: [Cha COMPREHENSIVE] (BESSERE QUELLE)

Intersection Measure / Finger-Kreinin Measure

DOWNL. / 2Danima
En:
Dt: Das Maß wird auch Schnittmaß genannt, da es aus dem Vergleich von Dichtefunktionen kommt. Legt man zwei Graphen zweier Dichtefunktionen übereinander und bildet den Mengenschnitt, dann bleibt genau der Bereich mit jeweils den kleinsten Werten (das Gemeinsame) übrig. In der Formel sieht man, dass die Summe der kleinsten Werte des eingehenden Vektors gebildet wird. Das heißt der Abstand zweier Texte wird aus den minimalen Häufigkeiten je Wortform gebildet. Dies erklärt, warum die Visualisierung grundsätzlich für Vektoren mit kleiner Häufigkeit eine kleineren Distanzwert ausgibt und für Vektoren mit insgesamt häufigeren Wortformen einen größeren. Der spezielle Fall, dass alle Häufigkeiten eines Vektors kleiner oder größer im Vergleich zum anderen Vektor sind, führt zu den Verläufen entlang der Diagonalen von links oben nach rechts unten.
Formel der Implementierung: d XY = 0i min( xi , yi )
Link Paper: [Cha COMPREHENSIVE] [Finger Kreinin EXPORT]

Intersection 2 Measure

DOWNL. / 2Danima
En: Dt: Eine andere Formulierung des Intersection Maßes: Es unterscheidet sich darin, dass die Summe der minmalen Häufigkeiten je Wortform anschließend durch das Minimum der Summe der Häufigkeiten geteilt wird. WIE IST DAS ZU DEUTEN??? Cosinus Maß???
Formel der Implementierung: d XY = 1 - ( 0i min( xi , yi ) / min( 0i xi , 0i yi ) )
Link Book: [Deza ENCYCLOPEDIA] (BESSERE QUELLE)

so called Wave-Hedges Measure

DOWNL. / 2Danima
En:
Dt: Das angeführte Paper weißt darauf hin, dass die Berechnung der "Wave-Hedges Distance" bei dem Autor Wave nicht nachzuweisen ist. Außerdem spricht [Deza ENCYCLOPEDIA] von "Wave-Edges Distance". Die Distanz ist namentlich in Mason Macklem Multidimensional Modelling Of Image Fidelity Measures. M.Sc. thesis, Burnaby, BC, Canada: Simon Fraser University, 2002 erstmals erwähnt. Dr. Macklem hat noch keine Stellung zu der Formulierung genommen. Er kann vorläufig als Urheber der Distanz gelten. Man könnte meinen, dass das Maß dem Soegel Maß sehr ähnlich ist. Das zeigt auch die Formel, hier ist nur auf die Stellung des Summenzeichend zu verweisen.
Formel der Implementierung: d XY = 0i ( ( | xi - yi | ) / max(xi,yi ) )
Link Paper: [Hassanat INVARIANT]

Hassanat Measure (HasD)

DOWNL. / 2Danima
En:
Dt: Das Maß lifert Ergebnisse zwischen 1 und 0. Die Formel wurde als Antwort auf die rechnerischen Schwächen des sogenannten Wave-Hedges Maß entwickelt. Das Maß betont die Verhältnisse, in denen die zwei Texte gleiche häufigkeitswerte haben durch besonders kleine Werte. Es liefert entlang der Diagonalen der Darstellung generell größere Werte. Eine zusätzliche Betonung erfahren kleinere Zahlen.
Formel der Implementierung: d XY = 0i { | xi - yi | 1 + max ( xi , yi ) , min( xi , yi ) 0 | xi - yi | 1 + max ( xi , yi ) + | min ( xi , yi ) | , min( xi , yi ) < 0
Link Paper: [Hassanat Review]

Motyka Measure

DOWNL. / 2Danima
En:
Dt: Das Maß könnte auf Józef Motyka zurück gehen, einen Botaniker. Die Veröffentlichungen beziehen sich alle auf [Deza ENCYCLOPEDIA]. Insofern kann nicht genau gesagt werden, woher das Maß stammt. Es zeigt eine Verhalten, dass eine Mischung von Hassanat und Euklid entspricht.
Formel der Implementierung: d XY = 0i max( xi , yi ) 0i xi + yi
Link Paper: [Warrens INEQUALITIES]

Ruzicka Measure

DOWNL. / 2Danima
En:
Dt: Das Maß entstammt der Beurteilung von Land und Landnutzung. Dieses Maß wurde im Rahmen der Beurteilung von ökologischen Sachverhalten aufgestellt. Es ähnelt in seiner Antwort dem Intersection Maß. Die Formel zeigt an, dass die Summer der minimalen Werte mit der Summe der maximalen Werte des Vergleichs normalisiert wird. Das ergibt für den gewählten Wertebereich eine ähnlich Antwort. Es ist anzumekrne, dass das Maß für kategoriale Skalen entwickelt wurde.
Formel der Implementierung: d XY = 0i min ( xi , yi ) 0i max ( xi , yi )
Link Paper: [Ružička Geobotanik]

Tanimoto Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Innerproduct Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Harmonic Mean Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Cosine Measure

DOWNL. / 3D.3T / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Kumar Hassebrook Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Dice Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Fidelity Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Bhattacarya 1 Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Bhattacarya 2 Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Hellinger Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Jensen Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Jensen Shannon Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Topsoee Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link Paper: []

Kullback Divergence Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Jeffreys Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Kullback Leibler Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Additive symmetric chi squared Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Clarck Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Divergence Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Squared chi squared Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Neyman chi squared Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Pearson Chi squared Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Squared euclidean Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Eders simple Measure

DOWNL. / 2Danima
En:
Dt:
Formel der Implementierung: d XY =
Link: []

Burrows Delta Measure

DOWNL. / 2Danima

Argamon Linear Delta Measure

DOWNL. / 2Danima

Formel der Implementierung: d XY =
Link: []

Eders Delta Measure

DOWNL. / 2Danima

Formel der Implementierung: d XY =
Link: []

Argamons Quadratic Delta Measure

DOWNL. / 2Danima

Formel der Implementierung: d XY =
Link: []

Wasserstein 1D Measure

DOWNL. / 3D.3T / 2Danima

Formel der Implementierung: d XY =
Link: []

normvec Measure

DOWNL. / 3D.3T / 2Danima

Formel der Implementierung: d XY =
Link: []

Cheby+IntersecZ Measure

DOWNL. / 2Danima

Formel der Implementierung: d XY =
Link: []

2. Groups of measures / Gruppen von Maßen

2.1 Description of visualization

2.2 Beschreibung der Visualisierung

Um die Unterschiede zwischen Maßen herauszustellen, die einen ähnlichen Ergebnisverlauf im Rahmen der ersten Visualisierung aufweisen, bietet sich die Verwendung einer zweiten Darstellung an. Die Visualisierung soll einen Ergebnisvergleich und dessen Verlauf darstellen. Für den Vergleich zwischen ein oder mehreren Ergebnissen von Maßen bieten sich der Quotient dieser Ergebnisse oder die Differenz dieser Ergebnisse an. Wir werden uns für den Quotienten der Ergebnisse der Maße entscheiden. Dieser Quotient lässt vom absoluten Wert der Ergebnisse absehen und ebenfalls davon, ob sich der Unterschied zwischen den Ergebnissen gleichmäßig vergrößert oder verkleinert. Der Quotient ist ein relativer Ausdruck, der lediglich den gemeinsamen oder unterschiedlichen Verlauf der Ergebnisse darstellt. Die Berechnung lautet: d 12 = d 1XY d 2XY Wobei d1 und d2 immer eines der oben beschriebenen Maße sind. d1 immer das Referenzmaß und d2 ist immer das Vergleichsmaß. Um die Diagramme zu einem einheitlichen Aussehen zu bringen konstruieren wir wiederum eine Gruppe sehr einfacher Beispiele. Es Existiert eine Gruppe von Texten, die nach Auszählung eine Menge von gemeinsamen Wortformen mit unterschiedlicher Häufigkeit aufweist. Ausgehend von einem ersten Text werden die Häufigkeiten der nächsten Texte immer so angegeben, dass jede dieser Häufigkeiten einen konstante Erhöhung erfährt und anschließend eine der Häufigkeiten eine Erhöhung erfährt. In den nun folgenden Beispielen beinhalten die ausgezählten Texte hundert Wortformen. Ausgehend von den Häufigkeiten des ersten Textes wird immer eins auf jede Häufigkeit aufgerechnet. Anschließend werden die Maße auf die ausgezählten Texte angewendet (erster Häufigkeitsvektor mit allen folgenden Häufigkeitsvektoren.). Da es um den Vergleich der Ergebnisse verschiedener Maße geht, werden anschließend die Quotienten der Ergebnisse der beiden Maße gebildet, die verglichen werden sollen. Es können für die Darstellungen mehrere Maße anhand ihrer Ergebnisse auf EIN anderes Maß bezogen werden. Je mehr sich die Darstellung des Quotienten zwischen den Ergebnissen zweier Maße der horizontalen Achse annähert und je stärker linear er verläuft desto ähnlicher verlaufen die Ergebnisse der Maßberechnungen. Gibt es einen Verlauf der eine negative Steigung hat, also nach unten zeigt, dann liefert das Vergleichsmaß kleinere oder kleiner werdende Ergebnisse, als das Referenzmaß. Ist ein Verlauf dargestellt, der eine positive Steigung aufweist, also nach oben zeigt, dann liefert das Vergleichsmaß größere oder größer werdende Ergebnisse. Nicht lineare Darstellungen könnten als Regionen wirklich unterschiedlichen Verhaltens der Maße gewertet werden. Wenn der Mauszeiger auf einen Graphen im Diagamm geführt wird, dann bekommt man den Namen des Vergleichsmaß angezeigt.

2.3 Groups / Gruppen

Manhatten / Burrows Delta

En:
Dt:

Euclidean / Manhatten

En:
Dt:

Cosine / Euclidean

En:
Dt:

Canberra / Eder simple

En:
Dt:

cosine euclide stylo example / Kosinus Euklid Stylo Beispiel

En:
Dt:

Literature / Literatur

01) [Nöth PEIRCE] Winfried Nöth "Charles Sanders Peirce, Pathfinder in Linguistics", Absch. 4, WEBSITE (01.05.2022)
02) [Deza ENCYCLOPEDIA] Elena Deza / Michel-Marie Deza "Encyclopedia of Distances", Elsevier Science, 2009, PDF (09.05.2022)
03) [Villani TRANSPORT] C´edric Villani, "Optimal transport, old and new", Springer, 2008, PDF (09.05.2022)
04) [Korenius PCA] Tuomo Korenius, Jorma Laurikkala, Martti Juhola "On principal component analysis, cosine and Euclidean measures in information retrieval", Information Sciences, Volume 177, Issue 22, 2007, PDF (09.05.2022)
05) [Korenius PCA] Tuomo Korenius, Jorma Laurikkala, Martti Juhola "On principal component analysis, cosine and Euclidean measures in information retrieval", Information Sciences, Volume 177, Issue 22, 2007, PDF (09.05.2022)
06) [Kunwar TAXICAB] Rajendra Kunwar "EXPLORING CONCEPTS AND APPLICATIONS OF TAXICAB GEOMETRY", International Journal of Development Research, Vol. 08, Issue 11, 2018, PDF (09.05.2022)
07) [Minkowski GEOMETRIE] Hermann Minkowski "Geometrie der Zahlen", Verlag von B. G. Teubner, Leipzig, 1910, WEBSITE (11.05.2022)
08) [Lance/Williams CLASSIFICATION] G. N. Lance, W. T. Williams "Computer Programs for Hierarchical Polythetic Classification (Similarity Analyses)", The Computer Journal, Volume 9, Issue 1, 1966, WEBSITE (12.05.2022)
09) [Somerfield IDENTIFICATION] Paul J. Somerfield "Identification of the Bray-Curtis similarity index: Comment on Yoshioka", Marine Ecology-progress Series, Vol. 372, 2008, WEBSITE (12.05.2022)
10) [Gower SIMILARITY] J. C. Gower "A General Coefficient of Similarity and Some of Its Properties", Biometrics, Vol. 27, No. 4, 1971, WEBSITE (09.06.2022)
11) [Ehsani/Drablos ROBUST] Rezvan Ehsani, Finn Drabløs "Robust Distance Measures for kNN Classification of Cancer Data", Cancer Inform, Vol. 19, 2020, WEBSITE (24.06.2022)
12) [Cha COMPREHENSIVE] Sung-Hyuk Cha "Comprehensive Survey on Distance/Similarity Measures Between Probability Density Functions", International Journal of Mathematical Models and Methods in Applied Sciences, 1(4), 2007, WEBSITE (08.09.2022)
[Finger Kreinin EXPORT] J. M. Finger, M. E. Kreinin "A Measure of `Export Similarity' and Its Possible Uses", Oxford University Press, The Economic Journal Vol. 89, No. 356, pp. 905-912, 1979 WEBSITE (20.02.2023)
12) [Deza ENCYCLOPEDIA] Elena Deza, Michel-Marie Deza "Encyclopedia of Distances", Elsevier Science, 2009, WEBSITE (08.09.2022)
15) [Hassanat INVARIANT] Ahmad Basheer Hassanat "Dimensionality Invariant Similarity Measure", Journal of American Science, Vol. 10, No. 8, 2014, WEBSITE (14.06.2022)
16) [Hassanat REVIEW] Ahmad Basheer Hassanat et al. "Applications Review of Hassanat Distance Metric", Conference Paper, 2022, WEBSITE (20.02.2023)
17) [Warrens INEQUALITIES] Matthijs J. Warrens "Inequalities Between Similarities for Numerical Data", Journal of Classification 3, 2016, WEBSITE (20.02.2023)
18) [Ružička Geobotanik] Milan Ružička "Anwendung Mathematisch-Statisticher Methoden in Der Geobotanik (Synthetische Bearbeitung Von Aufnahmen)", Biologia, Bratisl, volume 13, p. 647 - 661, 1958 WEBSITE (20.02.2023)
University Trier / Ancient History Trier / funded by VolkswagenStiftung