Semantische Verwandtschaft

1 Zur Einleitung

Diese Seite beschreibt verschiedene Verfahren zur Berechnung semantischer Verwandtschaftswerte für Wortpaare und wie diese Verfahren funktionieren. Die beschriebenen Verfahren basieren auf der Verwendung lexikalisch-semantischer Netze, die deswegen als erstes behandelt werden.

2 Lexikalisch-semantische Netze

Ein lexikalisch-semantisches Netz ist eine Struktur aus Wörtern und
Begriffen, die in einem Netz verknüpft sind. Man kann die
Struktur als Graph beschreiben.
Die Kanten zwischen den einzelnen Knoten des Netzes geben wieder, in welcher
semantischen Beziehung die Knoten zueinander stehen.

Den Standard unter den lexikalisch-semantischen Netzen stellt das WordNet dar. Es enthält Daten für das Englische und wird seit 1985 an der Princeton University im Labor für Kognitionswissenschaften unter der Leitung von Professor George A. Miller entwickelt. Zurzeit (Juni 2005) umfasst es etwa 150.000 Wörter in 203.000 Lesarten (Nomen, Verben, Adjektive, Adverben) (Vgl. WordNet).

3 Semantische Verwandtschaft

Semantische Verwandtschaft semantic relatedness beschreibt den Grad, in dem sich zwei Wörter (beziehungsweise deren Lesarten) von der Bedeutung her ähneln (Vgl. Gurevych051). Bei der Berechnung eines Wertes der semantischen Verwandtschaft kann man auf ein lexikalisch-semantisches Netz, auf ein Wörterbuch oder auf ein Korpus zurückgreifen.

Im Kontrast zur semantischen Verwandtschaft steht die Ähnlichkeit similarity. Während bei der Ähnlichkeit die Is-A-Hierarchie (Is-A-Hierarchie: Hierarchisches lexikalisch-semantisches Netz auf der Grundlage von Hyperonym-/Hyponym-Verbindungen zwischen Begriffen.) eines Netzes als Grundlage für die Berechnung von Ähnlichkeitswerten dient, kann die semantische Verwandtschaft auf jeder beliebigen Art von sinnvoller Verbindung, also neben Hyperonymie zum Beispiel auch Antonymie (Antonymie: Verbindung auf Ebene der lexikalischen Einheiten, die als Gegenteil gekennzeichnet ist.) und Meronymie (Meronymie: Verbindung auf Ebene der Synonym-Sets, die eine Teil-Ganzes-Beziehung darstellt.) basieren. Selbst ein lexikalisch-semantisches Netz ist nicht unbedingt erforderlich. Semantische Verwandtschaft ist also ein generellerer Ausdruck als Ähnlichkeit (Vgl. Budanitsky99).

Außerdem gilt es noch, die semantische Verwandtschaft von der verteilungsabhängigen Ähnlichkeit distributional similarity abzugrenzen. Der verteilungsabhängigen Ähnlichkeit liegen Beobachtungen der Wortverteilung und -kookkurenz (Wortkookkurenz: Das gemeinsame Auftreten von zwei oder mehr Wörtern.) innerhalb eines Korpus zu Grunde (Vgl. Manning99 S. 554 ff.). Die semantische Verwandtschaft dagegen fußt auf den Lesarten der Wörter, die verglichen werden, und auf den Begriffen, denen diese Lesarten angehören.

Bei der Bestimmung der semantischen Verwandtschaft wird implizit eine Lesartendisambiguierung vorgenommen. Das liegt daran, dass als Ergebnis für die Bestimmung der semantischen Ähnlichkeit nur ein einziger Wert benötigt wird. Ein Wort hat aber häufig mehrere Lesarten, so dass die semantische Verwandtschaft jeder Lesart des einen Wortes mit jeder Lesart des anderen berechnet werden muss. (Genauer betrachtet werden die Werte der semantischen Verwandtschaft der Begriffe, zu denen diese Lesarten gehören, berechnet und verglichen.) Dann kann der Wert der größten Ähnlichkeit gewählt werden. Dabei werden dann auch die Lesarten der beiden Wörter bestimmt, die zum höchsten Verwandtschaftswert führen. Es werden also die Lesarten ausgewählt, die sich am Ähnlichsten sind.

4 Pfadbasierte Maße

Pfadbasierte Maße der semantischen Verwandtschaft basieren auf den Pfaden, die aus den Kanten lexikalisch-semantischer Netze bestehen. Die Suche zum Beispiel des kürzesten Pfades zwischen zwei Begriffen (Vgl. Leacock98) oder nach dem niedrigsten gemeinsamen Oberbegriff lowest common subsumer führen hier zum Wert für die semantische Verwandtschaft (Vgl. Gurevych052).

Im Besonderen seien hier die semantischen Verwandtschaftsmaße von Resnik (Vgl. Resnik95), Jiang und Conrath (Vgl. Jiang97) und Lin (Vgl. Lin98) erwähnt. Sie alle benötigen zusätzlich zu einem lexikalisch-semantischem Netz noch Werte für den Informationsgehalt information content values von Begriffen.

Wie der Name schon andeutet, soll der Wert des Informationsgehaltes den Gehalt an Information eines Begriffes angeben. Dabei wird davon ausgegangen, dass ein beim Sprachgebrauch häufig auftretender Begriff weniger spezifisch ist und damit einen geringeren Informationsgehalt besitzt, als ein Begriff, auf den beim Gebrauch der Sprache nur selten referiert wird. Hier wird deutlich, dass der Informationsgehaltswert ic aus statistischen Angaben berechnet werden kann. Dies geschieht nach den Formeln 4.1 und 4.2, mit N als der Gesamtanzahl aller Wörter in einem Korpus und nc als der Häufigkeit des Begriffes c im Korpus.

Formeln 4.1 und 4.2, zur Berechnung des Infmortionsgehalt-Wertes.

Formeln 4.1 und 4.2, zur Berechnung des Informationsgehalt-Wertes.

Zur Erzeugung von Informationsgehaltswerten für ein allgemeines Anwendungsgebiet ist damit auch ein umfangreiches ausgewogenes Korpus der jeweiligen Sprache notwendig.

Wenn die Informationsgehaltswerte vorliegen, kann mit Hilfe des lexikalisch-semantischen Netzes der Wert der semantischen Verwandtschaft nach den Formeln von Resnik (Siehe Formel 4.3), Lin (Siehe Formel 4.4) und Jiang und Conrath (Siehe Formel 4.5. Dies ist eine abgeänderte Form der ursprünglich von Jiang und Conrath vorgeschlagenen Formel, da hier anstatt des kürzesten Pfades zwischen zwei Begriffen der niedrigste gemeinsame Oberbegriff benutzt wird.) berechnet werden.

Formeln 4.3, 4.4 und 4.5 zur Berechnung semantischer Verwandtschafts-Werte.

Formeln 4.3, 4.4 und 4.5 zur Berechnung semantischer Verwandtschafts-Werte.

Dabei sind c1 und c2 die verglichenen Begriffe, clcs der niedrigste gemeinsame Oberbegriff dieser beiden Begriffe. rel ist die semantische Verwandtschaft und dist die Distanz, die sich umgekehrt zur semantischen Verwandtschaft verhält, also mit steigendem Verwandtschaftsgrad kleiner wird. Die Formeln 4.3 und 4.5 liefern positive Werte zwischen 0 und . Die Formel 4.4 liefert Werte zwischen 0 und 1.

Es kann notwendig werden, die Ergebnisse aus den Formeln 4.3 und 4.5 vor einer weiteren Verwendung zu normalisieren.

Zusätzlich kann es — zum Beispiel zum Zwecke der Vergleichbarkeit — nützlich sein, die Ergebnisse, die Formel 4.5 liefert, so umzukehren, dass sie ebenfalls eine semantische Verwandtschaft darstellen (Vgl. Gurevych053).

5 Wörterbuchbasierte Maße

Wörterbuchbasierte Maße dictionary based measures für semantische Verwandtschaft wurden zuerst von Lesk (Vgl. Lesk86) vorgestellt und erhielten im Zusammenhang mit der Lesartendisambiguierung ein hohes Maß an Aufmerksamkeit.

Das Grundprinzip des daher auch Lesk-Algorithmus genannten Verfahrens besteht darin, die Wortüberlappungen in den Wörterbucheinträgen glosses zweier Wortlesarten zu zählen und das Ergebnis als Maß der Verwandtschaft dieser Lesarten zu verwenden. Dieses Grundprinzip wurde später von Banerjee und Pedersen verwendet, um die semantische Verwandtschaft von Begriffen (Synonym-Sets) auf der Basis von Wörterbucheinträgen im WordNet zu berechnen (Vgl. Banerjee03).

6 Literatur

[Banerjee03] S. Banerjee and Ted Pedersen: Extended Gloss Overlaps as a Measure of Semantic Relatedness
In: Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence (Acapulco 2003)
Seite 805 – 810

[Budanitsky99] Alexander Budanitsky: Lexical Semantic Relatedness and Its Application in Natural Language Processing
Computer System Research Group, University of Toronto 1999

[GermaNet] GermaNet - Homepage (Seminar für Sprachwissenschaft, Universität Tübingen) 2004
http://www.sfs.uni-tuebingen.de/GermaNet

[Gurevych051] Iryna Gurevych und Hendrik Niederlich: Computing Semantic Relatedness of GermaNet Concepts. In: Beiträge zur GLDV-Tagung 2005 in Bonn (Bernhard Fisseni, Hans-Christian Schmitz, Bernhard Schröder und Petra Wagner)
Frankfurt am Main, Berlin, Bern, Bruxelles, New York, Oxford, Wien: Peter Lang Europäischer Verlag der Wissenschaften 2005, Seite 462 – 474.

[Gurevych052] Iryna Gurevych: Anwendungen des semantischen Wissens über Konzepte im Information Retrieval
In: Knowledge eXtended: Die Kooperation von Wissenschaftlern, Bibliothekaren und IT-Spezialisten (Jülich, Germany 2005)

[Gurevych053] Iryna Gurevych und Hendrik Niederlich: Computing Semantic Relatedness in German with Revised Information Content Metrics
In: OntoLex 2005, Ontologies and Lexical Resources — IJCNLP’05 Workshop (Jeju Island, Republic of Korea 2005)

[Jiang97] Jay Jiang und David Conrath: Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy
In: Proceeding of International Conference Research on Computational Linguistics (Taiwan 1997)
Seite 24 – 26

[Leacock98] Claudia Leacock und Martin Chodorow: Combining Local Context and WordNet Similarity for Word Sense Identification
In: WordNet: An Electronic Lexical Database (Editor: Christiane Fellbaum. Cambridge, Massachusetts: The MIT Press) 1998
Seite 265 – 283

[Lesk86] Michael Lesk: Automatic Sense Disambiguation: How to tell a Pine Cone from an Ice Cream Cone
In: Proceeding of the 1986 SIGDOC Conference (New York: Association of Computing Machinery) 1986
Seite 24 – 26

[Lin98] Dekang Lin: An information-theoretic definition of similarity
In: Proceedings of the 15th International Conference on Machine Learning (Madison (Wisconsin) 1998)

[Manning99] Christopher D. Manning and Hinrich Schütze: Foundations of Statistical Natural Language Processing (Cambridge, Massachusetts: The MIT Press) 1999

[Resnik95] Philip Resnik: Using Information Content to Evaluate Semantic Similarity
In: Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal 1995
Seite 448 – 453

[WordNet] WordNet: A Lexical Database for the English Language (Princeton University, Princeton, New Jersey) 2004
http://wordnet.princeton.edu/