Part-of-speech-TaggingUnter Part-of-speech-Tagging (POS-Tagging) versteht man die Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten (englisch part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (z. B. angrenzende Adjektive oder Nomen) berücksichtigt. VerfahrenDie Erfassung und Kennzeichnung der Wortarten wurde ursprünglich manuell durchgeführt, im Laufe der Zeit wurde das Verfahren zunehmend durch die Computerlinguistik automatisiert. Die verwendeten Verfahren können in überwachtes maschinelles Lernen und unüberwachtes maschinelles Lernen unterteilt werden. Beim überwachten Lernen werden z. B. Hidden Markov Models oder Eric Brills Verfahren oder Entscheidungsbäume (nach Helmut Schmid) verwendet, und alle Wortart-Tags stammen aus einem vordefinierten so genannten Tagset. POS-Tagging ist sprachabhängig. Für das Deutsche wird oft das Stuttgart-Tübingen-Tagset (STTS)[1] verwendet. Beim unüberwachten Lernen steht das Tagset nicht vorher fest, sondern es entsteht durch ein stochastisches Verfahren. PrinzipDer Satz Petra liest einen langen Roman. wird mit dem Stuttgart-Tübingen-Tagset (kurz: STTS) wie folgt getaggt:
Hinter jedem Wort bzw. Satzzeichen steht das Tag nach einem Schrägstrich. Um das Wort einen im gegebenen Kontext richtig zu taggen, muss man es von den Formen des gleich lautenden Verbs unterscheiden; diese würden mit VVINF (für den Infinitiv) bzw. VVFIN (für die finite Form) getaggt. Beim überwachten Lernen wird das Tag für einen mit Hilfe des Kontextes ausgewählt: Aus einem bereits getaggten Textkorpus wurden vorher z. B. die Wahrscheinlichkeiten für die Tag-Folgen VVFIN-ART, VVFIN-VVINF und VVFIN-VVFIN berechnet (so genanntes Training des Taggers). Da VVFIN-ART deutlich häufiger ist als die anderen beiden Folgen, wird einen in diesem Satz als ART getaggt. (Die häufige Folge kann lesen wird nicht mit VVFIN-VVINF, sondern mit VMFIN-VVINF getaggt.) Beim unüberwachten Lernen gibt es kein vorheriges Training, sondern aus den zu taggenden Sätzen selbst wird errechnet, dass z. B. einen häufig nach liest oder lese steht, aber auch häufig am Satzende. Den dagegen steht häufig nach liest oder lese, aber nie oder selten am Satzende. Lesen steht häufig am Satzende und nie nach liest oder lese. Deswegen erzeugt der Tagger eine Wortart, zu der z. B. den gehört, und eine andere, die lesen enthält. Einen gehört zu beiden Wortarten. Dass es im gegebenen Satz wie den getaggt werden sollte, ergibt sich nach derselben Argumentation wie für den Tagger, der mittels überwachtem Lernen trainiert wurde. SoftwareSoftware im Bereich Computerlinguistik (NLP) ist häufig in der Lage, ein POS-Tagging automatisiert durchzuführen. Die auf den Bildungsbereich ausgerichtete Software NLTK kann standardmäßig englischsprachige Texte mit dem Tagset Penn Treebank versehen. Zusätzlich ist ein individuell gestaltetes Training mit Hilfe passender Textkorpora möglich.[2] POS-Tagging ist sprachabhängig. Pro Sprache können ein oder mehrere Tagsets existieren. Für deutsche Texte wird von der Open-Source-Software OpenNLP der Tagset STTS benutzt, für englische Texte der Tagset Penn Treebank.[3] Der für 14 europäische Sprachen[4] entwickelte PAROLE TagSet[5] wird ebenfalls unterstützt. OpenNLP verfügt über eine Auswahl von bereits trainierten Modellen für diese verschiedenen Sprachen (Deutsch, Englisch, Spanisch, Portugiesisch, Dänisch usw.).[6][7] Mit Hilfe dieser Modelle kann dann ein Textkorpus in einer dieser Sprachen automatisch mit den entsprechenden Tags versehen werden. TreeTagger ist ein von Helmut Schmid am Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart entwickeltes Werkzeug.[8] Mit ihm können Texte aus ca. 16 verschiedenen Sprachen automatisch mit POS-Tags versehen werden.[9] TreeTagger ist das in der Forschung wohl am häufigsten benutzte sprachunabhängige Werkzeug in diesem Bereich.[10] Literatur
WeblinksEinzelnachweise
|
Portal di Ensiklopedia Dunia