WuM 03 . 2011
28
TECHNOLOGIE
Text-Mining-Methoden im Semantic Web
D
as Semantic Web hilft den Usern, Inhalte besser zu finden,
zu organisieren und zu bearbeiten. Das Anreichern der
Dokumente mit semantischer Information soll eine automati-
sierte Weiterverarbeitung, etwa durch Software-Agenten, unter-
stützen.
1 Annotierungsaufwand für das Semantic Web
Während die Semantic-Web-Sprachen wie RDF(S) und OWL
gut erforscht und standardisiert sind, gibt es viel weniger For-
schung zu der Frage, wie die enormen Mengen an Webdaten
semantisch annotiert werden sollen, also die Transformation von
konventionellen Webseiten zu reich annotierten Semantic-Web-
Ressourcen.
Außer für Experimente und Demonstrationen ist die manuelle
Eingabe von realistischen RDF- und OWL-Ontologien und -Res-
sourcen kaum machbar. Die klassische Antwort, um den Schwie-
rigkeiten der Syntax von Semantic-Web-Sprachen ausweichen zu
können, ist die Verwendung von Ontologie-Editoren wie zum
Beispiel Protégé oder OntoEdit. Die Tatsache, dass die Annotie-
rung großer Textmengen zu aufwendig ist, bleibt aber bestehen,
sodass umfassendere Aufgaben kaum realistisch machbar sind.
Schon seit einigen Jahren wird deshalb vorgeschlagen, Compu-
terlinguistik und Sprachtechnologie (Natural Language Proces-
sing, NLP) zu verwenden. Wir erklären Basismethoden der
Sprachtechnologie und des Text Minings im Kapitel 2 und erläu-
tern zwei konkrete Anwendungen im Kapitel 4.
Nach den Erfahrungen mit Technologien der künstlichen
Intelligenz (KI), bei der viele Ansätze zu große Fehlerraten auf-
wiesen oder nicht skalierten, ist Vorschlägen zur Verwendung
von Sprachtechnologie einerseits mit Skepsis zu begegnen, wie
wir im Kapitel 3 berichten. Andererseits haben sich die Umstände
geändert. Heutige Systeme sind stark statistisch basiert, Evaluie-
rung und Skalierung stehen im Zentrum. Die Fehlerraten sind
für einige Anwendungen tolerierbar klein geworden, für andere
rücken halbautomatische Systeme, bei denen ein maschineller
Klassifikator und der menschliche Annotator eng zusammenar-
beiten, in den Fokus der Forschung.
2 Methoden des Text Minings für das Semantic Web
2.1 Eigennamenerkennung
(Named Entity Recognition and Grounding)
Das Erkennen von Instanzen von Eigennamen war schon lange
eine weitverbreitete Anwendung der Sprachtechnologie. In ein-
fachen Ausprägungen der Eigennamenerkennung werden Eigen-
namen und Ketten von Eigennamen gesucht. Meist verwendet
man einen sogenannten Tagger, ein automatisches Tool, das für
alle Wörter im Lauftext die Wortklasse (z. B. Substantiv, Eigen-
name, Verb, Adjektiv) angibt. Tagger haben meist Fehlerraten
unter fünf Prozent, gerade im Englischen ist die Erkennung der
Wortklasse Eigenname meist einfach, da sie im Gegensatz zu
Substantiven großgeschrieben werden. Um verschiedene Schreib-
weisen desselben Begriffes aufeinander abzubilden, kommen
Fuzzy-Match-Methoden (ähnlich wie bei Korrekturvorschlägen
von Spell Checkern) und Synonymlisten zum Einsatz.
Ein wichtiges Teilgebiet der Eigennamenerkennung ist die Ter-
minologieerkennung, bei der Fachbegriffe gesucht werden, und
diese müssen nicht unbedingt Eigennamen sein. Fachbegriffe
kann man idealerweise daran erkennen, dass sie in Fachwörter-
büchern vorkommen. Oft sind diese aber unvollständig. Sie kön-
nen eventuell auch daran erkennbar sein, dass sie in allgemeinen
Wörterbüchern nicht vorkommen, zum Beispiel von einem Spell
Checker zurückgewiesen werden. Manchmal erkennt man sie an
typischen Nominalisierungsendungen (z. B. -ion, -ung), manch-
mal an ihrem Kontext (steht z. B. nach dem Wort sogenannt(er),
oder in Kursivschrift). Diese Kriterien sind aber lückenhaft. Wör-
ter, die in Fachdokumenten häufig, allgemein aber seltener vor-
kommen, sind gute Termkandidaten (dazu kann man den
TFIDF-Algorithmus, den wir im nächsten Kapitel besprechen,
verwenden). Mehrwortterme erkennt man recht gut daran, dass
Text-Mining-Methoden
im Semantic Web
Aufbau, Pflege und Nutzung großer Wissensdatenbanken erfordert den kombinierten Einsatz
menschlicher und maschineller Informations verarbeitung.
Da große Teile des menschlichen Wissens
in Textform vorliegen, bieten sich Methoden des Text Minings zur Extraktion von Wissensinhalten an. Dieser
Beitrag behandelt Grundlagen des Text Minings im Kontext des Semantic Webs.
Von Dr. Gerold Schneider und Prof. Dr. Heinrich Zimmermann