Archiv für Gesprochenes Deutsch

COSMAS II:Corpus Search, Management and Analysis System

Dr. Rudolf Schmidt

Das Institut für Deutsche Sprache in Mannheim unterhält im Programmbereich Korpuslinguistik in der Abteilung Lexik eines der größten deutschsprachigen Textkorpora, das aufgrund seiner texttypologischen Ausgewogenheit als ein Referenzkorpus des gegenwärtigen Deutsch gelten kann. Das Korpus ist in eine Menge von Unterkorpora aufgeteilt, die teilweise auch morphologisch und syntaktisch annotiert sind. Um das Korpus abzufragen, wurde COSMAS II entwickelt.

Für die Tonkorpora des AGD in der Datenbank gesprochenes Deutsch (DGD) in ihrer ersten Version wurde COSMAS II in einer modifizierten Form für die Recherche genutzt, die einerseits um eine Reihe von gesprächstypischen Abfragemöglichkeiten erweitert war und die sich quasi wie ein parametrisiertes Script von einer Webseite aufrufen ließ. Um die Funktionalität von COSMAS II nicht zu überladen und den Schwerpunkt weiterhin auf die Analyse geschriebener Sprache konzentrieren zu können, wird der in Entwicklung befindlichen DGD 2.0 ein anderes Konzept zugrunde gelegt. Die Meta-Informationen auf Korpus-, Ereignis- und Sprecherebene sowie die vorwiegend im Transkriptionseditor FOLKER erstellten Transkripte werden in Form von XML-Dokumenten von einer objekt-relationalen XML-Datenbank (ORACLE) verwaltet. Die XML-Abfragesprachen (z.B. XQUERY, XPATH) und -transformationen (z.B. XSLT) bieten für Gesprächsdaten und die Vielzahl der damit zusammenhängenden Metadaten optimierte Verwaltungs-, Recherche-, Analyse- und Darstellungsmöglichkeiten. Dabei bleibt die akustische Wiedergabe von Recherchetreffern nicht nur erhalten, sondern die Recherchemöglichkeiten werden für ausgewählte Korpora noch erweitert.



Letzte Aktualisierung: 04.12.2008

Projekte

FOLK

DGD 2.0

FOLKER

GAT 2

REDE

Stichworte

Mundarten

Sprachatlas

Alignment

Transkription

DIDA

COSMAS II