DGD-Release 2.25

Liebe DGD-Nutzende,

wir freuen uns, Ihnen Release 2.25 der Datenbank für Gesprochenes Deutsch vorstellen zu können, das seit Dienstag dieser Woche online ist:

https://dgd.ids-mannheim.de

Im Folgenden stellen wir Ihnen die wichtigsten Neuerungen dieser Version kurz vor.

1. Neues Korpus: ‚Parallel European Corpus of Informal Interaction‘ (PECI)

Mit dem ‚Parallel European Corpus of Informal Interaction‘ (PECI) steht erstmals ein umfangreiches mehrsprachiges Vergleichskorpus sozialer Interaktion im Alltag zur Verfügung. Der Aufbau dieses Korpus geht zurück auf eine Initiative von Prof. Dr. Lorenza Mondada (Universität Basel), Prof. Dr. Giovanni Rossi (University of California), Dr. Anna Vatanen (Universität Helsinki), Assistant Professor Dr. Matylda Weidner (Kazimierz-Wielki-Universität in Bydgoszcz) sowie Prof. Dr. Jörg Zinken (IDS Mannheim) mit dem Ziel, eine Datengrundlage für sprachübergreifende Forschung zu sozialer Interaktion bereitzustellen. Es wurde im Rahmen des von der Leibniz-Gemeinschaft im Rahmen des SAW-Wettbewerbsverfahren geförderten Projekts „Norms, Rules, and Morality across Languages“ (NoRM-aL, Laufzeit: 2020–2023, Leitung: Prof. Dr. Jörg Zinken) am IDS Mannheim fertiggestellt.

PECI umfasst in der hier zur Nachnutzung zur Verfügung gestellten Version Daten natürlicher sozialer Alltagsinteraktionen in vier Sprachen: Deutsch, (britisches) Englisch, Italienisch und Polnisch. Für jede Sprache wurden jeweils mehrfach drei soziale Aktivitäten mit zwei Kameraperspektiven aufgezeichnet:

Familienfrühstück am Wochenende
Spieleabend unter Freund:innen und Verwandten
Autofahrt mit Freund:innen

Insgesamt werden mit Version 2.25 der DGD 83 Aufnahmen von 254 Sprechenden mit einer Gesamtdauer von knapp 77 Stunden zur Verfügung gestellt, aufgezeichnet in den Jahren 2015 bis 2023. Alle Ton- und Videoaufnahmen wurden nach den Archivstandards des AGD technisch nachbearbeitet. Die Gespräche wurden im NoRM-aL-Projekt in Anlehnung an die cGAT-Konventionen transkribiert; die Transkripte umfassen knapp 600.000 Tokens. Am AGD wurden die Transkripte zusätzlich orthographisch normalisiert, lemmatisiert und mit einem sprachspezifischen (sowie einem sprachübergreifenden, s.u.) POS-Tagging versehen. Die Metadaten des Korpus werden in den vier Sprachen des Korpus zur Verfügung gestellt, die präferierte Sprache für Anzeige und Suche kann für das Korpus in der DGD ausgewählt werden (s.u.). Als Zusatzmaterialien stehen Übersichten aller Aufnahmesettings, eine Liste der gespielten Gesellschaftsspiele, ein Überblick über die eingesetzten sprachspezifischen Tagsets auf Deutsch und Englisch sowie Wort- und Lemmalisten für jeden Sprachteil des Korpus zur Verfügung.

Wir danken Prof. Dr. Jörg Zinken und dem NoRM-aL-Projekt für die Überlassung der Daten sowie für die Zusammenarbeit bei der Aufbereitung. Ebenso danken wir den Kooperationspartner:innen des Projekts, Prof. Dr. Giovanni Rossi und Assistant Professor Dr. Matylda Weidner, für das Beitragen eigener Daten zu den Datenbeständen des NoRM-aL-Projekts, die zum Teil auch in der Releaseversion des PECI-Korpus in der DGD enthalten sind.

2. Neuerungen in den Bestandskorpora: Neue Transkripte und Zusatzmaterialien zum WISC-Korpus

Das Korpus ‚Deutsch in Wisconsin‘ (WISC) steht seit 2012 – damals noch als Teil des Korpus ‚Binnen- und auslandsdeutsche Mundarten: Varia‘ (MV), später als eigenständiges Korpus – über die DGD zur Verfügung, allerdings bislang ohne zugehörige Transkripte und Zusatzmaterialien. Mit diesem Release werden erstmalig 6 Transkripte zu knapp 4,5 Stunden Audioaufnahmen bereitgestellt. Es handelt sich dabei um Aufnahmen mit standarddeutscher Orientierung.

WISC enthält insgesamt 120 Audioaufnahmen, die der in die USA emigrierte deutsche Linguist Prof. Dr. Jürgen Eichhoff in den Jahren 1968/69 im US-Bundesstaat Wisconsin erhoben hat. In die Erstellung und Aufbereitung eines Teils dieser Daten war auch das Max Kade Institute for German-American Studies der University of Wisconsin-Madison involviert. Die Aufnahmen mit insgesamt 63 (zumeist älteren) Sprecherinnen und Sprechern decken neben den nun transkribierten standarddeutsch orientierten Aufnahmen vor allem auch verschiedene nieder-, mittel- und oberdeutsche Varietäten ab. Aufgenommen wurden freie Interviews, Erzählungen sowie fragebogenbasierte Übersetzungsaufgaben und Standardtexte wie die Wenkersätze. Erstmals werden mit diesem Release auch Wort- und Lemmalisten sowie der umfangreiche Übersetzungsfragebogen, der am AGD auf Basis der Tonaufnahmen rekonstruiert werden konnte, als Zusatzmaterialien des WISC-Korpus bereitgestellt.

3. Neue und verbesserte Funktionalitäten in der DGD

Eine wesentliche Erweiterung der DGD in Version 2.25 ist die Unterstützung von Suchen in den mehrsprachigen Metadaten des PECI-Korpus. Bei Verwendung der Metadatensuche und -filterung für das PECI-Korpus kann jetzt eine der vier Korpussprachen für die Anzeige von Metadaten-Feldern und -Werten ausgewählt werden. Dabei werden ausgewählte wichtige Bezeichnungen und Hinweistexte der Bedienoberfläche zusätzlich in englischer Sprache angezeigt. Darüber hinaus kann in den deutschen, englischen, italienischen und polnischen PECI-Transkripten auch sprachübergreifend unter Verwendung von Universal-Dependencies-POS-Tags gesucht werden.

Als weitere Neuerung verfügt die DGD jetzt über die Möglichkeit der CQP-Suche in ausgewählten, für die CQP-Suche indexierten Korpora. Dabei stehen neben der Suche in virtuellen Korpora und integrierter Metadatenfilterung die üblichen KWIC-Funktionalitäten der DGD (Sortieren, Filtern, Teilen, Herunterladen, Kollektionen etc.) zur Verfügung. Außerdem können nun nonverbale Elemente wie Pausen, Atmen, nonverbale Ereignisse und Interpunktion optional auch direkt in der KWIC-Anzeige eingeblendet werden.

Eine ausführliche Beschreibung der funktionalen Neuerungen des Release 2.25 finden Sie hier.

Wir hoffen, dass die Neuerungen für Ihre Arbeit nützlich sind.
Für Rückmeldungen an die Adresse agd@ids-mannheim.de oder dgd-support@ids-mannheim.de sind wir jederzeit dankbar.

Mit freundlichen Grüßen

Die Teams von AGD und DGD

Wir versenden diese E-Mail an alle registrierten DGD-Nutzenden. Wenn Sie solche Benachrichtigungen nicht mehr erhalten möchten und Ihren DGD-Account ganz löschen möchten, können Sie dies unter folgendem Link selbst tun:
https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.del_reg. Bei Schwierigkeiten mit der Abmeldung senden Sie uns bitte eine kurze Nachricht an dgd@ids-mannheim.de.

Wir empfehlen, bei der nächsten Nutzung der Datenbank für Gesprochenes Deutsch den Browser-Cache einmal zu leeren.