Liebe
DGD-Nutzende,
wir freuen uns, Ihnen
Release 2.25 der Datenbank für Gesprochenes Deutsch vorstellen zu können,
das seit Dienstag dieser Woche online ist:
Im Folgenden stellen wir Ihnen die wichtigsten Neuerungen dieser Version kurz vor.
1. Neues Korpus: ‚Parallel European Corpus of Informal Interaction‘ (PECI)
Mit dem ‚Parallel European Corpus of Informal Interaction‘ (PECI) steht erstmals ein umfangreiches mehrsprachiges Vergleichskorpus
sozialer Interaktion im Alltag zur Verfügung. Der Aufbau dieses Korpus geht zurück auf eine Initiative von Prof. Dr. Lorenza Mondada
(Universität Basel), Prof. Dr. Giovanni Rossi (University of California), Dr. Anna Vatanen (Universität Helsinki), Assistant Professor
Dr. Matylda Weidner (Kazimierz-Wielki-Universität in Bydgoszcz) sowie Prof. Dr. Jörg Zinken (IDS Mannheim) mit dem Ziel, eine
Datengrundlage für sprachübergreifende Forschung zu sozialer Interaktion bereitzustellen. Es wurde im Rahmen des von der
Leibniz-Gemeinschaft im Rahmen des SAW-Wettbewerbsverfahren geförderten Projekts „Norms, Rules, and Morality across Languages“
(NoRM-aL, Laufzeit: 2020–2023, Leitung: Prof. Dr. Jörg Zinken) am IDS Mannheim fertiggestellt.
PECI umfasst in der hier zur Nachnutzung zur Verfügung gestellten Version Daten natürlicher sozialer Alltagsinteraktionen in
vier Sprachen:
Deutsch, (britisches) Englisch, Italienisch und
Polnisch. Für jede Sprache wurden jeweils mehrfach
drei soziale
Aktivitäten mit
zwei Kameraperspektiven aufgezeichnet:
- Familienfrühstück am Wochenende
- Spieleabend unter Freund:innen und Verwandten
- Autofahrt mit Freund:innen
Insgesamt werden mit Version 2.25 der DGD
83 Aufnahmen von
254 Sprechenden mit einer Gesamtdauer von
knapp 77 Stunden zur
Verfügung gestellt, aufgezeichnet in den Jahren 2015 bis 2023. Alle Ton- und Videoaufnahmen wurden nach den Archivstandards des AGD
technisch nachbearbeitet. Die Gespräche wurden im NoRM-aL-Projekt in Anlehnung an die cGAT-Konventionen transkribiert; die Transkripte
umfassen
knapp 600.000 Tokens. Am AGD wurden die Transkripte zusätzlich orthographisch normalisiert, lemmatisiert und mit einem
sprachspezifischen (sowie einem sprachübergreifenden, s.u.) POS-Tagging versehen. Die Metadaten des Korpus werden in den vier Sprachen
des Korpus zur Verfügung gestellt, die präferierte Sprache für Anzeige und Suche kann für das Korpus in der DGD ausgewählt werden (s.u.).
Als Zusatzmaterialien stehen Übersichten aller Aufnahmesettings, eine Liste der gespielten Gesellschaftsspiele, ein Überblick über
die eingesetzten sprachspezifischen Tagsets auf Deutsch und Englisch sowie Wort- und Lemmalisten für jeden Sprachteil des Korpus zur Verfügung.
Wir danken Prof. Dr. Jörg Zinken und dem NoRM-aL-Projekt für die Überlassung der Daten sowie für die Zusammenarbeit bei der Aufbereitung.
Ebenso danken wir den Kooperationspartner:innen des Projekts, Prof. Dr. Giovanni Rossi und Assistant Professor Dr. Matylda Weidner,
für das Beitragen eigener Daten zu den Datenbeständen des NoRM-aL-Projekts, die zum Teil auch in der Releaseversion des PECI-Korpus in der
DGD enthalten sind.
2. Neuerungen in den Bestandskorpora: Neue Transkripte und Zusatzmaterialien zum WISC-Korpus
Das Korpus ‚Deutsch in Wisconsin‘ (WISC) steht seit 2012 – damals noch als Teil des Korpus ‚Binnen- und auslandsdeutsche Mundarten:
Varia‘ (MV), später als eigenständiges Korpus – über die DGD zur Verfügung, allerdings bislang ohne zugehörige Transkripte und
Zusatzmaterialien. Mit diesem Release werden erstmalig 6 Transkripte zu knapp 4,5 Stunden Audioaufnahmen bereitgestellt.
Es handelt sich dabei um Aufnahmen mit standarddeutscher Orientierung.
WISC enthält insgesamt 120 Audioaufnahmen, die der in die USA emigrierte deutsche Linguist Prof. Dr. Jürgen Eichhoff in den Jahren 1968/69
im US-Bundesstaat Wisconsin erhoben hat. In die Erstellung und Aufbereitung eines Teils dieser Daten war auch das Max Kade Institute
for German-American Studies der University of Wisconsin-Madison involviert. Die Aufnahmen mit insgesamt 63 (zumeist älteren) Sprecherinnen
und Sprechern decken neben den nun transkribierten standarddeutsch orientierten Aufnahmen vor allem auch verschiedene nieder-,
mittel- und oberdeutsche Varietäten ab. Aufgenommen wurden freie Interviews, Erzählungen sowie fragebogenbasierte Übersetzungsaufgaben
und Standardtexte wie die Wenkersätze. Erstmals werden mit diesem Release auch Wort- und Lemmalisten sowie der umfangreiche
Übersetzungsfragebogen, der am AGD auf Basis der Tonaufnahmen rekonstruiert werden konnte, als Zusatzmaterialien des WISC-Korpus
bereitgestellt.
3. Neue und verbesserte Funktionalitäten in der DGD
Eine wesentliche Erweiterung der DGD in Version 2.25 ist die Unterstützung von Suchen in den mehrsprachigen Metadaten des PECI-Korpus.
Bei Verwendung der Metadatensuche und -filterung für das PECI-Korpus kann jetzt eine der vier Korpussprachen für die Anzeige von
Metadaten-Feldern und -Werten ausgewählt werden. Dabei werden ausgewählte wichtige Bezeichnungen und Hinweistexte der Bedienoberfläche
zusätzlich in englischer Sprache angezeigt. Darüber hinaus kann in den deutschen, englischen, italienischen und polnischen PECI-Transkripten
auch sprachübergreifend unter Verwendung von Universal-Dependencies-POS-Tags gesucht werden.
Als weitere Neuerung verfügt die DGD jetzt über die Möglichkeit der CQP-Suche in ausgewählten, für die CQP-Suche indexierten Korpora.
Dabei stehen neben der Suche in virtuellen Korpora und integrierter Metadatenfilterung die üblichen KWIC-Funktionalitäten der DGD (Sortieren, Filtern,
Teilen, Herunterladen, Kollektionen etc.) zur Verfügung. Außerdem können nun nonverbale Elemente wie Pausen, Atmen,
nonverbale Ereignisse und Interpunktion optional auch direkt in der KWIC-Anzeige eingeblendet werden.
Eine ausführliche Beschreibung der funktionalen Neuerungen des Release 2.25 finden Sie
hier.
Mit freundlichen
Grüßen
Die Teams von AGD und DGD
Wir versenden diese E-Mail an alle
registrierten DGD-Nutzenden. Wenn Sie solche Benachrichtigungen nicht mehr erhalten
möchten und Ihren DGD-Account ganz löschen möchten, können Sie dies unter folgendem Link selbst tun:
https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.del_reg. Bei
Schwierigkeiten mit der Abmeldung senden Sie uns bitte eine kurze Nachricht an dgd@ids-mannheim.de.
Wir empfehlen, bei der nächsten Nutzung der
Datenbank für Gesprochenes Deutsch den Browser-Cache einmal zu leeren.