Liebe DGD-Nutzende,
wir freuen uns, Ihnen Release 2.23 der Datenbank für Gesprochenes Deutsch vorstellen zu können, das seit Montag dieser Woche online ist:
https://dgd.ids-mannheim.de
Im Folgenden stellen wir Ihnen die wichtigsten Neuerungen dieser Version kurz vor.

1. Neue Korpora zu Sprache und Sprechen im ehemaligen innerdeutschen Grenzgebiet

Das Grenzdorf Mödlareuth nach der Wende (Foto: Grenzlandstern, CC BY-SA 4.0)
Im Rahmen einer Forschungsdatenmanagement-Projektförderung des Konsortiums für die Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften (KonsortSWD – NFDI4Society), die Prof. Dr. Alexander Werth (Universität Passau) und Dr. Nicole Palliwoda (Universität Kiel) in Kooperation mit dem Forschungsdatenzentrum Archiv für Gesprochenes Deutsch (FDZ AGD) eingeworben haben, konnten im Drittmittelprojekt „Sprachsituation an der innerdeutschen Grenze“ (SPRiG, 2021–2022) zwei neue Korpora aufbereitet werden, die die Sprache und das Sprechen im ehemaligen innerdeutschen Grenzgebiet dokumentieren. Es handelt sich dabei um die Korpora ‚Sprechen über die ehemalige innerdeutsche Grenze‘ (SEIG) und ‚Sprachsituation an der innerdeutschen Grenze‘ (SPIG).
Wir danken Prof. Dr. Alexander Werth und Dr. Nicole Palliwoda für die Überlassung der Daten sowie für die Zusammenarbeit bei der Aufbereitung.
Korpus ‚Sprechen über die ehemalige innerdeutsche Grenze‘ (SEIG)
Die Daten des SEIG-Korpus wurden von Dr. Nicole Palliwoda (Universität Kiel) zwischen 2013 und 2014 im Rahmen ihres Promotionsprojektes zum Thema „Das Konzept ‚Mauer in den Köpfen‘ – Der Einfluss der Priming-Methode auf die Sprechprobenverortung und -bewertung“ erhoben. Das Korpus dokumentiert Sprache und Spracheinstellungen nahe der Grenzlinie zwischen ehemaliger DDR und BRD. Die Aufnahmen des Korpus wurden an vier Orten (zwei auf BRD-Seite und zwei auf DDR-Seite) erhoben. Sie enthalten jeweils ein dreiteiliges Interview, bestehend aus einem narrativen Teil zur eigenen Lebensgeschichte, einem Draw-a-Map-Task zum eigenen Sprachraum sowie einer Verortung von alltagssprachlichen Sprechproben auf einer Deutschlandkarte.
In der DGD werden nun erstmals 16 am AGD technisch bearbeitete Audioaufnahmen im Umfang von knapp 33 Stunden zusammen mit am AGD normalisierten, lemmatisierten und POS-getaggten Transkripten bereitgestellt. Zusätzlich wurden zugehörige Metadaten zu Aufnahmen und Sprechenden sowie weitere Zusatzmaterialien DGD-konform aufbereitet und stehen nun über die DGD zur Verfügung. Die Aufnahmen stammen von 8 männlichen und 8 weiblichen Gewährspersonen aus zwei Altersgruppen.
Korpus ‚Sprachsituation an der innerdeutschen Grenze‘ (SPIG)
Die Daten des Korpus ‚Sprachsituation an der innerdeutschen Grenze‘ (SPIG) wurden ursprünglich im Rahmen des Kooperationsprojekts „Erhebungen zur Dialektsituation im thüringisch-bayerischen Grenzgebiet“ (1992–1994, Leitung: Prof. Dr. Robert Hinderling, Dr. Wolfgang Lösch) erhoben. Initial bearbeitet wurden die Daten anschließend im Zuge des DFG-Projekts „Untersuchungen zur Sprachsituation im thüringisch-bayerischen Grenzgebiet“ (2005–2009, Leitung: Prof. Dr. Rüdiger Harnisch).
Zu diesen Daten gehören ursprünglich Sprachaufnahmen von insgesamt 501 Gewährspersonen aus 21 Orten im unmittelbaren thüringisch-bayerischen Grenzgebiet. Die befragten Gewährspersonen verteilen sich auf vier Altersgruppen. Die ursprünglichen Kassettenmitschnitte bestehen aus vier Teilen: 1. der Abfrage von Wörtern und Satzgruppen inkl. Übersetzung standardsprachlicher Sätze in den Ortsdialekt, 2. Fragen zur Sprachverwendung und Dialektbewertung, 3. der Abfrage von Sozialdaten und 4. einer freien Erzählung im Dialekt zur Grenzöffnung im Jahr 1989.
Die Aufbereitung der Daten des SPIG-Korpus reichte von der Inventarisierung, (Re-)Digitalisierung und technischen Bearbeitung der Aufnahmen über die Konvertierung bestehender Alttranskripte im Wordformat zu XML-Dateien, deren Nachbearbeitung und manuelle Alignierung, die Erstellung von Zusatzmaterialien bis hin zur Zuordnung lückenhaft dokumentierter Sprecher- und Aufnahme-Metadaten. Auf Basis dieser Aufbereitungen konnten die XML-Transkripte normalisiert, lemmatisiert und POS-getaggt sowie die Metadaten in ein DGD-konformes Format überführt werden.
Über die DGD stehen nun erstmals 274 Aufnahmen im Umfang von 125 Stunden von 342 Gewährspersonen bereit, zu denen 482 normorthographische, mit POS-Tagging versehene Teiltranskripte sowie zugehörige Metadaten und Zusatzmaterial verfügbar sind.

2. Neues Korpus ‚Deutschböhmen in Brasilien‘ (BOBR)

Im Jahr 2024 jährte sich der Beginn der ersten Einwanderungswelle nach Brasilien zum 200sten Mal. Passend dazu ist die Veröffentlichung des Korpus ‚Deutschböhmen in Brasilien‘ (BOBR), das von Dr. Angélica Prediger (Universität Heidelberg) in den Jahren 2016 bis 2018 im Rahmen ihres Promotionsprojekts an der Universidade Federal do Rio Grande do Sul im gleichnamigen Bundesstaat erhoben wurde. Das Korpus dokumentiert die gesprochene Kontaktvarietät der Nachfahren von im 19. Jahrhundert aus Nordböhmen in den Bundestaat Rio Grande do Sul eingewanderten Personen.
Kirche in einem Stadtteil von Venâncio Aires mit Hinweistafel zur europäischen Besiedelung (Foto: Angélica Prediger)
Das Korpus besteht aus 159 Aufnahmen von Interviews mit 37 verschiedenen Nachfahren deutschböhmischer Einwanderer und Einwanderinnen. Die Daten wurden in 4 Städten und deren Umland erhoben und sind gleichmäßig nach den Parametern Geschlecht, Generation und Bildungsgrad der Sprechenden stratifiziert. Die Erhebung umfasste Interviews, freie Gespräche, Lektüreaufgaben und fragebogengeleitete Aufnahmen. Letztere wurden zum Teil in portugiesischer Übersetzung durchgeführt und decken systematisch Kernbereiche der Phonologie, Lexik und Grammatik ab. In der DGD werden nun erstmals die am AGD nachbearbeiteten Audioaufnahmen dieser Erhebung im Umfang von über 33 Stunden zusammen mit 12 am AGD erstellten, normalisierten, lemmatisierten und POS-getaggten cGAT-Transkripten und zugehörigen Metadaten zu Aufnahmen und Sprechenden sowie weiterem Zusatzmaterial bereitgestellt. Die Aufnahmen stammen von 37 Gewährspersonen, die zum Zeitpunkt der Aufnahme zwischen 18 und 81 Jahre alt waren.
Wir danken Dr. Angélica Prediger für die Überlassung der Daten sowie für die Zusammenarbeit bei der Aufbereitung.

3. Neuerungen in den Bestandskorpora: Neue Transkripte und Zusatzmaterialien

Das Korpus ‚Binnendeutsche Varietäten: Varia‘ (MV) steht seit 2012 über die DGD zur Verfügung, allerdings bislang ohne zugehörige Transkripte. Es enthält Aufnahmen, die die US-Wissenschaftlerin Carol Tokosh 1972 in insgesamt zwölf Städten der alten BRD, Österreichs und der Schweiz durchgeführt hat. Die Aufnahmen enthalten jeweils die Abfrage einer Wortliste und eine Erzählung in Standardsprache sowie in Umgangssprache. Mit diesem Release werden erstmalig 24 Transkripte bereitgestellt, womit nun ein Drittel der Daten als eine Art Schaufenster in das Korpus für Recherchen erschlossen ist. Es handelt sich dabei um Transkripte zu jeweils einer Aufnahme mit einer Frau und einer Aufnahme mit einem Mann für alle zwölf Ortspunkte. Die Transkripte wurden am AGD mit Hilfe von automatischer Spracherkennung ersttranskribiert und anschließend manuell nachkorrigiert. Erstmals werden nun auch Wort- und Lemmalisten sowie die Erhebungswortliste als Zusatzmaterialien bereitgestellt.
Außerdem werden mit diesem Release zwei weitere Transkripte zum Korpus ‚Deutsche Mundarten: Kreis Böblingen‘ (BB) veröffentlicht.
Für das Korpus ‚Flucht und Emigration nach Großbritannien‘ (FEGB) wurde weiteres Zusatzmaterial erstellt (Wort-/Lemmalisten, POS-Tag-Übersicht zu den englischsprachigen Transkripten), das nun über die DGD verfügbar ist.

4. Neue und verbesserte Funktionalitäten in der DGD

Video-Navigationsmöglichkeiten jetzt Frame-by-Frame: Die Video-Navigationsmöglichkeiten wurden erweitert und verbessert, um eine feingranularere Navigation zu ermöglichen: Es ist nun möglich, in Videos in Schritten von 30 Sekunden, 10 Sekunden oder einzelnen Frames zu navigieren. Außerdem können Links erstellt werden, mit denen Stellen in Videoaufnahmen Frame-genau identifiziert und in der DGD angezeigt werden können. Diese Links können auch mit anderen DGD-Nutzenden geteilt und in Publikationen zur Referenzierung verwendet werden.
Bei der Anzeige einzelner Transkriptausschnitte mit einer zugehörigen Videoaufnahme (z.B. aus einem Suchergebnis, einem Volltranskript oder einer Kollektion heraus) wird nun die Wiedergabeposition im Videoplayer automatisch auf den Start des zugehörigen Sprecherbeitrags gesetzt.
Sortierung von KWIC-Listen: Bei der Sortierung von Suchergebnissen nach linkem oder rechtem Kontext (durch Klicken auf den jeweiligen Spaltenkopf in der KWIC-Ansicht) wird nun der gesamte Kontext und nicht mehr nur das letzte Wort des linken bzw. das erste Wort des rechten Kontextes berücksichtigt. Ergebnisse mit ähnlichen Kontexten werden so besser gruppiert.

Aktuell sind mehr als 19.000 Nutzende bei der DGD registriert.
Wir hoffen, dass die Neuerungen in Version 2.23 für Ihre Arbeit nützlich sind!
Für Rückmeldungen an die Adresse dgd-support@ids-mannheim.de sind wir weiterhin dankbar.
Mit freundlichen Grüßen
Die Teams von AGD und DGD

Wir versenden diese E-Mail an alle registrierten DGD-Nutzenden. Wenn Sie solche Benachrichtigungen nicht mehr erhalten möchten und Ihren DGD-Account ganz löschen möchten, können Sie dies unter folgendem Link selbst tun: https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.del_reg.
Bei Schwierigkeiten mit der Abmeldung senden Sie uns bitte eine kurze Nachricht an dgd@ids-mannheim.de.


Wir empfehlen, bei der nächsten Nutzung der Datenbank für Gesprochenes Deutsch den Browser-Cache einmal zu leeren.