-
Versionen
VersionDatum=13-02-2012ID=2.0_beta
Beta-Release mit Transkripten im DGD1-Format
VersionDatum=19-12-2012ID=2.0
Erstes offizielles Release mit Transkripten im FLN-Format, Integration von Daten aus
dem HE-Korpus, 18 ausgewählte Datensätze zum vollständigen Download
VersionDatum=01-07-2015ID=2.5
Ortsdaten ergänzt
VersionDatum=05-12-2016ID=2.7
Ortsdaten ergänzt, 85 neue, alignierte Transkripte im FLN-Format integriert
VersionDatum=24-11-2017ID=2.9
Überarbeitung der Ortsdaten in den Ereignis- und Sprecherdokumenten, 101 zusätzliche,
alignierte Transkripte im FLN-Format integriert
VersionDatum=04-02-2022ID=2.17
Hinzufügen von Koordinaten zu den Ortsdaten in den Ereignis- und Sprecherdokumenten
sowie Verlinkung der Orte mit der Wissensbasis Wikidata, 449 zusätzliche, alignierte
Transkripte im FLN-Format integriert
Namelang=de
Deutsche Mundarten: Zwirner-Korpus
Namelang=en
German dialects: Zwirner corpus
Sonstige_Bezeichnungen
ZW ; I
Korpus_Projekt_Kurzbeschreibunglang=de
Das Korpus Deutsche Mundarten: Zwirner-Korpus (ZW--) wurde in Rahmen eines Projekts
des Deutschen Spracharchivs (DSAv) erstellt. Projektleiter war Eberhard Zwirner. Ziel
des Projekts war, die Dialekte in Deutschland möglichst vollständig zu erfassen und
die Aufnahmen im DSAv für phonometrische Untersuchungen zu nutzen. Die Erhebung wurde
hauptsächlich in der Zeit von 1955 bis 1961 in den alten Bundesländern der BR Deutschland
durchgeführt, darüber hinaus auch in Österreich (Vorarlberg), Liechtenstein und Frankreich
(Elsass). Zwischen 1964 und 1972 gab es in einigen Gebieten Ergänzungsaufnahmen und
Sondererhebungen z.B. in den Niederlanden und in fast allen Orten des westfälischen
Kreises Herford. In den einzelnen Regionen waren für die Auswahl der Informanten und
die Erhebung u.a. einschlägig qualifizierte Dialektologen oder Mitarbeiter der Arbeitsstellen
der regionalen Dialektwörterbücher verantwortlich. Ihnen oblag die Vorbereitung und
Durchführung der Aufnahmen, während die tontechnische Realisierung von einem Toningenieur
des DSAv verantwortet und mit einem vom DSAv bereitgestellten Aufnahmewagen durchgeführt
wurde. Für die Auswahl der Aufnahmeorte wurde ein Planquadratnetz mit einer Seitenlänge
von sechzehn Kilometern über das Gebiet gelegt und in jedem Planquadrat mindestens
ein Ort ausgewählt. In jedem Ort wurden in der Regel drei autochthone Sprecher befragt,
nach Möglichkeit je einer aus der jüngeren, der mittleren und der älteren Generation
(um 20 Jahre, um 40 Jahre und über 60 Jahre). Durch die Einbeziehung von Flüchtlingen,
Vertriebenen und Übersiedlern aus den ehemaligen deutschen Ostgebieten, aus der sowjetischen
Besatzungszone bzw. DDR und aus den Staaten Ost- und Südosteuropas konnten zahlreiche
Mundarten dieser Gebiete aufgenommen werden, die in den 1950er Jahren - kurze Zeit
nach Vertreibung oder Umsiedlung - von ihren Sprechern noch weitgehend unbeeinflusst
durch die neue Umgebung gesprochen wurden. Auch hier wurden möglichst Sprecher aus
unterschiedlichen Generationen ausgewählt wie sie am Aufnahmeort vorhanden waren.
Neben dialektalen Beiträgen wurden umgangssprachliche und standardsprachliche Beiträge
aufgenommen. Regionale Sprachen und Sprachminderheiten wurden berücksichtigt, so Nordfriesisch
(Festland und Inseln) und Platt-Dänisch in Schleswig-Holstein, Saterfriesisch im nordwestlichen
Niedersachsen, der romanisch-französische Dialekt in Teilen der Vogesen im Elsass
(Pays Welche), bei den Vertriebenen Wasserpolnisch aus Oberschlesien, in den Niederlanden
Westfriesisch, Jiddisch und die Sprachen der ehemaligen niederländischen Kolonien
in Südamerika und Südostasien. Das Korpus ZW-- umfasst 5809 Tonaufnahmen, davon sind
5796 Tonaufnahmen (darunter ca. 90 Aufnahmen in niederländischer Sprache) aus der
Zeit von 1955 bis 1972 mit einer Gesamtdauer von 1077 Stunden und 15 Minuten extern
zugänglich. 5887 Sprecher (Frauen und Männer) sind dokumentiert. Aufgenommen wurden
Sprechereignisse unterschiedlicher Art, u.a. Erzählungen und Standardtexte (Wochentage,
Zahlen, regional zusätzlich Wenkersätze, Sätze des Pfälzischen Wörterbuchs, dialektgeografische
Testsätze von Theodor Baader). Die Aufnahmen wurden im Archiv für Gesprochenes Deutsch
(AGD) (früher: Deutsches Spracharchiv) digitalisiert. Die 130 Aufnahmen aus dem Kreis
Herford (Westfalen), die in Kooperation von DSAv und Kreisheimatverein Herford transkribiert
und in der ersten DGD des DSAv in einem eigenständigen „Herforder Korpus“ (HE) angeboten
wurden, sind in der DGD 2 mitsamt Transkripten wieder ins Korpus ZW-- integriert worden.
Nach Zwirners Vorstellung sollten die Tonaufnahmen orthografisch, literarisch und
phonetisch transkribiert werden, was wegen der großen Menge an Aufnahmen nur teilweise
gelang. Standard-sprachliche, phonetische und literarische bzw. phonologische oder
phonemische Transkripte zu ca. 100 Aufnahmen wurden in zahlreichen Bänden der vom
DSAv herausgegebenen Reihen PHONAI und Lautbibliothek der deutschen Mundarten (LDM)
sowie weiteren Publikationen veröffentlicht. Zurzeit sind zu 2922 Aufnahmen 2944 digitale
Transkripte archiviert. Davon sind 2396 im DSAv/AGD digitalisiert worden (an der alten
Orthographie orientierte hochsprachliche Übertragung, Erläuterungen der Transkribenten,
Lemmatisierung, POS-Tagging). 85 niederdeutsche Aufnahmen aus Schleswig-Holstein,
Niedersachsen und Westfalen wurden 2013-2016 in einem gemeinsamen Projekt von AGD
und Universität Oldenburg neu transkribiert, weitere 14 aus Bayerisch-Schwaben und
Oberbayern 2017 in einem Transkriptions-Seminar an der Universität Augsburg sowie
449 Aufnahmen aus dem alemannischen Sprachgebiet 2015-2021 vom Arno-Ruoff-Archiv/Ludwig-Uhland-Institut
der Universität Tübingen (früher: Tübinger Arbeitsstelle Sprache in Südwestdeutschland)
in Kooperation mit dem AGD, 427 davon erstmalig digital zugänglich (an der neuen Orthografie
orientierte hochsprachliche Übertragung (Token für Token), Erläuterungen der Transkribenten,
Lemmatisierung, POS-Tagging). Alle Transkripte wurden mit dem Ton synchronisiert (aligniert).
Anhand der Metadaten wurden eine Themenliste, eine Liste der sprachlichen Besonderheiten
und eine Liste der Berufe der Sprecher erstellt. Außerdem gibt es alphabetisch und
nach Frequenzen geordnete Wort- und Lemmalisten. Das Korpus ZW-- wird in der Datenbank
für Gesprochenes Deutsch (DGD) bereitgestellt, einzelne Tonaufnahmen können auch im
persönlichen Service des AGD weitergegeben werden.
Korpus_Projekt_Kurzbeschreibunglang=en
The corpus German Dialects: Zwirner Corpus (ZW--) was created as part of a project
conducted by the German Language Archive (DSAv). The project leader was Eberhard Zwirner.
The goal of the project was to document the dialects in Germany as completely as possible
and to use the recordings in the DSAv for phonometric studies.
The survey was carried out mainly in the period from 1955 to 1961 in the states of
the Federal Republic of Germany [then West Germany], as well as in German-speaking
areas of Austria (Vorarlberg), Liechtenstein and France (Alsace). Between 1964 and
1972, supplementary surveys and special surveys were carried out in some areas, e.g.
in the Netherlands and in almost all towns in the Westphalian district of Herford.
Within the individual regions, the selection of informants and the collection of data
was performed by dialectologists with relevant expertise or by members of the project
teams for the respective regional dialect dictionaries. While these researchers were
responsible for the preparation and realization of the recordings, a sound engineer
provided by the DSAv was in charge of the technical realization, using a recording
truck provided by the DSAv.
For the selection of recording locations, a square grid with a side length of sixteen
kilometers was laid over the area and at least one location was selected in each grid
square. As a rule, three autochthonous speakers were interviewed at each location,
if possible one from the younger, the middle and the older generation (around 20 years,
40 years and over 60 years of age, respectively). Thanks to the inclusion of refugees,
displaced persons and resettlers from the former German eastern territories, from
the Soviet occupation zone or GDR and from the states of Eastern and Southeastern
Europe, it was possible to record numerous dialects from these areas which, in the
1950s -- a short time after displacement or resettlement --, were still spoken by
the relevant speakers in a form largely uninfluenced by their new environment. Here,
too, speakers from different generations were selected to the extent that was possible
and speakers were available at the recording locations.
In addition to dialectal contributions, colloquial and standard language contributions
were included. Regional languages and language minorities were taken into account,
such as North Frisian (mainland and islands) and Platt Danish in Schleswig-Holstein,
Sater Frisian in northwestern Lower Saxony, the Romance-French dialect in parts of
the Vosges in Alsace (Pays Welche), among displaced persons Water Polish from Upper
Silesia, in the Netherlands West Frisian, Yiddish and the languages of the former
Dutch colonies in South America and Southeast Asia.
The corpus ZW-- comprises 5809 sound recordings, of which 5796 sound recordings (including
about 90 recordings in Dutch) from the period 1955 to 1972 with a total duration of
1077 hours and 15 minutes are accessible externally. 5887 persons (women and men)
are documented as speakers in the transcripts. Speech events of various types were
recorded, among them narratives and standard texts (days of the week, numbers, Wenker
sentences, sentences from the Pfälzisches Wörterbuch (Palatinate Dictionary) , dialect-geographical
test sentences by Theodor Baader). The recordings were digitized at the Archive for
Spoken German (AGD) (formerly: German Language Archive). 130 recordings from the district
of Herford (Westphalia) were transcribed in cooperation between the DSAv and the Kreisheimatverein
Herford and were presented as an an independent "Herforder Korpus" (HE) in the first
version of the Datenbank für Gesprochenes Deutsch (DGD) of the DSAv. This set of recodings
was later reintegrated into the corpus ZW-- along with the relevant transcripts when
the second generation of the Datenbank für Gesprochenes Deutsch was launched.
According to Zwirner's conception, the audio recordings were to be transcribed orthographically,
literarily, and phonetically. This goal could only be partially accomplished due to
the large amount of recordings. Standard linguistic, phonetic and literary or phonological
or phonemic transcripts for about 100 recordings were published in numerous volumes
of the series PHONAI and Lautbibliothek der deutschen Mundarten (LDM) edited by the
DSAv, as well as in other publications. Currently, 2944 digital transcripts for 2922
recordings are held by the AGD. Of these, 2396 were digitized at the DSAv/AGD (high-level
transcription following the rules of the old orthography, transcriber notes, lemmatization,
POS tagging). A set of 85 Low German recordings from Schleswig-Holstein, Lower Saxony,
and Westphalia were newly transcribed in 2013-2016 in a joint project of AGD and the
University of Oldenburg. A further 14 transcripts from Bavarian Swabia and Upper Bavaria
were produced in 2017 as part of a course on transcription at the University of Augsburg.
Most recently, 449 recordings from the Alemannic language area were transcribed during
2015-2021 by the Arno Ruoff Archive/Ludwig Uhland Institute of the University of Tübingen
(formerly: Tübinger Arbeitsstelle Sprache in Südwestdeutschland) in cooperation with
the AGD. 427 of these are digitally accessible for the first time (high-level transcription
oriented to the new orthography (token by token), transcribers' explanations, lemmatization,
POS tagging). All transcripts were synchronized (aligned) with the audio. Based on
the metadata a list of topics, a list of linguistic peculilarities as well as a list
of speakers' professions were produced. In addition, frequency lists for words and
lemmas are made available, arranged alphabetically or by frequency. The ZW-- corpus
is made available in the Database of Spoken German (DGD), and individual recordings
can also be obtained by way of AGD's personal service.
Deskriptoren
gesprochene deutsche Sprache ; gesprochene niederländische Sprache ; Dialekt ; Umgangssprache
; Standardsprache ; Tonaufnahme ; Transkript ; Themenliste ; Liste der sprachlichen
Besonderheiten ; Liste der Berufe der Sprecher ; Wortliste ; Lemmaliste
-
ErstellungsprojektTitel=Schallaufnahmen aller deutschen Mundarten
Ort
Münster ; Braunschweig ; Bonn
Institut
Deutsches Spracharchiv et al.
Typ
DFG
Leiter
Eberhard Zwirner
Auskunft
Nicht vorhanden
Laufzeit
Nicht dokumentiert
Zentrale_Publikationen
Eberhard Zwirner, Wolfgang Bethge (1958): Erläuterungen zu den Texten. Spracharchiv,
Deutsches. Lautbibliothek der deutschen Mundarten, Bd. 1. Göttingen: Vandenhoeck \&
Ruprecht
Eberhard Zwirner (1964): Anleitung zu sprachwissenschaftlichen Tonbandaufnahmen. Lautbibliothek
der deutschen Mundarten, Bd. 31. Göttingen: Vandenhoeck \& Ruprecht
Edeltraud Knetschke, Margret Sperlbaum (1967): Anleitung für die Herstellung der Monographien
der Lautbibliothek. PHONAI Bd. 2 Basel: Karger
-
Aufzeichnungsobjekte
+
Ereignisse_Basisdaten
Anzahl
5796
Beschreibung
Geplante Aufnahmeaktionen
Länder_Regionen_Orte
Deutschland ; Frankreich ; Liechtenstein ; Niederlande ; Österreich
Institutionen
Deutsches Spracharchiv et al.
Räumlichkeiten
Nicht dokumentiert
Zeit
1955-1970
Anmerkungen
In den Ereignisdokumenten werden z.T. historische Ortsbezeichnungen verwendet. Die
in den Ereignisdokumenten verzeichneten Planquadrate sind in zwei Karten dokumentiert
(vgl. Eberhard Zwirner / Wolfgang Bethge (1958): Erläuterungen zu den Texten. Lautbibliothek
der deutschen Mundarten. Göttingen)
Rundfunksendungen
Nicht vorhanden
+
Sprechereignisse
+
Basisdaten
Anzahl
5796
Arten
Erzählung ; Deklamation ; Vorlesen ; Vortrag ; Übersetzung ; Standardtexte (Wochentage,
Zahlen, Wenkersätze, Sätze des Pfälzischen Wörterbuchs)
Forscherbeteiligung
Verbal beteiligt
Elizitiertheit
Elizitiert
Mediale_Realisierung
Face-to-face
Öffentlichkeitsgrad
Nicht dokumentiert
Vorgaben
Nicht dokumentiert
Sprachen
Dänisch, Deutsch, Französisch, Friesisch, Jiddisch, Malaisch, Niederländisch, Polnisch,
Serbisch, Surinamisch
+
Inhalte
Beschreibung
Nicht vorhanden
Themen
vgl. Zusatzmaterial - Themenliste
+
Sprecher
Anzahl
5887 dokumentiert
Beschreibung
Einheimische Personen (jüngere, mittlere und ältere Generation) ; Aussiedler aus den
ehemaligen deutschen Ostgebieten
Anmerkungen
Es gibt detaillierte Sprecherdaten. In den Sprecherdokumenten werden z.T. historische
Ortsbezeichnungen verwendet. Die in den Sprecherdokumenten verzeichneten Planquadrate
sind in mehreren Karten dokumentiert (vgl. Eberhard Zwirner / Wolfgang Bethge (1958):
Erläuterungen zu den Texten. Lautbibliothek der deutschen Mundarten. Göttingen)
-
Korpusbestandteile
+
QuellaufnahmenTyp=Audio
+
Basisdaten
Anzahl
5796
Relation_zu_Ereignissen
Nicht dokumentiert
Herkunft
Erstellungsprojekt
+
Aufnahmetechnik
Aufnahmegeräte
vgl. Ereignisdokumente
Mikrofone
vgl. Ereignisdokumente
AufnahmegeschwindigkeitEinheit=cm/s
19,05
+
DistributionStelle=Nicht vorhanden
+
ZugänglichkeitArt=Nicht vorhanden
Kontakt
Nicht vorhanden
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
Nicht vorhanden
+
SE-AufnahmenTyp=Audio
+
Basisdaten
Anzahl
5796
+
Dauer
Einzelne_Aufnahmen
1 Minute, 19 Sekunden bis 1 Stunde, 15 Minuten
Gesamtdauer
1073 Stunden, 15 Minuten
Schutzbedürftige_Daten
Nicht vorhanden
Relation_zu_Quellaufnahmen
Vollständig
Relation_zu_Sprechereignissen
Vollständig
+
Transkribierte_SE-Aufnahmen
Anzahl
2922
SE-Arten
Erzählung ; Deklamation ; Vorlesen ; Vortrag ; z.T. Wochentage und Zahlen
Dauer
Nicht dokumentiert
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
5796
DateigrößeEinheit=Byte
478071071924
Datenschutz
Nicht vorhanden
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Mono
AbtastrateEinheit=Hz
44100
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
705
Datenrate_Modus
konstant
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Anhören von Aufnahmeausschnitten in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Erwerb im Rahmen des AGD-Service
Kontakt
agd@ids-mannheim.de
Kosten
Gemäß Preisliste
Kosten_URL
http://agd.ids-mannheim.de/konditionen.shtml
Zugang_URL
Nicht vorhanden
+
SE-AufnahmenTyp=Audio
+
Basisdaten
Anzahl
2257
+
Dauer
Einzelne_Aufnahmen
2 Minuten, 33 Sekunden bis 34 Minuten, 16 Sekunden
Gesamtdauer
427 Stunden, 8 Minuten
Schutzbedürftige_Daten
Nicht vorhanden
Relation_zu_Quellaufnahmen
Vollständig
Relation_zu_Sprechereignissen
Vollständig
+
Transkribierte_SE-Aufnahmen
Anzahl
2257
SE-Arten
Befragung ; Erzählung ; Unterhaltung ; z.T. Wochentage und Zahlen
Dauer
Nicht dokumentiert
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2257
DateigrößeEinheit=Byte
138133778824
Datenschutz
Nicht vorhanden
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Mono
AbtastrateEinheit=Hz
44100
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
705
Datenrate_Modus
konstant
Anmerkungen
Mangelhafte technische Qualität
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Zugang über die alignierten Transkripte in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_01
+
Basisdaten
Anzahl
2309
Schutzbedürftige_Daten
Nicht vorhanden
Relation_zu_SE-Aufnahmen
Vollständig ; Unvollständig
+
AnnotationenTyp=ANT_01
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
An der alten Orthographie orientierte hochsprachliche Übertragung ; Erläuterungen
der Transkribenten ; Lemmatisierung ; POS-Tagging
Konventionen
Projektspezifisch
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Ersterstellung
Projekt
Nicht dokumentiert ; Herforder Korpus
Instrumente
Nicht dokumentiert
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
100583
Tokens:
3748910
+
ErstellungTyp=ERT_02
Spezifikation
Digitalisierung von ERT_01 und Bearbeitung für DGD1
Projekt
Datenbank Gesprochenes Deutsch
Instrumente
Nicht dokumentiert
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
100583
Tokens:
3748910
+
ErstellungTyp=ERT_DB1
Spezifikation
Konvertierung von HTML-Fassung der DGD1
Projekt
Datenbank für Gesprochenens Deutsch
Instrumente
Java ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
100583
Tokens:
3748910
+
AlignmentTyp=ALT_01
Spezifikation
Wortweise
+
HerstellungErstellung_Typ=ERT_02
Anzahl:
2257
Projekt:
Datenbank Gesprochenes Deutsch
Verfahren_Instrumente:
Automatisch ; IDS-Aligner
+
AlignmentTyp=ALT_02
Spezifikation
Pseudoalignment
+
HerstellungErstellung_Typ=ERT_DB1
Anzahl:
52
Projekt:
Datenbank für Gesprochenes Deutsch
Verfahren_Instrumente:
Java
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2257
DateigrößeEinheit=Byte
646789018
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
Digitale_FassungenTyp=DFT_02
+
Basisdaten
Anzahl
52
DateigrößeEinheit=Byte
4449977
Inhalt
ANT_01, ERT_DB1, ALT_02
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_02
+
Basisdaten
Anzahl
85
Schutzbedürftige_Daten
Nicht vorhanden
Relation_zu_SE-Aufnahmen
Vollständig
+
AnnotationenTyp=ANT_02
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
An der neuen Orthografie orientierte hochsprachliche Übertragung (Token für Token)
; Erläuterungen der Transkribenten ; Lemmatisierung ; POS-Tagging
Konventionen
Projektspezifisch
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Ersterstellung
Projekt
Universität Oldenburg, Institut für Germanistik ; Archiv für Gesprochenes Deutsch
Instrumente
EXMARaLDA
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
11271
Tokens:
135319
+
ErstellungTyp=ERT_DB2
Spezifikation
Konvertierung von ERT_01, automatische Lemmatisierung und POS-Tagging
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
Java ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
11271
Tokens:
135319
+
AlignmentTyp=ALT_03
Spezifikation
Segmentweise
+
HerstellungErstellung_Typ=ERT_01
Anzahl:
85
Projekt:
Universität Oldenburg, Institut für Germanistik ; Archiv für Gesprochenes Deutsch
Verfahren_Instrumente:
Automatische Segmentierung auf Grundlage einer Pausenerkennung, manuelle Korrektur
; EXMARaLDA
+
Digitale_FassungenTyp=DFT_03
+
Basisdaten
Anzahl
85
DateigrößeEinheit=Byte
16686197
Inhalt
ANT_02, ERT_DB2, ALT_03
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_03
+
Basisdaten
Anzahl
14
Schutzbedürftige_Daten
Nicht vorhanden
Relation_zu_SE-Aufnahmen
Vollständig
+
AnnotationenTyp=ANT_02
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
An der neuen Orthografie orientierte hochsprachliche Übertragung (Token für Token)
; Erläuterungen der Transkribenten ; Lemmatisierung ; POS-Tagging
Konventionen
Projektspezifisch
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Ersterstellung
Projekt
Seminar an der Universität Augsburg unter der Leitung von Stefan Kleiner
Instrumente
Praat
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
3298
Tokens:
23480
+
ErstellungTyp=ERT_02
Spezifikation
Konvertierung von ERT_01, manuelle und teilautomatische Nachbearbeitung
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
EXMARaLDA
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
3298
Tokens:
23480
+
ErstellungTyp=ERT_DB2
Spezifikation
Konvertierung von ERT_02, automatische Lemmatisierung und POS-Tagging
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
Java ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
3298
Tokens:
23480
+
AlignmentTyp=ALT_03
Spezifikation
Manuell segmentweise
+
HerstellungErstellung_Typ=ERT_01
Anzahl:
14
Projekt:
Seminar an der Universität Augsburg unter der Leitung von Stefan Kleiner
Verfahren_Instrumente:
Praat
+
Digitale_FassungenTyp=DFT_03
+
Basisdaten
Anzahl
14
DateigrößeEinheit=Byte
3013029
Inhalt
ANT_02, ERT_DB2, ALT_03
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_04
+
Basisdaten
Anzahl
87
Schutzbedürftige_Daten
Nicht vorhanden
Relation_zu_SE-Aufnahmen
Vollständig ; Unvollständig
+
AnnotationenTyp=ANT_01
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
An der alten Orthographie orientierte hochsprachliche Übertragung ; Erläuterungen
der Transkribenten ; Lemmatisierung ; POS-Tagging
Konventionen
Projektspezifisch
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Ersterstellung
Projekt
Nicht dokumentiert
Instrumente
Nicht vorhanden
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
14175
Tokens:
156068
+
ErstellungTyp=ERT_02
Spezifikation
Digitalisierung von ERT_01
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
OmniPage
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
14175
Tokens:
156068
+
ErstellungTyp=ERT_03
Spezifikation
Konvertierung von ERT_02
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
EXMARaLDA
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
14175
Tokens:
156068
+
ErstellungTyp=ERT_DB2
Spezifikation
Konvertierung von ERT_03, automatische Lemmatisierung und POS-Tagging
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
Java ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
14175
Tokens:
156068
+
AlignmentTyp=ALT_03
Spezifikation
Manuell segmentweise
+
HerstellungErstellung_Typ=ERT_03
Anzahl:
87
Projekt:
Archiv für Gesprochenes Deutsch
Verfahren_Instrumente:
EXMARaLDA Partitur-Editor
+
Digitale_FassungenTyp=DFT_04
+
Basisdaten
Anzahl
87
DateigrößeEinheit=Byte
12619870
Inhalt
ANT_01, ERT_DB2, ALT_03
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_05
+
Basisdaten
Anzahl
449
Schutzbedürftige_Daten
Nicht vorhanden
Relation_zu_SE-Aufnahmen
Vollständig
+
AnnotationenTyp=ANT_01
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
Wortlaut in neuer Orthographie ; Satzzeichen nach Standard-Interpunktion ; zusätzliche
Notationen ; Lemmatisierung ; POS-Tagging
Konventionen
Projektspezifisch
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Ersterstellung
Projekt
Sprachalltag II
Instrumente
EXMARaLDA Partitur-Editor
+
Ergebnisse_UmfangDefinition_Einheiten=Wort(segment/verschleifung)
Types:
504976
Tokens:
803688
+
ErstellungTyp=ERT_DB1
Spezifikation
Konvertierung der ERT_01-Fassung
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
Java/python/xslt ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
504976
Tokens:
803688
Anmerkungen
Manuelle Nachkorrektur von Verweisen ins Ruoff-Glossar.
+
AlignmentTyp=ALT_01
Spezifikation
Manuell segmentweise
+
HerstellungErstellung_Typ=ERT_01
Anzahl:
449
Projekt:
Sprachalltag II
Verfahren_Instrumente:
EXMARaLDA Partitur-Editor
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
449
DateigrößeEinheit=Byte
71527147
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Transkriptionskonventionen
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
12078
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Transkription niederdeutscher Aufnahmen
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Wilfried Schütte
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
706482
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Themenliste
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
339525
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Liste der sprachlichen Besonderheiten
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
8169
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Wortlisten
+
Basisdaten
Anzahl
2
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
5398042
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Lemmalisten
+
Basisdaten
Anzahl
2
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
4461521
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Liste der Berufe der Sprecher
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
263049
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Notizen für interne Zwecke
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
72593
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Nicht vorhanden
+
ZugänglichkeitArt=Nicht vorhanden
Kontakt
Nicht vorhanden
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
Nicht vorhanden
-
Dokumentationsgeschichte
UpdateDatum=2022-01-19
Anmerkungen
In dem 1992 publizierten Gesamtkatalog der Tonaufnahmen des Deutschen Spracharchivs
gibt es für zahlreiche ZW-Ereignisse jeweils zwei bzw. drei Einträge. Für die DGD
wurden diese Einträge in jeweils einem Dokument zusammengefasst. Im DSAv-Katalog sind
15 ZW-Aufnahmen mit Sperrvermerken verzeichnet. Diese Materialien wurden in der DGD
nicht berücksichtigt. Die Text-Ton-Synchronisation (Alignment) ist in einigen Fällen
defizitär. Die Ortsangaben in Ereignis- und Sprecherdokumenten wurden im Laufe der
Jahre 2016 und 2017 überprüft und an die aktuellen Verwaltungsgliederungen der verzeichneten
Länder angepasst.