-
Versionen
VersionDatum=19-12-2012ID=2.0
Erstes Release mit Transkripten im FLN-Format
VersionDatum=11-09-2013ID=2.1
Sprecherdokumentationen hinzugefügt, Pseudoalignment durch echtes Alignment auf Wortebene
ersetzt
Namelang=de
Dialogstrukturen
Namelang=en
Dialog Structures
Sonstige_Bezeichnungen
DS
Korpus_Projekt_Kurzbeschreibunglang=de
Das Korpus Dialogstrukturen (DS--) wurde in einem Verbundprojekt unter Beteiligung
folgender Einrichtungen erstellt: IDS-Forschungsstelle Freiburg; Universität Freiburg,
Deutsches Seminar; Universität Gießen, Lehrstuhl für Psychologie. Projektleiter war
Hugo Steger. Das Projekt führte Fragestellungen der Gesprochenen-Sprache-Forschung
fort, wie sie sich z.B. aus Arbeiten des Projekts Grundstrukturen der deutschen Sprache
ergeben hatten, aus dem das Korpus Grundstrukturen: Freiburger Korpus (FR--) hervorgegangen
ist. Durch die Analyse der Organisation natürlicher Dialoge sollten nun Regelhaftigkeiten
und Regeln der Gesprächsorganisation für einzelne Dialoge und verallgemeinernd für
Dialogtypen beschrieben werden. Versuchsweise sollte auch geklärt werden, zu welchen
Anteilen und mit welchen Funktionen nonverbale Verhaltenselemente in der Kommunikation
eingesetzt werden. Weitere Projektinformationen sind veröffentlicht in: Franz-Josef
Berens, Karl-Heinz Jäger, Gerd Schank, Johannes Schwitalla (1976): Projekt Dialogstrukturen.
Ein Arbeitsbericht. Heutiges Deutsch I/12. München: Hueber. Das Korpus DS-- umfasst
72 transkribierte Aufnahmen, davon sind 70 Tonaufnahmen aus der Zeit von 1960 bis
1977 mit einer Gesamtdauer von 15 Stunden und 18 Minuten aus unterschiedlichen Quellen
extern zugänglich. 27 Aufnahmen wurden aus dem Korpus Grundstrukturen: Freiburger
Korpus (FR--) übernommen und nach projektspezifischen Konventionen neu transkribiert,
11 weitere Aufnahmen entstammen ebenfalls dem für das Korpus FR-- angelegten Bestand
und wurden für das Korpus DS-- erstmals transkribiert. Für die übrigen 34 Aufnahmen
wurde 1974 bis 1977 ein zusätzlicher Bestand von Video-Aufnahmen angelegt (Mitschnitte
von Fernsehsendungen und Eigenaufnahmen der Projekt-Beteiligten), von diesem für das
Korpus DS-- aber nur die Tonspuren ausgewertet. Es handelt sich um Aufnahmen mit 152
Sprechern (Frauen und Männer) der Standardsprache bzw. standardnahen Umgangssprache
in öffentlicher und nicht öffentlicher Kommunikation. Aufgezeichnet wurden Sprechereignisse
unterschiedlicher Art (Anmeldung, Befragung, Beratung, Diskussion, Erklärung, Interview,
Prüfung, Unterhaltung, Verabredung), die z.T. im Rahmen von Rundfunksendungen stattfanden.
Die Aufnahmen wurden im Archiv für Gesprochenes Deutsch (AGD) (früher: Deutsches Spracharchiv)
digitalisiert. 70 digitale Transkripte (Wortlaut orthographisch, zusätzliche Notationen,
Lemmatisierung, POS-Tagging) sind archiviert. Sie wurden im AGD mit dem Ton synchronisiert
(aligniert). Anhand der Metadaten wurden eine Themenliste und eine Liste der Berufe
der Sprecher erstellt. Außerdem gibt es alphabetisch und nach Frequenzen geordnete
Wort- und Lemmalisten. Das Korpus DS-- wird in der Datenbank für Gesprochenes Deutsch
(DGD) bereitgestellt, einzelne Tonaufnahmen können auch im persönlichen Service des
AGD weitergegeben werden.
Korpus_Projekt_Kurzbeschreibunglang=en
The Dialogue Structures Corpus (DS--) was created within a joint project involving
the following institutions: IDS Research Center Freiburg; University of Freiburg,
German Seminar; University of Giessen, Department of Psychology. The project leader
was Hugo Steger.
The project continued on with questions of spoken language research, as they had arisen,
for example, in the work of the project "Basic Structures of the German Language",
from which the corpus "Grundstrukturen: Freiburger Korpus" ["Basic Structures: Freiburg
Corpus"] (FR--) had emerged.
By analyzing the organization of natural dialogues, regularities and rules of conversational
organization should now be described for individual dialogues and generalized for
dialogue types. On a trial basis, it should also be clarified to which proportions
and with which functions nonverbal behavioral elements are used in communication.
Further project information is published in: Franz-Josef Berens, Karl-Heinz Jäger,
Gerd Schank, Johannes Schwitalla (1976): Projekt Dialogstrukturen. A work report.
Heutiges Deutsch I/12. Munich: Hueber.
The corpus DS-- comprises 72 transcribed recordings. 70 of these are audio recordings
from the period 1960 to 1977 with a total duration of 15 hours and 18 minutes from
various sources. These 70 recordings are accessible externally.
27 recordings were taken from the corpus Basic Structures: Freiburg Corpus (FR--)
and newly transcribed according to project-specific conventions. A further 11 recordings
also originate from the inventory created for the corpus FR-- but were transcribed
for the first time for the corpus DS--. For the remaining 34 recordings, an additional
stock of video recordings was created from 1974 to 1977 (recordings of television
broadcasts and recordings by the project participants themselves). Of these recordings,
only the audio tracks were used for the corpus DS--.
The recordings in DS-- involve 152 speakers (women and men) of the standard language
or of colloquial language close to the standard in public and non-public communication.
The recordings cover speech events of various kinds (registration, questioning, consultation,
discussion, explanation, interview, examination, conversation, appointment). Some
of them took place in the context of radio broadcasts.
The recordings were digitized at the Archiv für Gesprochenes Deutsch (AGD) (formerly:
Deutsches Spracharchiv). 70 digital transcripts (with orthographic wording, additional
notation, lemmatization, POS tagging) are held by the Archiv. These transcripts were
synchronized (aligned) with the audio by the AGD. Based on the metadata, a list of
topics and a list of the speaker's professions were created. Also available word
and lemma lists ordered alphabetically and by frequency. The corpus DS-- is provided
online via the Database for Spoken German (DGD). Individual sound recordings can
also be obtained for download or on physical media through the personal service of
the AGD.
Deskriptoren
gesprochene deutsche Sprache ; Standardsprache ; Umgangssprache ; Dialogstruktur ;
Tonaufnahme ; Transkript ; Themenliste ; Liste der Berufe der Sprecher ; Wortliste
; Lemmaliste
-
ErstellungsprojektTitel=Dialogstrukturen
Ort
Freiburg ; Gießen
Institut
IDS-Forschungsstelle Freiburg ; Universität Freiburg, Deutsches Seminar ; Universität
Gießen, Lehrstuhl für Psychologie
Typ
Verbundprojekt
Leiter
Hugo Steger
Auskunft
Nicht vorhanden
Laufzeit
1974-1978
Zentrale_Publikationen
Franz-Josef Berens, Karl-Heinz Jäger, Gerd Schank, Johannes Schwitalla (1976): Projekt
Dialogstrukturen. Ein Arbeitsbericht. Heutiges Deutsch I/12. München: Hueber
-
Aufzeichnungsobjekte
+
Ereignisse_Basisdaten
Anzahl
70
Beschreibung
vgl. Ereignisdokumente
Länder_Regionen_Orte
Deutschland ; Österreich
Institutionen
Arztpraxis ; Fernsehen ; Hörfunk ; Hochschule ; Krankenkasse ; Nicht dokumentiert
Räumlichkeiten
Nicht dokumentiert
Zeit
1960-1977
Rundfunksendungen
38 Rundfunksendungen
+
Sprechereignisse
+
Basisdaten
Anzahl
70
Arten
Anmeldung ; Befragung ; Beratung ; Diskussion ; Erklärung ; Interview ; Prüfung ;
Unterhaltung ; Verabredung
Forscherbeteiligung
Nicht vorhanden ; Nicht dokumentiert
Elizitiertheit
Elizitiert ; Nicht elizitiert
Mediale_Realisierung
Face-to-face ; Rundfunk ; Telefon
Öffentlichkeitsgrad
Öffentlich ; Nicht öffentlich
Vorgaben
Nicht dokumentiert
Sprachen
Deutsch
+
Inhalte
Beschreibung
Nicht vorhanden
Themen
vgl. Zusatzmaterial - Themenliste
+
Sprecher
Anzahl
152
Beschreibung
Sprecher der Standardsprache bzw. standardnahen Sprache
-
Korpusbestandteile
+
QuellaufnahmenTyp=Audio
+
Basisdaten
Anzahl
70
Relation_zu_Ereignissen
Nicht dokumentiert
Herkunft
IDS-Forschungsstelle Freiburg ; Universität Gießen, Lehrstuhl für Psychologie ; Rundfunk
+
Aufnahmetechnik
Aufnahmegeräte
Nicht dokumentiert
Mikrofone
Nicht dokumentiert
AufnahmegeschwindigkeitEinheit=cm/s
Nicht dokumentiert
+
DistributionStelle=Nicht vorhanden
+
ZugänglichkeitArt=Nicht vorhanden
Kontakt
Nicht vorhanden
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
Nicht vorhanden
+
SE-AufnahmenTyp=Audio
+
Basisdaten
Anzahl
70
+
Dauer
Einzelne_Aufnahmen
1 Minute, 40 Sekunden bis 1 Stunde
Gesamtdauer
15 Stunden, 18 Minuten
Schutzbedürftige_Daten
Personennamen und Namen von Organisationen in einzelnen Aufnahmen
Relation_zu_Quellaufnahmen
Nicht dokumentiert
Relation_zu_Sprechereignissen
Vollständig ; Unvollständig
+
Transkribierte_SE-Aufnahmen
Anzahl
70
SE-Arten
Anmeldung ; Befragung ; Beratung ; Diskussion ; Erklärung ; Interview ; Prüfung ;
Unterhaltung ; Verabredung
Dauer
Ca. 15 Stunden
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
39
DateigrößeEinheit=Byte
4742159706
Datenschutz
Nicht vorhanden
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
1536
Datenrate_Modus
konstant
+
Digitale_FassungenTyp=DFT_02
+
Basisdaten
Anzahl
31
DateigrößeEinheit=Byte
5460186912
Datenschutz
Schutzbedürftige Daten anonymisiert
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
1536
Datenrate_Modus
konstant
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Anhören von Aufnahmeausschnitten in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Erwerb von 32 Aufnahmen im Rahmen des AGD-Service
Kontakt
agd@ids-mannheim.de
Kosten
Gemäß Preisliste
Kosten_URL
http://agd.ids-mannheim.de/konditionen.shtml
Zugang_URL
Nicht vorhanden
+
TranskripteTyp=TT_01
+
Basisdaten
Anzahl
70
Schutzbedürftige_Daten
Personennamen und Namen von Organisationen in einzelnen Transkripten
Relation_zu_SE-Aufnahmen
Vollständige Transkripte ; unvollständige Transkripte
+
AnnotationenTyp=ANT_01
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
Wortlaut orthographisch ; zusätzliche Notationen ; Lemmatisierung ; POS-Tagging
Konventionen
Projektspezifisch
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Erste Fassungen
Projekt
Dialogstrukturen
Instrumente
Nicht dokumentiert
+
Ergebnisse_UmfangDefinition_Einheiten=Wort(segment)
Types:
14709
Tokens:
162540
+
ErstellungTyp=ERT_02
Spezifikation
Überarbeitung der für COSMAS I erstellten Fassungen für DGD1
Projekt
Datenbank Gesprochenes Deutsch
Instrumente
Nicht dokumentiert
+
Ergebnisse_UmfangDefinition_Einheiten=Wort(segment)
Types:
14709
Tokens:
162540
+
ErstellungTyp=ERT_DB1
Spezifikation
Konvertierung der HTML-Fassung der DGD1
Projekt
Datenbank für Gesprochenes Deutsch
Instrumente
Java ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
13110
Tokens:
142673
+
AlignmentTyp=ALT_01
Spezifikation
Manuelles Alignment auf Beitragsebene ; Automatisches Alignment auf Wortebene
+
HerstellungErstellung_Typ=ERT_DB1
Anzahl:
70
Projekt:
Datenbank für Gesprochenes Deutsch
Verfahren_Instrumente:
FOLK Aligner ; WebMAUS
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
39
DateigrößeEinheit=Byte
14303016
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
Digitale_FassungenTyp=DFT_02
+
Basisdaten
Anzahl
31
DateigrößeEinheit=Byte
20347705
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Schutzbedürftige Daten maskiert
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Transkriptionskonventionen
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Nicht dokumentiert
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
82742
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Themenliste
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
37029
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Wortlisten
+
Basisdaten
Anzahl
2
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
649051
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Lemmalisten
+
Basisdaten
Anzahl
2
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
487271
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Liste der Berufe der Sprecher
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
58158
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
-
Dokumentationsgeschichte
UpdateDatum=2017-06-22
Anmerkungen
In der DGD1 sind zwei gesperrte Aufnahmen und deren Transkripte verzeichnet. Diese
Materialien wurden in der DGD2 nicht berücksichtigt. In den Ortsangaben der Sprecherdokumente
werden aktuelle und historische Bezeichnungen verwendet.