-
Versionen
VersionDatum=19-12-2012ID=2.0
Erstes Release mit Transkripten im FLN-Format
VersionDatum=01-03-2014ID=2.2
Sprecherdokumentationen hinzugefügt
Namelang=de
Grundstrukturen: Freiburger Korpus
Namelang=en
Basic Structures: Freiburg Corpus
Sonstige_Bezeichnungen
FR
Korpus_Projekt_Kurzbeschreibunglang=de
Das Korpus Grundstrukturen: Freiburger Korpus (FR--) wurde in der ehemaligen Forschungsstelle
Freiburg des IDS erstellt. Projektleiter war Hugo Steger. Im Rahmen des Projektes
„Grundstrukturen der deutschen Sprache“ hatte die Forschungsstelle Freiburg die Aufgabe,
grammatische und stilistische Besonderheiten der gesprochenen Standardsprache zu beschreiben,
um neue linguistische Grundlagen für den Unterricht von Deutsch als Fremdsprache zu
gewinnen ähnlich wie im „Grunddeutsch-Projekt“ des Institute for Basic German (s.
Pfeffer-Korpus PF--), bei dem indes Untersuchungen zum Wortbestand im Vordergrund
standen. Die Projektmitarbeiter betrachteten die bereits existierenden linguistischen
Korpus-Sammlungen auf dialektaler (Zwirner-Korpus ZW--) oder umgangssprachlicher Basis
(Pfeffer-Korpus PF--) wegen ihrer Beschränkung auf einen einzigen, initiierten Kommunikationstyp
als für ihre Untersuchungen nicht geeignet. Daher haben sie für diesen Zweck zwischen
1966 und 1974 ein eigenes umfangreiches Tonarchiv von über 800 Aufnahmen angelegt
(Eigenaufnahmen der Forschungsstelle, Mitschnitte von Fernseh- und Hörfunksendungen,
z.T. auch ältere Aufnahmen aus den Archiven der Rundfunkanstalten sowie von Kooperationspartnern
zur Verfügung gestelltes Material) und Transkripte im Umfang von ca. 500.000 Wörtern
erstellt. Anhand dieser Materialien wurden die grammatischen und stilistischen Analysen
der Besonderheiten gesprochener Sprache durchgeführt, die unter anderem auch Aussagen
über einen Zusammenhang zwischen redekonstellativen Bedingungen und dem Einsatz spezifischer
Ausdrucksmittel ermöglichen sollten. Bearbeitet wurden die Bereiche Konjunktiv und
Modus, Passiv, futurische und präsentische Tempora, Vergangenheitstempora, Morphologie
und Wortumfang. Weitere Projektinformationen sind veröffentlicht in: Gesprochene Sprache.
Bericht der Forschungsstelle Freiburg (Forschungsberichte des Instituts für deutsche
Sprache 7) 2. Auflage, 1975. Tübingen: Narr. Das Korpus FR-- umfasst 222 transkribierte
Tonaufnahmen aus der Zeit von 1955 bis 1974 mit einer Gesamtdauer von 68 Stunden und
6 Minuten. Es handelt sich um Aufnahmen mit 812 Sprechern (Frauen und Männer) der
Standardsprache bzw. standardnahen Umgangssprache in öffentlicher und nicht öffentlicher
Kommunikation. Aufgezeichnet wurden Sprechereignisse unterschiedlicher Art (u.a. Beratung,
Bericht, Besprechung, Diskussion, Erklärung, Erzählung, Interview, Predigt, Pressekonferenz,
Reportage, Unterhaltung, Vortrag), die z.T. im Rahmen von Rundfunksendungen stattfanden.
Drei Aufnahmen wurden aus dem Pfeffer-Korpus übernommen und neu transkribiert. Die
Aufnahmen wurden im Archiv für Gesprochenes Deutsch (AGD) (früher: Deutsches Spracharchiv)
digitalisiert. 221 digitale Transkripte (Wortlaut orthographisch, zusätzliche Notationen,
z.T. Intonationsnotationen, Lemmatisierung, POS-Tagging) sind archiviert. Sie wurden
im AGD mit dem Ton synchronisiert (aligniert). Anhand der Metadaten wurden eine Themenliste
und eine Liste der Berufe der Sprecher erstellt. Außerdem gibt es alphabetisch und
nach Frequenzen geordnete Wort- und Lemmalisten. Das Korpus FR-- wird in der Datenbank
für Gesprochenes Deutsch (DGD) bereitgestellt, einzelne Tonaufnahmen können auch im
persönlichen Service des AGD weitergegeben werden.
Korpus_Projekt_Kurzbeschreibunglang=en
The corpus "Basic Structures: Freiburg Corpus" (FR--) was created by the former Freiburg-based
Research Unit of the IDS.
The project's leader was Hugo Steger. Within the framework of the project "Basic Structures
of the German Language", the Freiburg Research Unit had the task of describing grammatical
and stylistic features of the spoken standard language in order to lay new linguistic
foundations for the teaching of German as a foreign language, similar to the "Grunddeutsch-Projekt"
(Basic German Project) of the Institute for Basic German (see Pfeffer-Korpus PF--),
which, however, focused on studies of the word inventory.
The FR-- project team considered the already existing linguistic corpus collections
on a dialectal (Zwirner-Corpus ZW--) or colloquial basis (Pfeffer-Corpus PF--) as
unsuitable for their investigations because of their limitation to a single, elicited
type of communication. Therefore, between 1966 and 1974, the project created its own
extensive sound archive of more than 800 recordings for this purpose (consisting of
the research center's own recordings, recordings of television and radio broadcasts,
in part also of older recordings from the archives of broadcasting companies as well
as material provided by cooperation partners) and produced transcripts amounting to
approximately 500,000 words.
These materials were used to carry out grammatical and stylistic analyses of the peculiarities
of spoken language, which, among other things, were also intended to enable statements
about the connection between speech constellations and the use of specific means of
expression. The areas of subjunctive and mood, passive, future and present tenses,
past tenses, morphology and word length were studied. Further project information
is published in: Gesprochene Sprache. Bericht der Forschungsstelle Freiburg [Spoken
Language. Report of the Freiburg Research Centre] (Forschungsberichte des Instituts
für deutsche Sprache 7) 2. Auflage, 1975, Tübingen: Narr.
The FR-- corpus comprises 222 sound transcribed recordings from the period 1955 to
1974 with a total duration of 68 hours and 6 minutes. These are recordings with 812
speakers (women and men) of the standard language or of colloquial language close
to the standard in public and non-public communication.
Speech events of various kinds were recorded, among them consultations, reports, meetings,
discussions, explanations, narrations, interviews, sermons, press conferences, conversations,
lectures). Some of these took place in the context of radio broadcasts. Three recordings
were taken from the Pfeffer corpus and re-transcribed.
The recordings were digitized at the Archive for Spoken German (AGD) (formerly: Deutsches
Spracharchiv). 221 digital transcripts (with orthographic wording, additional notations,
partly intonation notations, lemmatization, POS tagging) are held by the AGD.
The transcripts were also synchronized (aligned) with the audio in the AGD. Based
on the metadata, a list of topics and a list of the speaker's professions were created.
Also available are also word and lemma lists ordered alphabetically and by frequency.
The corpus FR-- is available online via the Database for Spoken German (DGD).
Individual sound recordings can also be obtained for download or on physical media
through the personal service of the AGD.
Deskriptoren
gesprochene deutsche Sprache ; Standardsprache ; Umgangssprache ; Grundstruktur ;
Tonaufnahme ; Transkript ; Themenliste ; Liste der Berufe der Sprecher ; Wortliste
; Lemmaliste
-
ErstellungsprojektTitel=Grundstrukturen der deutschen Sprache
Ort
Freiburg
Institut
IDS, Forschungsstelle Freiburg
Typ
Eigenprojekt
Leiter
Hugo Steger
Auskunft
Nicht vorhanden
Laufzeit
1960-1974
Zentrale_Publikationen
Gesprochene Sprache. Bericht der Forschungsstelle Freiburg (Forschungsberichte des
Instituts für deutsche Sprache 7) 2. Auflage, 1975. Tübingen: Narr
-
Aufzeichnungsobjekte
+
Ereignisse_Basisdaten
Anzahl
222
Beschreibung
vgl. Ereignisdokumente
Länder_Regionen_Orte
Deutschland ; Österreich
Institutionen
Arztpraxis ; Gemeinderat ; Hochschule ; Institut für Deutsche Sprache ; Kirche ; Krankenkasse
; Rechtsamt ; Redaktion ; Reisebüro ; Rundfunkanstalt ; Teppichgeschäft
Räumlichkeiten
Nicht dokumentiert
Zeit
1960-1974
Rundfunksendungen
149 Rundfunksendungen
+
Sprechereignisse
+
Basisdaten
Anzahl
222
Arten
Ansage ; Beratung ; Bericht ; Besprechung ; Debatte ; Diskussion ; Erklärung ; Erzählung
; Interview ; Lektion ; Predigt ; Pressekonferenz ; Rede ; Reportage ; Spiel ; Unterhaltung
; Vortrag
Forscherbeteiligung
Nicht dokumentiert
Elizitiertheit
Elizitiert ; Nicht elizitiert
Mediale_Realisierung
Face-to-face ; Telefon ; Rundfunk
Öffentlichkeitsgrad
Öffentlich ; Nicht öffentlich
Vorgaben
Nicht dokumentiert
Sprachen
Deutsch
+
Inhalte
Beschreibung
Nicht dokumentiert
Themen
vgl. Zusatzmaterial - Themenliste
+
Sprecher
Anzahl
812
Beschreibung
Sprecher der Standardsprache bzw. standardnahen Sprache
Anmerkungen
Es gibt detaillierten Sprecherdaten.
-
Korpusbestandteile
+
QuellaufnahmenTyp=Audio
+
Basisdaten
Anzahl
222
Relation_zu_Ereignissen
Vollständig ; Nicht dokumentiert
Herkunft
Projekt "Grundstrukturen der deutschen Sprache" ; Rundfunk ; andere Institutionen
+
Aufnahmetechnik
Aufnahmegeräte
Nicht dokumentiert
Mikrofone
Nicht dokumentiert
AufnahmegeschwindigkeitEinheit=cm/s
Nicht dokumentiert
+
DistributionStelle=Nicht vorhanden
+
ZugänglichkeitArt=Nicht vorhanden
Kontakt
Nicht vorhanden
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
Nicht vorhanden
+
SE-AufnahmenTyp=Audio
+
Basisdaten
Anzahl
222
+
Dauer
Einzelne_Aufnahmen
37 Sekunden bis 1 Stunde, 53 Minuten
Gesamtdauer
68 Stunden, 6 Minuten
Schutzbedürftige_Daten
Personennamen und ggf. Namen von Organisationen in 42 Aufnahmen
Relation_zu_Quellaufnahmen
Vollständig
Relation_zu_Sprechereignissen
Vollständig ; Unvollständig ; Nicht dokumentiert
+
Transkribierte_SE-Aufnahmen
Anzahl
222
SE-Arten
Ansage ; Beratung ; Bericht ; Besprechung ; Debatte ; Diskussion ; Erklärung ; Erzählung
; Interview ; Lektion ; Predigt ; Pressekonferenz ; Rede ; Reportage ; Spiel ; Unterhaltung
; Vortrag
Dauer
Ca. 66 Stunden
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
180
DateigrößeEinheit=Byte
39353759396
Datenschutz
Nicht vorhanden
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
1536
Datenrate_Modus
konstant
+
Digitale_FassungenTyp=DFT_02
+
Basisdaten
Anzahl
42
DateigrößeEinheit=Byte
7719968790
Datenschutz
Schutzbedürftige Daten anonymisiert
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
1536
Datenrate_Modus
konstant
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Anhören von Aufnahmeausschnitten in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Erwerb von 74 Aufnahmen im Rahmen des AGD-Service
Kontakt
agd@ids-mannheim.de
Kosten
Gemäß Preisliste
Kosten_URL
http://agd.ids-mannheim.de/konditionen.shtml
Zugang_URL
Nicht vorhanden
+
TranskripteTyp=TT_01
+
Basisdaten
Anzahl
89
Schutzbedürftige_Daten
Personennamen in einzelnen Transkripten
Relation_zu_SE-Aufnahmen
Vollständige Transkripte ; unvollständige Transkripte
+
AnnotationenTyp=ANT_01
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
Wortlaut orthographisch ; zusätzliche Notationen ; inkl. Intonationsnotationen ; Lemmatisierung
; POS-Tagging
Konventionen
Projektspezifisch
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Erste Fassungen
Projekt
Grundstrukturen der deutschen Sprache
Instrumente
Nicht dokumentiert
+
Ergebnisse_UmfangDefinition_Einheiten=Wort(segment)
Types:
Nicht dokumentiert
Tokens:
Nicht dokumentiert
+
ErstellungTyp=ERT_02
Spezifikation
Überarbeitung der für COSMAS I erstellten Fassung für DGD1
Projekt
Datenbank Gesprochenes Deutsch
Instrumente
Nicht dokumentiert
+
Ergebnisse_UmfangDefinition_Einheiten=Wort(segment)
Types:
Nicht dokumentiert
Tokens:
Nicht dokumentiert
+
ErstellungTyp=ERT_DB1
Spezifikation
Konvertierung der HTML-Fassung der DGD1
Projekt
Datenbank für Gesprochenes Deutsch
Instrumente
Java ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
20399
Tokens:
203279
+
AlignmentTyp=ALT_01
Spezifikation
Wortweise
+
HerstellungErstellung_Typ=ERT_02
Anzahl:
89
Projekt:
Datenbank Gesprochenes Deutsch
Verfahren_Instrumente:
Nicht dokumentiert
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
76
DateigrößeEinheit=Byte
32468253
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
Digitale_FassungenTyp=DFT_02
+
Basisdaten
Anzahl
13
DateigrößeEinheit=Byte
7550692
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Schutzbedürftige Daten maskiert
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_02
+
Basisdaten
Anzahl
132
Schutzbedürftige_Daten
Nicht vorhanden
Relation_zu_SE-Aufnahmen
Nicht dokumentiert
+
AnnotationenTyp=ANT_02
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
Wortlaut orthographisch ; zusätzliche Notationen ; ohne Intonationsnotationen ; Lemmatisierung
; POS-Tagging
Konventionen
Projektspezifisch
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Erste Fassungen
Projekt
Grundstrukturen der deutschen Sprache
Instrumente
Nicht dokumentiert
+
Ergebnisse_UmfangDefinition_Einheiten=Wort(segment)
Types:
Nicht dokumentiert
Tokens:
Nicht dokumentiert
+
ErstellungTyp=ERT_02
Spezifikation
Überarbeitung der für COSMAS I erstellten Fassung für DGD1
Projekt
Datenbank Gesprochenes Deutsch
Instrumente
Nicht dokumentiert
+
Ergebnisse_UmfangDefinition_Einheiten=Wort(segment)
Types:
Nicht dokumentiert
Tokens:
Nicht dokumentiert
+
ErstellungTyp=ERT_DB1
Spezifikation
Konvertierung der HTML-Fassung der DGD1
Projekt
Datenbank für Gesprochenes Deutsch
Instrumente
Java ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
31139
Tokens:
389919
+
AlignmentTyp=ALT_01
Spezifikation
Wortweise
+
HerstellungErstellung_Typ=ERT_02
Anzahl:
131
Projekt:
Datenbank Gesprochenes Deutsch
Verfahren_Instrumente:
Nicht dokumentiert
+
AlignmentTyp=ALT_02
Spezifikation
Pseudoalignment
+
HerstellungErstellung_Typ=ERT_DB1
Anzahl:
1
Projekt:
Datenbank für Gesprochenes Deutsch
Verfahren_Instrumente:
Java
+
Digitale_FassungenTyp=DFT_03
+
Basisdaten
Anzahl
103
DateigrößeEinheit=Byte
61379850
Inhalt
ANT_02, ERT_DB1, ALT_01
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
Digitale_FassungenTyp=DFT_04
+
Basisdaten
Anzahl
28
DateigrößeEinheit=Byte
12594656
Inhalt
ANT_02, ERT_DB1, ALT_01
Datenschutz
Schutzbedürftige Daten maskiert
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
Digitale_FassungenTyp=DFT_05
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
838701
Inhalt
ANT_02, ERT_DB1, ALT_02
Datenschutz
Schutzbedürftige Daten maskiert
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Transkriptionskonventionen
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Nicht dokumentiert
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
19114
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Themenliste
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
40998
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Wortlisten
+
Basisdaten
Anzahl
2
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
2133955
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Lemmalisten
+
Basisdaten
Anzahl
2
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
1584371
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Liste der Berufe der Sprecher
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Sylvia Dickgießer
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
72366
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
-
Dokumentationsgeschichte
UpdateDatum=2017-06-22
Anmerkungen
Die Text-Ton-Synchronisation (Alignment) ist in einigen Fällen defizitär. Von einem
Transkript (FR--_E_00028_SE_01_T_01) gibt es nur eine gedruckte Fassung in: Texte
gesprochener deutscher Standardsprache III. Erarbeitet im Institut für deutsche Sprache,
Forschungsstelle Freiburg im Breisgau. 1975. Heutiges Deutsch, Reihe II, Bd. 3, S.
150-157. München: Hueber