-
Versionen
VersionDatum=24-11-2017ID=2.9
Erste in der DGD publizierte Version mit allen deutschsprachigen (L1- und L2-) Daten,
ohne projektspezifische Annotationen
VersionDatum=30-11-2018ID=2.11
Transkripte stellenweise überarbeitet, neue Daten aus Finland (FinGer-Korpus)
VersionDatum=31-01-2020ID=2.13
Videos zu den Daten aus Finnland hinzugefügt, 9 doppelt vorhandene Ereignisse (37-39,
43-46, 48, 49) und zugehörige Sprecher entfernt, Präzisierung der Sprache in Sprechereignissen
(L1 vs. L2)
Namelang=de
Gesprochene Wissenschaftssprache Kontrastiv
Namelang=en
Spoken Academic Language
Sonstige_Bezeichnungen
GeWiss
Korpus_Projekt_Kurzbeschreibunglang=de
GeWiss ist ein Projekt zur Erforschung der gesprochenen Wissenschaftssprache.
Es verfolgt das Ziel, eine empirische Grundlage für vergleichende Untersuchungen in
diesem Bereich zu schaffen.
Zu diesem Zweck wurde ein Korpus erstellt, das zwei zentrale Genres der gesprochenen
Wissenschaftssprache erfasst: Vortrag (einschließlich Diskussion) sowie Prüfungsgespräch.
Das Korpus wird fortlaufend ausgebaut und weiterentwickelt.
Auf der Basis dieser Daten werden sprachliche Routinen im Zusammenhang mit zentralen
sprachlichen Handlungen der mündlichen Wissenschaftskommunikation qualitativ und kontrastiv
analysiert.
Korpus_Projekt_Kurzbeschreibunglang=en
GeWiss is a research project in spoken academic language. It provides a multilingual
(German/English/Polish/Italian) corpus of audio recordings and transcriptions of academic
communications, as an empirical foundation for comparative research.
To this end, the GeWiss corpus focusses on two main genres of spoken adademic language:
talks including discussions, and oral exams,
and it explicitly distinguishes between L1 and L2 subcorpora. The corpus is enlarged
and developed continuously.
Deskriptoren
gesprochene deutsche Sprache ; Wissenschaftssprache ; institutionelle Interaktion
; Tonaufnahme ; Videoaufnahme ; Transkript ; Wortliste ; Lemmaliste
-
ErstellungsprojektTitel=Gesprochene Wissenschaftssprache Kontrastiv
Ort
Leipzig ; Birmingham ; Wrocław
Institut
Universität Leipzig : Herder-Institut ; Aston University Birmingham : Department of
German Studies, Department of English Studies ; Universität Wrocław : Institut für
Germanistik, Institut für Polonistik
Typ
Drittmittelprojekt ; gefördert von der VW-Stiftung
Leiter
Christian Fandrych ; Gertrud Reershemius ; Lesław Cirko
Auskunft
gewiss-korpus@uni-leipzig.de
Laufzeit
2009 - 2013
Zentrale_Publikationen
Fandrych, Christian / Meißner, Cordula / Slavcheva, Adriana (2012): The GeWiss corpus:
Comparing spoken academic German, English and Polish.
In: Schmidt, Thomas / Wörner, Kai (eds.): Multilingual Corpora and Multilingual Corpus
Analysis. Hamburg Studies in Multilingualism 14. Amsterdam: John Benjamins, S. 319-338.
Lange, Daisy / Slavcheva, Adriana / Rogozinska, Marta / Morton, Ralph. (2014): GAT2
als Transkriptionskonvention für multilinguale Sprachdaten? Zur Adaption des Notationssystems
im Rahmen des Projekts GeWiss.
In: Fandrych, Christian/Meißner, Cordula/Slavcheva, Adriana (Hgg.): Gesprochene Wissenschaftssprache:
Korpusmethodische Fragen und empirische Analysen. Heidelberg: Synchron-Verlag, 39-55.
-
ErstellungsprojektTitel=CLARIN-D Kurationsprojekt GeWiss
Ort
Leipzig ; Hamburg ; Mannheim
Institut
Universität Leipzig : Herder-Institut, Institut für Informatik, Abt. Automatische
Sprachverarbeitung ; Universität Hamburg : Hamburger Zentrum für Sprachkorpora ; Institut
für Deutsche Sprache Mannheim : Programmbereich Forschungsinfrastrukturen
Typ
Drittmittelprojekt ; gefördert vom Bundesministerium für Bildung und Forschung
Leiter
Christian Fandrych
Auskunft
gewiss-korpus@uni-leipzig.de
Laufzeit
2013 - 2014
Zentrale_Publikationen
Cordula Meißner, Daniel Jettka & Christian Fandrych: CLARIN-KP-GeWiss: Das zweite
Kurationsprojekt der F-AG 1 „Deutsche Philologie“. In: CLARIN-D-Newsletter, Nummer
4, Mai 2013.
Anmerkungen
Im April 2013 wurde GeWiss zum Kurationsprojekt der Facharbeitsgruppe 1: Deutsche
Philologie innerhalb der CLARIN-D-Initiative.
Ziel des Kurationsprojektes war es, die vorliegenden Ressourcen des GeWiss-Projektes
zu bündeln und in integrierter,
CLARIN-kompatibler Form der wissenschaftlichen Öffentlichkeit zugänglich zu machen.
Dazu wurden einerseits weitere bereits vorliegende Ressourcen in das GeWiss-Korpus
integriert und andererseits
die Nutzungsmöglichkeiten der Ressource weiterentwickelt und verbessert.
-
ErstellungsprojektTitel=Gesprochene Wissenschaftssprache Digital
Ort
Leipzig
Institut
Universität Leipzig : ESF-Nachwuchsgruppe "Wissensrohstoff Text"
Typ
Drittmittelprojekt ; gefördert aus Mitteln der Europäischen Union und des Freistaates
Sachsen
Leiter
Christian Fandrych
Laufzeit
2013 - 2015
Zentrale_Publikationen
Fandrych, Christian/Meißner, Cordula/Wallner, Franziska (Hrsg.) (2017): Gesprochene
Wissenschaftssprache – digital. Verfahren zur Annotation und Analyse mündlicher Korpora.
Tübingen: Stauffenburg.
Anmerkungen
Am 1. Juli 2013 begann das GeWiss-Folgeprojekt: „Gesprochene Wissenschaftssprache
digital“. Es ist Teilprojekt der ESF-Nachwuchsgruppe „Wissensrohstoff Text“, einer
Forschergruppe im Bereich der Digital Humanities an der Universität Leipzig.
Ziel des Projektes ist es, das GeWiss-Korpus hinsichtlich seiner Nutzungsmöglichkeiten
zu verbessern und weitere methodische Möglichkeiten zur Auswertung und Analyse zu
erproben. Die Teilziele, die hierzu erreicht werden sollen, umfassen
(a) die orthographische Normalisierung sowie die exemplarische Annotation von Wortarten
(POS-Tagging) in einem Teilkorpus,
(b) die Identifikation „guter Kandidaten“ zur automatischen Korpusrecherche von Metakommentierungen
in nicht-annotierten Korpora und
(c) den Aufbau einer Typologie zu Zitation, Verweisung und Bezugnahme sowie deren
exemplarische Annotation.
-
ErstellungsprojektTitel=FinGer – German as a vehicular language in academic and business contexts in Finland
Ort
Jyväskylä
Institut
University of Jyväskylä
Typ
Eigenprojekt
Leiter
Sabine Ylönen
Laufzeit
2007 -
Zentrale_Publikationen
Ylönen, Sabine (im Druck): Oral discourse in scientific research. In: Budin, Gerhard;
Christer Laurén & John Humbley (Hrsg). Language for Special Purposes. An International
Handbook. Berlin - New York: Walter de Gruyter.
Anmerkungen
The aim of this project is to explore the role of German as a vehicular language in
Finland in a radically transforming European context.
Special focus is on oral communicative practices in academic and business environments.
The key objectives are:
1) To explore the attitudes towards multilingual higher education, science and business
contexts and the role of German as a vehicular language,
2) To collect empirical evidence of the role and diversity of academic and business
discourse in German,
3) To provide empirically verified insights into the variety of oral academic and
business discourse practices in different countries, disciplines and genres, and
4) To promote multilingualism, new political solutions and pedagogical strategies
for effective and motivating language training.
The measures to achieve these objectives are off-site data collection (surveys) and
on-site data collection (corpus compilation), their analysis and comparison of results.
The aim of the corpus project is to collect empirical evidence of the role of German
in comparison to Finnish.
For this purpose, a corpus on oral academic discourse will be compiled. So far, data
have been collected for oral academic German.
-
Aufzeichnungsobjekte
+
Ereignisse_Basisdaten
Anzahl
257
Beschreibung
Universitäres Prüfungsgespräch ; Expertenvortrag ; Studentischer Vortrag
Länder_Regionen_Orte
Deutschland ; Polen ; Vereinigtes Königreich Großbritannien und Nordirland ; Finnland
Institutionen
Universität
Räumlichkeiten
Büros und Veranstaltungsräume an der Universität
Zeit
2009-2012
Rundfunksendungen
0
+
Sprechereignisse
+
Basisdaten
Anzahl
276
Arten
Prüfungsgespräch ; Expertenvortrag ; studentischer Vortrag
Forscherbeteiligung
Nicht vorhanden ; Verbal beteiligt ; Nicht verbal beteiligt
Elizitiertheit
Nicht elizitiert
Mediale_Realisierung
Face-to-Face
Öffentlichkeitsgrad
Öffentlich ; Nicht öffentlich
Vorgaben
vgl. Ereignisdokumentationen
Sprachen
Deutsch ; Englisch ; Bulgarisch
+
Inhalte
Beschreibung
vgl. Ereignisdokumentationen
Themen
vgl. Ereignisdokumentationen
+
Sprecher
Anzahl
480
Beschreibung
Studierende, Dozent(inn)en und wissenchaftliche Mitarbeiter(innen) an den jeweiligen
Universitäten
-
Korpusbestandteile
+
SE-AufnahmenTyp=Audio
+
Basisdaten
Anzahl
276
+
Dauer
Einzelne_Aufnahmen
2 Minuten, 22 Sekunden bis 1 Stunde, 15 Minuten
Gesamtdauer
92 Stunden, 4 Minuten
Schutzbedürftige_Daten
z.T. Personenbezogenen Daten ; evtl. weitere Daten (Ortsnamen, Namen von Institutionen
bzw. Organisationen)
Relation_zu_Quellaufnahmen
Nicht dokumentiert
Relation_zu_Sprechereignissen
Vollständig
+
Transkribierte_SE-Aufnahmen
Anzahl
276
SE-Arten
Prüfungsgespräch ; Expertenvortrag ; studentischer Vortrag
Dauer
92 Stunden, 4 Minuten
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
276
DateigrößeEinheit=Byte
58869738016
Datenschutz
Schutzbedürftige Daten anonymisiert
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
1536
Datenrate_Modus
konstant
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Anhören von Aufnahmeausschnitten in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
SE-AufnahmenTyp=Video
+
Basisdaten
Anzahl
34
+
Dauer
Einzelne_Aufnahmen
3 Minuten, 11 Sekunden bis 11 Minuten, 36 Sekunden
Gesamtdauer
4 Stunden, 34 Minuten
Schutzbedürftige_Daten
z.T. Personenbezogenen Daten ; evtl. weitere Daten (Ortsnamen, Namen von Institutionen
bzw. Organisationen)
Relation_zu_Quellaufnahmen
Nicht dokumentiert
Relation_zu_Sprechereignissen
Vollständig
+
Transkribierte_SE-Aufnahmen
Anzahl
34
SE-Arten
Prüfungsgespräch ; Expertenvortrag ; studentischer Vortrag
Dauer
4 Stunden, 34 Minuten
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
34
DateigrößeEinheit=Byte
58869738016
Datenschutz
Schutzbedürftige Daten anonymisiert
+
Technische_Daten_AV
Format
MPEG-4
Formatprofil
JVT
Gesamtdatenrate_Audio_VideoEinheit=kBit/s
9397
Gesamtdatenrate_Modus
Konstant
+
Tontechnische_Daten
Format
AAC
Formatprofil
LC
Codec
Advanced Audio Codec
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
384
Datenrate_Modus
Konstant
+
Videotechnische_Daten
Format
AVC
Formatprofil
High@L4.0
Codec
Advanced Video Codec
DatenrateEinheit=kBit/s
9000
Datenrate_Modus
Konstant
+
BildgrößeEinheit=Pixel
Bildseitenverhältnis
16:9
BildwiederholungsrateEinheit=FPS
25
Bildwiederholungsrate_Modus
Konstant
Colorspace
YUV
ChromaSubsampling
4:2:0
Scantyp
Progressiv
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Anhören von Aufnahmeausschnitten in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_01
+
Basisdaten
Anzahl
276
Schutzbedürftige_Daten
z.T. personenbezogene Daten ; evtl. weitere Daten (Ortsnamen, Namen von Institutionen
bzw. Organisationen)
Relation_zu_SE-Aufnahmen
Vollständige Transkripte
+
AnnotationenTyp=ANT_01
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
cGat-Minimaltranskript (literarisch) ; orthographische Normalisierung ; Lemmatisierung
; POS-Tagging
Konventionen
cGat
Zeicheninventar
Deutsches Alphabet
Anmerkungen
Orthographische Normalisierung teilweise manuell überprüft und korrigiert, teilweise
nur automatisch erstellt
+
ErstellungTyp=ERT_01
Spezifikation
EXMARaLDA Basistranskripte
Projekt
Gesprochene Wissenschaftssprache
Instrumente
EXMARaLDA Partitur-Editor
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
41542
Tokens:
743402
Anmerkungen:
Ersttranskription im GeWiss-Projekt mit EXMARaLDA
+
ErstellungTyp=ERT_DB1
Spezifikation
Konvertierung von ERT_01
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
OrthoNormal ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
41542
Tokens:
743402
+
AlignmentTyp=ALT_01
Spezifikation
Manuell segmentweise
+
HerstellungErstellung_Typ=ERT_01
Anzahl:
276
Projekt:
Gesprochene Wissenschaftssprache
Verfahren_Instrumente:
EXMARaLDA Partitur-Editor
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
276
DateigrößeEinheit=Byte
104718517
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Schutzbedürftige Daten maskiert
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Transkriptionskonventionen
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt, Wilfried Schütte, Jenny Winterscheid
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
756547
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Wortlisten
+
Basisdaten
Anzahl
2
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
3224601
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Lemmalisten
+
Basisdaten
Anzahl
2
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Thomas Schmidt
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
2273928
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Dokumentation GB Subcorpus
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Nicht dokumentiert
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
152680
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Korpushandbuch
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Karen Gräfe, Daisy Lange, Magda Sieradz, Cordula Meißner, Adriana
Slavcheva, David Stoppel
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
1702358
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
-
Dokumentationsgeschichte