-
Versionen
VersionDatum=17-05-2021ID=2.16
Erstes Release in der DGD (vorher: HZSK)
Namelang=de
Hamburg Maptask Corpus (HaMaTaC)
Namelang=en
Hamburg Maptask Corpus (HaMaTaC)
Sonstige_Bezeichnungen
HaMaTaC ; http://hdl.handle.net/11022/0000-0000-6330-A ; https://doi.org/10.25592/uhhfdm.1481
Korpus_Projekt_Kurzbeschreibunglang=de
Das Hamburg Maptask Corpus wurde zwischen Oktober 2009 und September 2010 im Projekt
Z2 "Computergestützte Erfassungs- und Analysemethoden multilingualer Daten" am
SFB "Mehrsprachigkeit" an der Universität Hamburg erstellt. Im Juni 2013 wurde das
Korpus um zwei Aufnahmen mit Video erweitert. Hauptmotivation für die Erstellung des
Korpus war das Bereitstellen von Datensätzen zum Testen und Demonstrieren
der Funktionalitäten des EXMARaLDA-Systems, insbesondere mit Blick auf das Annotieren
und Teilen von Daten. Als Elizitations-Experiment für die Aufnahmen
wurden die Map Tasks aus dem "Deutsch Heute"-Korpus verwendet.
Die Map Tasks wurden mit 25 DeutschlernerInnen mit unterschiedlich fortgeschrittenen
Deutschkenntnissen und einer L1-Sprecherin duchgeführt. Die Erstsprachen der SprecherInnen
decken ein breites
Spektrum an Sprachen ab, das von romanischen Sprachen (Französisch, Galizisch, Spanisch)
über slawische Sprachen (Russisch, Polnisch, Bulgarisch) zu iranischen Sprachen (Farsi/Dari)
reicht und auch nicht-indoeuropäische Sprachen (Türkisch, Arabisch, Chinesisch, Japanisch,
Thai, Vietnamesisch) umfasst. Da die SprecherInnen über studentische Hilfskräfte
rekrutiert wurden, sind sie größtenteils zwischen 17 und 40 Jahren alt und haben ein
höheres Bildungsniveau.
Frühere Versionen des Korpus wurden am Hamburger Zentrum für Sprachkorpora (HZSK)
archiviert und sind auch über das Zentrum für Nachhaltiges Forschungsdatenmanagement
der Universität Hamburg verfügbar.
Korpus_Projekt_Kurzbeschreibunglang=en
The Hamburg Map Task Corpus was created between October 2009 and September 2010 in
the project Z2 ‚Computer assisted methods for the creation and analysis of multilingual
data’
of the Research Centre on Multilingualism at the University of Hamburg. In June 2013,
the corpus was extended with two recordings on video. The main motivation for creating
the corpus was to provide a set of data for testing and demonstrating the
capabilities of the EXMARaLDA system, in particular with respect to annotation and
data sharing. The map task designed for the corpus "Deutsch Heute" was chosen as the
basic
experiment for the corpus.
The map task was performed by 25 learners of German with varying proficiency and on
L1 speaker. The speakers’ L1 cover a broad spectrum of languages, including Romance
languages
(French, Galician, Spanish), Slavic languages (Russian, Polish, Bulgarian), Iranian
languages (Farsi/Dari) and diverse languages from Non-Indo-European families
(Turkish, Arabic, Chinese, Japanese, Thai, Vietnamese). Since speakers were selected
and contacted by student assistants in the project, most of them are between 17 and
40
years old and have a higher education.
Earlier versions of the corpus were archived at the Hamburger Zentrum für Sprachkorpora
and are also available via the Zentrum für Nachhaltiges Forschungsdatenmanagement
at the University of Hamburg.
Deskriptoren
gesprochene deutsche Sprache ; Maptask ; Lernerkorpus
-
ErstellungsprojektTitel=Computergestützte Erfassungs- und Analysemethoden multilingualer Daten (Z2)
Ort
Hamburg
Institut
Sonderforschungsbereich 538 Mehrsprachigkeit
Typ
Drittmittelprojekt ; gefördert von der Deutschen Forschungsgemeinschaft (DFG)
Leiter
Thomas Schmidt
Auskunft
agd@ids-mannheim.de
Laufzeit
2001-2011
Zentrale_Publikationen
Hedeland, Hanna/Schmidt, Thomas (2012): Technological and methodological challenges
in creating, annotating and sharing a learner corpus of spoken German. In: Schmidt,
Thomas/Wörner, Kai (Hrsg.): Multilingual Corpora and Multilingual Corpus Analysis.
(= Hamburg Studies on Multilingualism 14). Amsterdam: Benjamins, 2012. S. 25-46.
-
Aufzeichnungsobjekte
+
Ereignisse_Basisdaten
Anzahl
26
Beschreibung
Geplante Aufnahmeaktion
Länder_Regionen_Orte
Deutschland (Hamburg)
Institutionen
Nicht vorhanden
Räumlichkeiten
Nicht dokumentiert
Zeit
2009-2010
Rundfunksendungen
Nicht vorhanden
+
Sprechereignisse
+
Basisdaten
Anzahl
26
Arten
Maptask
Forscherbeteiligung
Verbal beteiligt ; Nicht verbal beteiligt
Elizitiertheit
Elizitiert
Mediale_Realisierung
Face-to-face
Öffentlichkeitsgrad
Nicht öffentlich
Vorgaben
Maptask-Karten
Sprachen
Deutsch
+
Inhalte
Beschreibung
Es handelt sich um eine elizitierte Spielinteraktion, bei der jedem der zwei Gesprächsbeteiligten
eine Karte vorliegt, auf der Gegenstände oder Personen abgebildet sind. Auf der Karte
eines Gesprächsteilnehmers befindet sich zudem ein Weg, der dem anderen nicht bekannt
ist. Dieser kann den Weg wegen eines Sichtschutzes nicht sehen. Der erste Gesprächsteilnehmer
beschreibt diesen Weg, der andere zeichnet ihn in seine Karte ein. Anschließend vergleichen
sie die Wege. Dann werden die Rollen getauscht.
Themen
Gegenstände und Personen auf Maptaskkarten
+
Sprecher
Anzahl
28
Beschreibung
25 mehrsprachige junge Erwachsene, für die Deutsch nicht L1 ist, eine L1-Sprecherin,
zwei AufnahmeleiterInnen
-
Korpusbestandteile
+
SE-AufnahmenTyp=Audio
+
Basisdaten
Anzahl
26
+
Dauer
Einzelne_Aufnahmen
2 Minuten bis 22 Minuten
Gesamtdauer
3 Stunden, 26 Minuten
Schutzbedürftige_Daten
Personennamen und Ortsnamen
Relation_zu_Quellaufnahmen
Nicht vorhanden
Relation_zu_Sprechereignissen
Vollständig
+
Transkribierte_SE-Aufnahmen
Anzahl
26
SE-Arten
Maptask
Dauer
3 Stunden, 26 Minuten
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
26
DateigrößeEinheit=Byte
2370896505
Datenschutz
Schutzbedürftige Daten anonymisiert
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
1536
Datenrate_Modus
konstant
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Anhören von Aufnahmeausschnitten in DGD
Kontakt
dgd-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Erwerb im Rahmen des AGD-Service
Kontakt
agd@ids-mannheim.de
Kosten
Gemäß Preisliste
Kosten_URL
http://agd.ids-mannheim.de/konditionen.shtml
Zugang_URL
Nicht vorhanden
+
SE-AufnahmenTyp=Video
+
Basisdaten
Anzahl
2
+
Dauer
Einzelne_Aufnahmen
5 Minuten
Gesamtdauer
10 Minuten
Schutzbedürftige_Daten
nicht vorhanden
Relation_zu_Quellaufnahmen
Vollständig
Relation_zu_Sprechereignissen
Vollständig
+
Transkribierte_SE-Aufnahmen
Anzahl
2
SE-Arten
Maptask
Dauer
10 Minuten
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
2
DateigrößeEinheit=Byte
750581107
Datenschutz
Nicht vorhanden
+
Technische_Daten_AV
Format
MPEG-4
Formatprofil
JVT
Gesamtdatenrate_Audio_VideoEinheit=kBit/s
9397
Gesamtdatenrate_Modus
Konstant
+
Tontechnische_Daten
Format
AAC
Formatprofil
LC
Codec
Advanced Audio Codec
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
384
Datenrate_Modus
Konstant
+
Videotechnische_Daten
Format
AVC
Formatprofil
High@L4.0
Codec
Advanced Video Codec
DatenrateEinheit=kBit/s
9000
Datenrate_Modus
Konstant
+
BildgrößeEinheit=Pixel
Bildseitenverhältnis
16:9
BildwiederholungsrateEinheit=FPS
25
Bildwiederholungsrate_Modus
Konstant
Colorspace
YUV
ChromaSubsampling
4:2:0
Scantyp
Progressiv
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Streaming über die DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_01
+
Basisdaten
Anzahl
26
Schutzbedürftige_Daten
Personennamen und Ortsnamen
Relation_zu_SE-Aufnahmen
vollständige Transkripte
+
AnnotationenTyp=ANT_01
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
orthographische Transkription; orthographische Normalisierung ; Lemmatisierung ; POS-Tagging
Konventionen
HIAT
Zeicheninventar
Deutsches Alphabet
+
ErstellungTyp=ERT_01
Spezifikation
Ersterstellung
Projekt
Computergestützte Erfassungs- und Analysemethoden multilingualer Daten (Z2)
Instrumente
EXMARaLDA Partitur-Editor
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
1349
Tokens:
22884
+
ErstellungTyp=ERT_01
Spezifikation
Ersterstellung
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
EXMARaLDA Partitur-Editor
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
1349
Tokens:
22884
Anmerkungen
9 Transkripte
+
ErstellungTyp=ERT_02
Spezifikation
Überarbeitung von ERT_01
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
EXMARaLDA Partitur-Editor
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
1349
Tokens:
22884
+
ErstellungTyp=ERT_DB1
Spezifikation
Konvertierung von ERT_02
Projekt
Archiv für Gesprochenes Deutsch
Instrumente
OrthoNormal ; Stuttgart-Tübingen-Tagset (STTS) ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
1349
Tokens:
22884
+
AlignmentTyp=ALT_01
Spezifikation
Manuell segmentweise
+
HerstellungErstellung_Typ=ERT_02
Anzahl:
26
Projekt:
Computergestützte Erfassungs- und Analysemethoden multilingualer Daten (Z2)
Verfahren_Instrumente:
EXMARaLDA Partitur-Editor
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
26
DateigrößeEinheit=Byte
3845323
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Schutzbedürftige Daten maskiert
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Maptask-Karte-1a
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Stefan Kleiner, Ralf Knöbl
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
119026
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Maptask-Karte-1b
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Stefan Kleiner, Ralf Knöbl
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
103575
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Maptask-Karte-2a
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Stefan Kleiner, Ralf Knöbl
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
85025
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Maptask-Karte-2b
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch
Urheber
Stefan Kleiner, Ralf Knöbl
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
110503
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
Ansi
+
DistributionStelle=Archiv für Gesprochenes Deutsch
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
-
Dokumentationsgeschichte