-
Versionen
VersionID=2.25Datum=23-02-2026
Erstveröffentlichung
Namelang=de
Parallel European Corpus of Informal Interaction
Namelang=en
Parallel European Corpus of Informal Interaction
Sonstige_Bezeichnungen
PECII
Korpus_Projekt_Kurzbeschreibunglang=de
Das „Parallel European Corpus of Informal Interaction“ (PECI) geht zurück auf eine
Initiative von Lorenza Mondada (Universität Basel), Giovanni Rossi (University of
California), Anna Vatanen (University Helsinki), Matylda Weidner (University Bydgoszcz)
und Jörg Zinken (IDS Mannheim). Das Korpus soll eine Datengrundlage für vergleichende
Forschung zu sozialer Interaktion bereitstellen. In der hier zur Verfügung gestellten
Version umfasst das Korpus soziale Interaktionen in vier Sprachen: Deutsch, Englisch
(in erster Linie britisches Englisch), Italienisch und Polnisch. Das Korpus wurde
im Rahmen des von der Leibniz-Gemeinschaft im SAW-Wettbewerbsverfahren geförderten
Projekts „Norms, rules and morality across languages“ (2020–2023) fertig gestellt.
Projektleiter war Jörg Zinken (IDS Mannheim). Projektmitarbeiter*innen waren Laurenz
Kornfeld, Uwe-A. Küttner, Christina Mack und Jowita Rogowska. Kooperationspartner*innen
waren Giovanni Rossi (University of California), Matylda Weidner (University Bydgoszcz),
Lorenza Mondada (University Basel) und Marja-Leena Sorjonen (University Helsinki).
Das Korpus umfasst Videoaufnahmen von drei sozialen Aktivitäten: Familien, die am
Wochenende gemeinsam frühstücken (zu einem kleinen Teil auch andere Arten von gemeinsamen
Mahlzeiten); Freund*innen und Verwandte, die gemeinsam ein Brettspiel spielen; und
Freund*innen, die gemeinsam eine längere Autofahrt unternehmen. Die Aufnahmen wurden
in Deutschland, England, Italien und Polen gemacht. Einige der Aufnahmen wurden im
Zeitraum zwischen 2015 und 2018 erhoben; die restlichen Aufnahmen während der Projektlaufzeit
im Rahmen von Feldaufenthalten in den Jahren 2021 und 2022. Insgesamt umfasst das
Korpus 83 Audio-/Videoaufnahmen von 254 beteiligten Sprecher*innen mit einer Gesamtlänge
von 76:51 Stunden. Alle Aufnahmen liegen als Videodateien (zwei Kameraperspektiven)
und als Audiodateien vor. Zu 81 der 83 Aufnahmen liegen an die cGAT-Konventionen angelehnte
Transkriptionen vor. Die Transkripte sind mit drei weiteren Annotationsebenen versehen:
orthographische Normalisierung, Lemmatisierung und sprachspezifisches Part-of-Speech-Tagging.
Darüber hinaus stehen ausführliche Metadaten zu den Sprechereignissen und den beteiligten
Sprecher*innen zur Verfügung, die per Fragebogen erhoben wurden. Die Metadaten wurden
mithilfe maschineller Übersetzung übersetzt und werden viersprachig bereitgestellt.
Als Zusatzmaterial stehen Wort- und Lemmalisten, Übersichten der Aufnahmesettings
und eine Liste der verwendeten Spiele in den Spieleaufnahmen zur Verfügung. Einzelne
deutschsprachige Ereignisse des PECI-Korpus sind zugleich Teil des FOLK-Korpus (s.
sonstige Bezeichnungen).
Wenn Sie Daten aus dem PECI-Korpus verwenden, zitieren Sie bitte den folgenden Artikel:
Küttner, Uwe-A. / Kornfeld, Laurenz / Mack, Christina / Mondada, Lorenza / Rogowska,
Jowita / Rossi, Giovanni / Sorjonen, Marja-Leena / Weidner, Matylda / Zinken, Jörg
(2024): Introducing the “Parallel European Corpus of Informal Interaction” (PECII).
A novel resource for exploring cross-situational and cross-linguistic variability
in social interaction. In: Margret Selting und Dagmar Barth-Weingarten (eds.): New
Perspectives in Interactional Linguistic Research. Amsterdam/Philadelphia: John Benjamins
(Studies in Language and Social Interaction, vol. 36), pp. 132–160.
Korpus_Projekt_Kurzbeschreibunglang=en
The “Parallel European Corpus of Informal Interaction” (PECI) has its origins in an
initiative by Lorenza Mondada (University of Basel), Giovanni Rossi (University of
California), Anna Vatanen (University of Helsinki), Matylda Weidner (University of
Bydgoszcz) and Jörg Zinken (IDS Mannheim). The corpus is intended to provide a data
basis for comparative research on social interaction. In the version provided here,
the corpus contains social interactions in four languages: German, English (primarily
British English), Italian and Polish. The corpus was completed as part of the project
“Norms, rules and morality across languages” (2020–2023), funded by the Leibniz Association
in the SAW competition process. The project was led by Jörg Zinken (IDS Mannheim).
Team members working on the project were Laurenz Kornfeld, Uwe-A. Küttner, Christina
Mack and Jowita Rogowska. Cooperation partners were Giovanni Rossi (University of
California), Matylda Weidner (University of Bydgoszcz), Lorenza Mondada (University
of Basel) and Marja-Leena Sorjonen (University of Helsinki). The corpus comprises
video recordings of three social activities: families having breakfast together at
the weekend (and, to a small extent, other meal time events); friends and relatives
playing a board game together; and friends taking a car trip out of town together.
The recordings were made in Germany, England, Italy and Poland. Some of the recordings
were collected during a pilot phase of the project, between 2015 and 2018; the remaining
recordings during fieldwork in 2021 and 2022. In total, the corpus comprises 83 audio/video
recordings from 254 participating speakers with a total length of 76:51 hours. All
recordings are available as video files (two camera angles) and audio files. Transcriptions
based on cGAT conventions are available for 81 of the 83 recordings. The transcripts
are annotated with three additional annotation levels: orthographic normalisation,
lemmatisation, and a language-specific part-of-speech tagging. In addition, detailed
metadata on the speech events and the speakers involved, collected via questionnaires,
is available. The metadata has been translated using machine translation and is available
in four languages. Additional material includes word and lemma lists, overviews of
the recording settings, and a list of the games used in the game recordings. Individual
German-language events in the PECI corpus are also part of the FOLK corpus (see other
designations).
If you use data from the PECI corpus, please cite the following article: Küttner,
Uwe-A. / Kornfeld, Laurenz / Mack, Christina / Mondada, Lorenza / Rogowska, Jowita
/ Rossi, Giovanni / Sorjonen, Marja-Leena / Weidner, Matylda / Zinken, Jörg (2024):
Introducing the “Parallel European Corpus of Informal Interaction” (PECII). A novel
resource for exploring cross-situational and cross-linguistic variability in social
interaction. In: Margret Selting and Dagmar Barth-Weingarten (eds.): New Perspectives
in Interactional Linguistic Research. Amsterdam/Philadelphia: John Benjamins (Studies
in Language and Social Interaction, vol. 36), pp. 132–160.
Deskriptoren
gesprochene deutsche Sprache ; gesprochene englische Sprache ; gesprochene italienische
Sprache ; gesprochene polnische Sprache ; Vergleichskorpus ; private Interaktion ;
Tonaufnahme ; Videoaufnahme ; Transkript ; Wortliste ; Lemmaliste
-
ErstellungsprojektTitel=Normen, Regeln und Moral im alltäglichen Leben (NoRM-aL)
Ort
Mannheim
Institut
Leibniz-Institut für Deutsche Sprache
Typ
Drittmittelprojekt ; gefördert vom Senatsausschuss Wettbewerb (SAW) der Leibniz-Gemeinschaft
; Korpuserstellung
Leiter
Jörg Zinken
Auskunft
agd@ids-mannheim.de ; zinken@ids-mannheim.de
Laufzeit
2020-2023
Zentrale_Publikationen
Kornfeld, Laurenz / Küttner, Uwe-A. / Zinken, Jörg (2023): Ein Korpus für die vergleichende
Interaktionsforschung. Das 'Parallel European Corpus of Informal Interaction' (PECII).
In: Arnulf Deppermann, Christian Fandrych, Marc Kupietz und Thomas Schmidt (Hg.):
Korpora in der germanistischen Sprachwissenschaft. Mündlich, schriftlich, multimedial.
Berlin/Boston: de Gruyter, S. 103–128.
Küttner, Uwe-A. / Kornfeld, Laurenz / Mack, Christina / Mondada, Lorenza / Rogowska,
Jowita / Rossi, Giovanni / Sorjonen, Marja-Leena / Weidner, Matylda / Zinken, Jörg
(2024): Introducing the 'Parallel European Corpus of Informal Interaction' (PECII).
A novel resource for exploring cross-situational and cross-linguistic variability
in social interaction. In: Margret Selting und Dagmar Barth-Weingarten (eds.): New
Perspectives in Interactional Linguistic Research. Amsterdam/Philadelphia: John Benjamins
(Studies in Language and Social Interaction, vol. 36), pp. 132–160.
-
Aufzeichnungsobjekte
+
Ereignisse_Basisdaten
Anzahl
68
Beschreibung
Aufnahmen von familiären Frühstücksinteraktionen (teils auch andere Mahlzeiten) sowie
privaten Autofahrten und Spieleabenden in vier Ländern
Länder_Regionen_Orte
Deutschland ; England ; Italien ; Polen
Institutionen
Nicht dokumentiert
Räumlichkeiten
Privaträume ; Auto
Zeit
2015-2022
Rundfunksendungen
Nicht vorhanden
+
Sprechereignisse
+
Basisdaten
Anzahl
81
Arten
Private Kommunikation beim Frühstück (teils auch andere Mahlzeiten), bei Autofahrten
und bei Spieleabenden
Forscherbeteiligung
Nicht beteiligt ; Verbal beteiligt
Elizitiertheit
Nicht elizitiert
Mediale_Realisierung
Face-to-face
Öffentlichkeitsgrad
Nicht öffentlich
Vorgaben
Nicht dokumentiert
Sprachen
Deutsch ; Englisch ; Italienisch ; Polnisch
+
Inhalte
Beschreibung
Nicht vorhanden
Themen
siehe Ereignisdokumentationen
+
Sprecher
Anzahl
254
Beschreibung
Deutsches Teilkorpus: 76 inklusive drei Forschende | englisches Teilkorpus: 43 inklusive
ein Forscher | italienisches Teilkorpus: 77 inklusive zwei Forschende | polnisches
Teilkorpus: 58 inklusive eine Forscherin
-
Korpusbestandteile
+
SE-AufnahmenTyp=Audio
+
Basisdaten
Anzahl
81
+
Dauer
Einzelne_Aufnahmen
00:17:08–02:57:55
Gesamtdauer
76:51:20
Schutzbedürftige_Daten
Schutzbedürftige Daten maskiert
Relation_zu_Quellaufnahmen
Vollständig
Relation_zu_Sprechereignissen
Vollständig
Anmerkungen
25DE + 15EN + 25IT + 18PL
+
Transkribierte_SE-Aufnahmen
Anzahl
79
SE-Arten
Gesamtaufnahmen
Dauer
68:54:51
Anmerkungen
2 EN-Aufnahmen nicht transkribiert (PECI_E_01011_SE_02_A_01, PECI_E_01012_SE_02_A_01),
1 DE-Aufnahme (PECI_E_00022_SE_01_A_01) unvollständig transkribiert
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
81
DateigrößeEinheit=Byte
0
Datenschutz
Schutzbedürftige Daten pseudonymisiert
+
Tontechnische_Daten
Format
WAVE
Codec
PCM
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
1536
Datenrate_Modus
konstant
+
DistributionStelle=Archiv für Gesprochenes Deutsch (AGD)
+
ZugänglichkeitArt=Anhören von Aufnahmeausschnitten in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
SE-AufnahmenTyp=Video
+
Basisdaten
Anzahl
166
+
Dauer
Einzelne_Aufnahmen
00:17:08–02:57:55
Gesamtdauer
76:51:20
Anmerkungen
Jeweils zwei Kameraperspektiven: 50DE + 30EN + 50IT + 36PL
Schutzbedürftige_Daten
z.T. personenbezogene Daten ; evtl. weitere Daten (Ortsnamen, Namen von Institutionen
bzw. Organisationen)
Relation_zu_Quellaufnahmen
Vollständig
Relation_zu_Sprechereignissen
Vollständig ; Unvollständig
+
Transkribierte_SE-Aufnahmen
Anzahl
79
SE-Arten
Private Kommunikation
Dauer
68:54:51
Anmerkungen
2 EN-Aufnahmen nicht transkribiert (PECI_E_01011_SE_02_A_01, PECI_E_01012_SE_02_A_01),
1 DE-Aufnahme (PECI_E_00022_SE_01_A_01) unvollständig transkribiert.
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
166
DateigrößeEinheit=Byte
0
Datenschutz
Schutzbedürftige Daten anonymisiert
+
Technische_Daten_AV
Format
MPEG-4
Formatprofil
JVT
Gesamtdatenrate_Audio_VideoEinheit=kBit/s
9397
Gesamtdatenrate_Modus
Konstant
+
Tontechnische_Daten
Format
AAC
Formatprofil
LC
Codec
Advanced Audio Codec
Kanäle
Stereo
AbtastrateEinheit=Hz
48000
QuantisierungsrateEinheit=Bit
16
DatenrateEinheit=kBit/s
384
Datenrate_Modus
Konstant
+
Videotechnische_Daten
Format
AVC
Formatprofil
High@L4.0
Codec
Advanced Video Codec
DatenrateEinheit=kBit/s
9000
Datenrate_Modus
Konstant
+
BildgrößeEinheit=Pixel
Bildseitenverhältnis
16:9
BildwiederholungsrateEinheit=FPS
25
Bildwiederholungsrate_Modus
Konstant
Colorspace
YUV
ChromaSubsampling
4:2:0
Scantyp
Progressiv
+
DistributionStelle=Archiv für Gesprochenes Deutsch (AGD)
+
ZugänglichkeitArt=Streaming über die DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
TranskripteTyp=TT_01
+
Basisdaten
Anzahl
102
Schutzbedürftige_Daten
z.T. personenbezogene Daten ; evtl. weitere Daten (Ortsnamen, Namen von Institutionen
bzw. Organisationen)
Relation_zu_SE-Aufnahmen
Vollständige Transkripte
+
AnnotationenTyp=ANT_01
+
Basisdaten
Bezeichnung_in_Transkripten
Nicht vorhanden
Spezifikation
angelehnt an cGat-Minimaltranskript (literarisch) ; orthographische Normalisierung
; Lemmatisierung ; POS-Tagging
Konventionen
cGat
Zeicheninventar
Deutsches Alphabet
Anmerkungen
Nicht-deutsche Transkripte sind näherungsweise an die cGAT-Transkriptionskonventionen
angelehnt. Deutschsprachige Transkripte mit FOLK-Kennungen in den sonstigen Bezeichnungen
wurden im FOLK-Projekt erstellt.
+
ErstellungTyp=ERT_01
Spezifikation
FOLKER-Transkripte
Projekt
Normen, Regeln und Moral im alltäglichen Leben (NoRM-aL) ; Forschungs- und Lehrkorpus
Gesprochenes Deutsch (FOLK)
Instrumente
FOLKER
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
46551
Tokens:
589229
Anmerkungen:
DE: 13784 Types, 207773 Tokens | EN: 7269 Types, 138012 Tokens | IT: 16394 Types,
160070 Tokens | PL: 11567 Types, 83374 Tokens
+
ErstellungTyp=ERT_DB1
Spezifikation
Konvertierung von ERT_01
Projekt
Archiv für Gesprochenes Deutsch (AGD) ; Forschungs- und Lehrkorpus Gesprochenes Deutsch
(FOLK)
Instrumente
OrthoNormal ; Stuttgart-Tübingen-Tagset (STTS) ; Penn-Treebank-Tagset ; Tagset Marco
Baroni ; PNC-Tagset ; TreeTagger
+
Ergebnisse_UmfangDefinition_Einheiten=Wörter
Types:
46551
Tokens:
589229
Anmerkungen:
DE: 13784 Types, 207773 Tokens | EN: 7269 Types, 138012 Tokens | IT: 16394 Types,
160070 Tokens | PL: 11567 Types, 83374 Tokens
+
AlignmentTyp=ALT_01
Spezifikation
Manuell segmentweise
+
HerstellungErstellung_Typ=ERT_01
Anzahl:
102
Projekt:
Normen, Regeln und Moral im alltäglichen Leben (NoRM-aL) ; Forschungs- und Lehrkorpus
Gesprochenes Deutsch (FOLK)
Verfahren_Instrumente:
FOLKER
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
102
DateigrößeEinheit=Byte
0
Inhalt
ANT_01, ERT_DB1, ALT_01
Datenschutz
Schutzbedürftige Daten maskiert
+
Technische_Daten
Format
XML
Character_Encoding
UTF-8
Anmerkungen
Format, das das Tool OrthoNormal schreiben und lesen kann.
+
DistributionStelle=Archiv für Gesprochenes Deutsch (AGD)
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZugänglichkeitArt=Recherchen in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Aufnahmesettings
+
Basisdaten
Anzahl
4
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch ; Englisch
Urheber
Siegwalt Lindenfelser
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
4
DateigrößeEinheit=Byte
0
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch (AGD)
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Spieleliste
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch ; Englisch
Urheber
Siegwalt Lindenfelser
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
0
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch (AGD)
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=UPOS-Mappings
+
Basisdaten
Anzahl
1
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch ; Englisch
Urheber
Siegwalt Lindenfelser
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
1
DateigrößeEinheit=Byte
0
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
PDF
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch (AGD)
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Wortlisten
+
Basisdaten
Anzahl
8
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch ; Englisch ; Italienisch ; Polnisch
Urheber
Siegwalt Lindenfelser
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
8
DateigrößeEinheit=Byte
0
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch (AGD)
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
+
ZusatzmaterialArt=Lemmalisten
+
Basisdaten
Anzahl
8
Schutzbedürftige_Daten
Nicht vorhanden
Sprache
Deutsch ; Englisch ; Italienisch ; Polnisch
Urheber
Siegwalt Lindenfelser
+
Digitale_FassungenTyp=DFT_01
+
Basisdaten
Anzahl
8
DateigrößeEinheit=Byte
0
Datenschutz
Nicht vorhanden
+
Technische_Daten
Format
TXT
Character_Encoding
UTF-8
+
DistributionStelle=Archiv für Gesprochenes Deutsch (AGD)
+
ZugänglichkeitArt=Ansicht und Download in DGD
Kontakt
dgd@ids-mannheim.de
Kosten
Nicht vorhanden
Kosten_URL
Nicht vorhanden
Zugang_URL
http://dgd.ids-mannheim.de
-
Dokumentationsgeschichte