Engelsk-svensk-turkisk korpus

SND-ID: ext0078-1.

Åtkomst till data via

Kontakt

Skapare/primärforskare

Beáta Megyesi - Uppsala universitet, Institutionen för lingvistik och filologi

Éva Csató Johanson - Uppsala universitet, Institutionen för lingvistik och filologi

Bengt Dahlqvist - Uppsala universitet, Institutionen för lingvistik och filologi

Joakim Nivre - Uppsala universitet, Institutionen för lingvistik och filologi

Eva Pettersson - Uppsala universitet, Institutionen för lingvistik och filologi

Forskningshuvudman

Uppsala universitet - Institutionen för lingvistik och filologi rorId

Beskrivning

We describe a syntactically annotated parallel corpus containing typologically partly different languages, namely English, Swedish andTurkish. The corpus consists of approximately 300 000 tokens in Swedish, 160 000 in Turkish and 150 000 in English, containing bothfiction and technical documents. We build the corpus by using the Uplug toolkit for automatic structural markup, such as tokenizationand sentence segmentation, as well as sentence and word alignment. In addition, we use basic language resource kits for the linguisticanalysis of the languages involved. The annotation is carried on various layers from morphological and part of speech analysis todependency structures. The tools used for linguistic annotation, e.g., HunPos tagger and MaltParser, are freely available data-drivenresources, trained on existing corpora and treebanks for each language. The parallel treebank is used in teaching and linguistic researchto study the relationship between the structurally different languages. In order to study the treebank, several tools have been developedfor the visualization of the annotatio

... Visa mer..
We describe a syntactically annotated parallel corpus containing typologically partly different languages, namely English, Swedish andTurkish. The corpus consists of approximately 300 000 tokens in Swedish, 160 000 in Turkish and 150 000 in English, containing bothfiction and technical documents. We build the corpus by using the Uplug toolkit for automatic structural markup, such as tokenizationand sentence segmentation, as well as sentence and word alignment. In addition, we use basic language resource kits for the linguisticanalysis of the languages involved. The annotation is carried on various layers from morphological and part of speech analysis todependency structures. The tools used for linguistic annotation, e.g., HunPos tagger and MaltParser, are freely available data-drivenresources, trained on existing corpora and treebanks for each language. The parallel treebank is used in teaching and linguistic researchto study the relationship between the structurally different languages. In order to study the treebank, several tools have been developedfor the visualization of the annotation and alignment, allowing search for linguistic patterns.

Syfte:

Det övergripande syftet med projektet är att främja forskning och undervisning i turkiska. Mer specifikt syftar projektet till att bygga upp språkteknologiska basresurser för turkiska, svenska och engelska med kontrastiva frågeställningar i fokus. Visa mindre..

Data innefattar personuppgifter

Nej

Metod och utfall
Datainsamling
Geografisk täckning
Administrativ information

Ansvarig institution/enhet

Institutionen för lingvistik och filologi

Ämnesområde och nyckelord

Forskningsområde

Språk och litteratur (Standard för svensk indelning av forskningsämnen 2011)

Språk och lingvistik (CESSDA Topic Classification)

Nyckelord

Texter, Lingvistik

Publikationer

Csató Johansson, Megyesi, Beáta, Dahlqvist, Bengt, Csató, Éva Á. & Nivre, Joakim, 'The English-Swedish-Turkish Parallel Treebank', Proceedings of Language Resources and Evaluation (LREC 2010)., 2010 http://uu.divaportal.org/smash/get/diva2:306475/FULLTEXT01.pdf
Ladda ned här | Swepub

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er). Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.

Kontakt för frågor om data

CLARIN Virtual Collection Registry

Lägg till i samling

En virtuell samling är kopplad till ett specifikt forskningsändamål och innehåller länkar till dataresurser i olika digitala arkiv. Samlingen är lätt att skapa, få åtkomst till och citera.

Read more about virtual collections on the CLARIN website.