CLARE ist ein Referenzkorpus mit lateinischen Texten, die in elektronischem Format gesammelt und mit XML-Tags angereichert sind, und die ihre Nutzung und Analyse erleichtern. Die Texte werden aus verschiedenen lateinischen Bibliotheken im Web importiert und sie gehören zu so unterschiedlichen Genres wie Entschuldigung, Biografie, Komödie, Didaktik, Doktrin, Epos, Brief, Essay, Fabel, Geschichte, Legislative, Lyrik, Mythologie, Roman, Rhetorik, Philosophie, Satire, Tragödie. Die gesamte Anzahl der im Korpus enthaltenen Wörter umfasst ca. 19,5 Mio.

CLARE ist auf mehreren Ebenen vornotiert, die Informationen über Token, Lemmas, morpho-syntaktische Merkmale (z. B. Fall, Zahl usw.), Sprachteile sowie Satzgrenzen enthalten. Tokenisierung, Lemmatisierung, PoS-Markierung wurde mit TreeTagger (Schmid, 1994, 1995) unter Verwendung von Gabrielle Bandolini's Parametern geschaft. CLTK (Kyle P. Johnson et al., 2014-2017) wurde für Satzgrenzenerkennung verwendet.

CLARE ist im CWB-Format (CWB, 2010) kodiert und kann mit Corpus Query Processor (CQP) abgefragt werden (Evert, 2005).

EN | ES | DE

CLARIN-D logo
Funded by the German Federal Ministry of Education and Research
Universität des Saarlandes
a CLARIN centre B





Creative Commons License
Inhalt dieser Webseite ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz von CLARE Team.


Impressum