CLARE es un corpus general de textos escritos en latín, recopilados en formato electrónico y dotados con etiquetas en sistema de codificación XML, que enriquecen su explotación y posterior análisis. Los textos que lo conforman se han obtenido de diferentes bibliotecas existentes en la Web y pertenecen a géneros tan diversos como apología, biografía, comedia, didáctica, doctrinal, épica, epistolar, ensayo, fábula, filosofía, historia, legislativo, lírica, mitología, novela, oratoria, sátira y tragedia. En la actualidad el número total de palabras es de unos 19,5 millones.
El corpus está anotado en varios niveles, que incluyen información sobre tokens, types, lemas, características morfosintácticas (por ejemplo, caso, número, etc.), categorías gramaticales, así como límites de oraciones. La tokenización, la lematización y el etiquetado morfosintáctico se ha realizado con TreeTagger (Schmid, 1994, 1995) utilizando los parámetros de Gabrielle Bandolini y la detección de límites de oraciones con CLTK (Kyle P. Johnson et al., 2014-2017).
CLARE está codificado en formato CWB (CWB, 2010) y puede consultarse con el procesador de corpus CQP (Evert, 2005).