Corpus LATAM

FuenteTamaño (GB)País/Origen
Red Pajamas11264Common Crawl
Repositorio Universidad de Chile2000Chile
Repositorio y Revistas Universidad Católica941Chile
mc4-es750Common Crawl
Repositorio Universidad Javeriana550Colombia
Repositorio Código Phi-2440Microsoft
Tweets137Twitter API
Repositorio Universidad Nacional de Córdoba120Argentina
Hemeroteca Digital66España
Repositorio CONALITEG8.4México
Compilation of Large Spanish Unannotated Corpora8.1Common Crawl
Repositorio Académico Universidad de Chile7.5Chile
Repositorio Universidad de los Andes5.87Colombia
Emol5.22Chile
Repositorio Conicet4.8Argentina
Spanish Billion Words Corpus2.76Common Crawl

Datos en español

  • Datos web curados
  • Alianzas para recopilación dirigida

Compra de equipamiento para entrenamiento a gran escala

  • Alianza UTA y CENIA para construcción de centro de cómputo para entrenamiento distribuido de grandes modelos de IA.
  • Inversión mayor a US$10M Visita Enlace

Roadmap

  • Diciembre 2024: 3B parámetros.
  • Mayo 2025: 70B parámetros.