Corpus LATAM

FuenteTamaño (GB)País/Origen
Red Pajamas11264Common Crawl
mc4-es750Common Crawl
Repositorio Código Phi-2440Microsoft
Infotec; CentroGeo368México
Compilation of Large Spanish Unannotated Corpora8.1Common Crawl
U. de los Andes18Colombia
Repo. UChile7.5Chile
EMOL5.22Chile
Conicet4.8Argentina
LabEVA3.8Uruguay
Bibliotecas UC3Chile
Spanish Billion Words Corpus2.76Common Crawl

Datos en español

  • Datos web curados
  • Alianzas para recopilación dirigida

Compra de equipamiento para entrenamiento a gran escala

  • Alianza UTA y CENIA para construcción de centro de cómputo para entrenamiento distribuido de grandes modelos de IA.
  • Inversión mayor a US$10M Visita Enlace

Roadmap

  • Diciembre 2024: 3B parámetros.
  • Mayo 2025: 50B parámetros.