Corpus LATAM
Fuente | Tamaño (GB) | País/Origen |
---|---|---|
Red Pajamas | 11264 | Common Crawl |
mc4-es | 750 | Common Crawl |
Repositorio Código Phi-2 | 440 | Microsoft |
Infotec; CentroGeo | 368 | México |
Compilation of Large Spanish Unannotated Corpora | 8.1 | Common Crawl |
U. de los Andes | 18 | Colombia |
Repo. UChile | 7.5 | Chile |
EMOL | 5.22 | Chile |
Conicet | 4.8 | Argentina |
LabEVA | 3.8 | Uruguay |
Bibliotecas UC | 3 | Chile |
Spanish Billion Words Corpus | 2.76 | Common Crawl |
Datos en español
- Datos web curados
- Alianzas para recopilación dirigida
Compra de equipamiento para entrenamiento a gran escala
- Alianza UTA y CENIA para construcción de centro de cómputo para entrenamiento distribuido de grandes modelos de IA.
- Inversión mayor a US$10M Visita Enlace
Roadmap
- Diciembre 2024: 3B parámetros.
- Mayo 2025: 50B parámetros.