Il contributo dell’archivistica alla creazione dei dataset per i Language Model
Marco Antonio Stranisci approfondisce l’argomento su Agenda Digitale, presentando alcune pratiche documentative e problemi aperti relativi al processo di creazione e rilascio di corpora e dataset in questo particolare ambito applicativo
Su Agenda Digitale è stato pubblicato l’approfondimento “Dataset per i Language Model: i problemi che l’archivistica aiuta a superare”, a firma di Marco Antonio Stranisci.
“Il campo del Natural Language Processing (NLP) - si legge nell’abstract - è sempre più attento alla documentazione dei dataset utilizzati per il pre-training dei Language Model. Nonostante l’applicazione di pratiche derivate dalle scienze archivistiche, questioni come la trasparenza e l’accessibilità delle risorse rimangono irrisolte. Il punto su problemi e progressi della ricerca”.
L’articolo affronta i seguenti temi:
- Documentare i dataset, imparare dagli archivi
- I cinque problemi che le pratiche archivistiche potrebbero risolvere
- Mission statement
- Community Archives
- Data consortia
- Trasparenza
- Protocolli etici
- L’approccio della comunità di NLP alla documentazione
- Conclusioni
- Bibliografia.