Il contributo dell’archivistica alla creazione dei dataset per i Language Model

Marco Antonio Stranisci approfondisce l’argomento su Agenda Digitale, presentando alcune pratiche documentative e problemi aperti relativi al processo di creazione e rilascio di corpora e dataset in questo particolare ambito applicativo

Lettura facilitata

Il contributo dell’archivistica alla creazione dei dataset per i Language Model — Foto di Shubham Dhage via Unsplash

Su Agenda Digitale è stato pubblicato l’approfondimento “Dataset per i Language Model: i problemi che l’archivistica aiuta a superare”, a firma di Marco Antonio Stranisci.

“Il campo del Natural Language Processing (NLP) - si legge nell’abstract - è sempre più attento alla documentazione dei dataset utilizzati per il pre-training dei Language Model. Nonostante l’applicazione di pratiche derivate dalle scienze archivistiche, questioni come la trasparenza e l’accessibilità delle risorse rimangono irrisolte. Il punto su problemi e progressi della ricerca”.

L’articolo affronta i seguenti temi:

Documentare i dataset, imparare dagli archivi
I cinque problemi che le pratiche archivistiche potrebbero risolvere
Mission statement
Community Archives
Data consortia
Trasparenza
Protocolli etici
L’approccio della comunità di NLP alla documentazione
Conclusioni
Bibliografia.

Leggi l’approfondimento su Agenda Digitale

Il contributo dell’archivistica alla creazione dei dataset per i Language Model

Valuta il sito

Redazione

Seguici su

Valuta il sito

Piè di pagina