Il contributo dell’archivistica alla creazione dei dataset per i Language Model

Su Agenda Digitale è stato pubblicato l’approfondimento “Dataset per i Language Model: i problemi che l’archivistica aiuta a superare”, a firma di Marco Antonio Stranisci.

“Il campo del Natural Language Processing (NLP) - si legge nell’abstract - è sempre più attento alla documentazione dei dataset utilizzati per il pre-training dei Language Model. Nonostante l’applicazione di pratiche derivate dalle scienze archivistiche, questioni come la trasparenza e l’accessibilità delle risorse rimangono irrisolte. Il punto su problemi e progressi della ricerca”.

L’articolo affronta i seguenti temi:

Documentare i dataset, imparare dagli archivi
I cinque problemi che le pratiche archivistiche potrebbero risolvere
Mission statement
Community Archives
Data consortia
Trasparenza
Protocolli etici
L’approccio della comunità di NLP alla documentazione
Conclusioni
Bibliografia.

Leggi l’approfondimento su Agenda Digitale

Ultimo aggiornamento: 04-12-2023, 14:03

Il contributo dell’archivistica alla creazione dei dataset per i Language Model

Quanto sono chiare le informazioni su questa pagina?

Polo archivistico dell'Emilia-Romagna

Il contributo dell’archivistica alla creazione dei dataset per i Language Model

Introduzione

Quanto sono chiare le informazioni su questa pagina?

Polo archivistico dell'Emilia-Romagna