Il contributo dell’archivistica alla creazione dei dataset per i Language Model

Marco Antonio Stranisci approfondisce l’argomento su Agenda Digitale, presentando alcune pratiche documentative e problemi aperti relativi al processo di creazione e rilascio di corpora e dataset in questo particolare ambito applicativo

Su Agenda Digitale è stato pubblicato l’approfondimento “Dataset per i Language Model: i problemi che l’archivistica aiuta a superare”, a firma di Marco Antonio Stranisci

Il campo del Natural Language Processing (NLP) - si legge nell’abstract - è sempre più attento alla documentazione dei dataset utilizzati per il pre-training dei Language Model. Nonostante l’applicazione di pratiche derivate dalle scienze archivistiche, questioni come la trasparenza e l’accessibilità delle risorse rimangono irrisolte. Il punto su problemi e progressi della ricerca”. 

L’articolo affronta i seguenti temi:

  • Documentare i dataset, imparare dagli archivi
  • I cinque problemi che le pratiche archivistiche potrebbero risolvere
  • Mission statement
  • Community Archives
  • Data consortia
  • Trasparenza
  • Protocolli etici
  • L’approccio della comunità di NLP alla documentazione
  • Conclusioni
  • Bibliografia.

Leggi l’approfondimento su Agenda Digitale

Azioni sul documento

ultima modifica 2023-12-04T15:03:59+02:00
Questa pagina ti è stata utile?

Valuta il sito

Non hai trovato quello che cerchi ?

Piè di pagina