Salta al contenuto

Introduzione

Su Agenda Digitale è stato pubblicato l’approfondimento “Dataset per i Language Model: i problemi che l’archivistica aiuta a superare”, a firma di Marco Antonio Stranisci

Il campo del Natural Language Processing (NLP) - si legge nell’abstract - è sempre più attento alla documentazione dei dataset utilizzati per il pre-training dei Language Model. Nonostante l’applicazione di pratiche derivate dalle scienze archivistiche, questioni come la trasparenza e l’accessibilità delle risorse rimangono irrisolte. Il punto su problemi e progressi della ricerca”. 

L’articolo affronta i seguenti temi:

  • Documentare i dataset, imparare dagli archivi
  • I cinque problemi che le pratiche archivistiche potrebbero risolvere
  • Mission statement
  • Community Archives
  • Data consortia
  • Trasparenza
  • Protocolli etici
  • L’approccio della comunità di NLP alla documentazione
  • Conclusioni
  • Bibliografia.

Leggi l’approfondimento su Agenda Digitale

Ultimo aggiornamento: 04-12-2023, 14:03