Marco Rondina
(Politecnico di Torino)
Mercoledì 28 settembre 2022 , ore 13.00 – 14.00
Centro Nexa su Internet & Società
Politecnico di Torino, via Boggio 65/a, Torino (1° piano)
Suonare al citofono Portineria – Seguire le indicazioni lungo il percorso
(Per maggiori informazioni su come raggiungerci clicca qui)
Stanza virtuale: https://didattica.polito.it/VClass/NexaEvent
La ricerca e lo sviluppo industriale dell’intelligenza artificiale hanno fatto passi da gigante negli ultimi anni, rendendo le tecnologie basate su di essa sempre più pervasive all’interno della società (anche in settori molto delicati come welfare, giustizia, credito, etc) e contribuendo ad automatizzare processi e decisioni. Uno degli elementi chiave alla base dell’IA sono i dati, i quali spesso determinano la qualità dei risultati ottenuti.
Per questo è sempre più importante far sì che i professionisti dell’IA siano pienamente consapevoli delle caratteristiche dei dati e dei processi che li hanno generati, comprese le scelte progettuali più o meno implicite e basate su presupposti tutt’altro che neutri. La documentazione dei dataset può rappresentare uno strumento molto utile in questa prospettiva. Essa rappresenta la principale forma di comunicazione tra produttori e utilizzatori dei dataset, in grado di rendere trasparente il contesto attorno il quale i dati sono stati raccolti, annotati e trasformati.
In questa ricerca è stato individuato un insieme di informazioni rilevanti che dovrebbero sempre essere allegate ad un dataset per garantirne un utilizzo consapevole. In secondo luogo, sono state analizzate le documentazioni dei 100 dataset più popolari tra alcune delle principali piattaforme del settore al fine di valutarne la completezza. Quello che emerge è la necessità di una maggiore attenzione al processo di documentazione, anche per garantire risultati più equi.
Biografia
MARCO RONDINA ha studiato Ingegneria Informatica al Politecnico di Torino, con specializzazione Data Analytics. Durante il suo percorso di studi, concluso nel luglio 2022, ha approfondito gli aspetti etici legati ai dati e, più in generale, agli strumenti digitali. Nella tesi di laurea dal titolo “Ethical Manufacturing of Datasets for Artificial Intelligence: an Empirical Investigation into the State of Documentation Practice” ha analizzato lo stato dell’arte della documentazione dei dataset usati nel settore dell’intelligenza artificiale.
Letture consigliate e link utili
- K. Crawford, The Atlas of AI, Yale University Press.
- S. Barocas, M. Hardt, and A. Narayanan, Fairness and Machine Learning: Limitations and Opportunities, LINK
- T. Gebru et al., Datasheets for Datasets, arXiv, LINK
- A. Fabris, S. Messina, G. Silvello, and G. A. Susto, Algorithmic Fairness Datasets: the Story so Far, arXiv, LINK
- M. K. Scheuerman, E. Denton, and A. Hanna, Do Datasets Have Politics? Disciplinary Values in Computer Vision Dataset Development, Proc. ACM Hum.-Comput. Interact., vol. 5, no. CSCW2, pp. 1–37, Oct. 2021, LINK
Slide
Scarica la versione PDF della presentazione di MARCO RONDINA.