Insegnamento STATISTICAL METHODS FOR DATA SCIENCE
- Corso
- Informatica
- Codice insegnamento
- A002172
- Curriculum
- Comune a tutti i curricula
- Docente
- Luca Scrucca
- Docenti
-
- Luca Scrucca
- Ore
- 42 ore - Luca Scrucca
- CFU
- 6
- Regolamento
- Coorte 2023
- Erogato
- 2024/25
- Attività
- Affine/integrativa
- Ambito
- Attività formative affini o integrative
- Settore
- MAT/06
- Tipo insegnamento
- Opzionale (Optional)
- Tipo attività
- Attività formativa monodisciplinare
- Lingua insegnamento
- Inglese
- Contenuti
- Metodi statistici avanzati di Statistical e Machine Learning, sia nel caso di supervised learning (classificazione e regressione) che di unsupervised learning (analisi dei cluster, riduzione della dimensionalità). Casi di studio reali introdotti e analizzati con il software R.
- Testi di riferimento
- James G., Witten D., Hastie T., Tibshirani R. (2021) An Introduction to Statistical Learning with Applications in R, 2nd edition, Springer-Verlag (freely available at https://www.statlearning.com)
Slides delle lezioni disponibili nella pagina UniStudium del corso. - Obiettivi formativi
- L'insegnamento costituisce un'introduzione ai principali metodi e tecniche di Statistical e Machine Learning per il Data Science, sia in ambito supervised (regressione e classificazione) che unsupervised (clustering e riduzione delle dimensionalità).
Le principali conoscenze acquisite saranno:
• concetti introduttivi e specifici modelli di statistical learning;
• valutazione tramite tecniche di ricampionamento della capacità predittiva dei modelli di regressione e classificazione.
Le principali abilità (ossia la capacità di applicare le conoscenze acquisite) saranno:
• applicare in maniera autonoma gli opportuni metodi e algoritmi a problemi reali di regressione, classificazione e clustering;
• analizzare dati tramite il software R per la stima di modelli supervised e unsupervised. - Prerequisiti
- La presentazione dei modelli e algoritmi trattati durante il corso si avvale di conoscenze di base della statistica, sia descrittiva che inferenziale, e del modello di regressione lineare. Familiarità con il software R per l’analisi statistica è consigliata seppure non essenziale per la comprensione degli argomenti trattati.
- Metodi didattici
- Lezioni teoriche ed esercitazioni pratiche con l’ausilio di R.
- Altre informazioni
- La frequenza delle lezioni è fortemente consigliata.
- Modalità di verifica dell'apprendimento
- Valutazioni in itinere ed esame orale finale. Le attività di laboratorio sono finalizzate ad accertare la capacità dello studente di mettere in pratica le metodologie introdotte in classe. L'esame orale finale intende invece valutare il livello di conoscenza e comprensione raggiunto dallo studente per quanto riguarda gli aspetti computazionali e metodologici trattati durante il corso.
- Programma esteso
- Il corso prevede lo studio di metodi statistici avanzati per il Data Science, sia nel caso di supervised learning (classificazione e regressione) che di unsupervised learning (analisi dei cluster, riduzione della dimensionalità). Tali metodi sono stati applicati con successo in molti ambiti, dalla finanza all'economia, dal business analytics alle scienze sociali e naturali. I metodi trattati saranno introdotti a partire da casi di studio reali e analizzati tramite il software R.
In dettaglio, verranno trattati i seguenti argomenti:
- Statistical and machine learning: introduzione.
- Previsione vs interpretabilità.
- Supervised vs unsupervised learning.
- Classificazione vs regressione.
- Valutazione dell'accuratezza di un modello statistico.
- Supervised learning: introduzione.
- Estensioni al modello di regressione lineare: selezione del modello e regolarizzazione. Regressione polinomiale.
- Metodi di ricampionamento: cross-validation e bootstrap.
- Classificazione: introduzione.
- Modello logistico e multinomiale.
- Analisi discriminante lineare e quadratica.
- Gaussian naive Bayes.
- Modelli misture finite Gaussiani.
- Algoritmo k-nearest neighbour.
- Metodi avanzati per la regressione e la classificazione.
- Generalized Additive Models.
- Artificial neural networks.
- Decision trees.
- Bagging.
- Random forests.
- Boosting.
- Unsupervised learning: introduzione.
- Analisi delle componenti principali.
- Misure di similarità e di distanza. Matrice delle distanze.
- Metodi gerarchici per la cluster analysis.
- Metodi non gerarchici (metodo k-means).
- Model-based clustering. - Obiettivi Agenda 2030 per lo sviluppo sostenibile