Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON
| Nome del corso di laurea | Finanza e metodi quantitativi per l'economia |
|---|---|
| Codice insegnamento | A003078 |
| Curriculum | Data science for finance and insurance |
| Docente responsabile | Marco Doretti |
| Docenti |
|
| Ore |
|
| CFU | 6 |
| Regolamento | Coorte 2023 |
| Erogato | Erogato nel 2023/24 |
| Erogato altro regolamento | Informazioni sull'attività didattica |
| Attività | Caratterizzante |
| Ambito | Matematico, statistico, informatico |
| Settore | SECS-S/01 |
| Anno | 1 |
| Periodo | Primo Semestre |
| Tipo insegnamento | Obbligatorio (Required) |
| Tipo attività | Attività formativa monodisciplinare |
| Lingua insegnamento | INGLESE |
| Contenuti | Richiami di probabilità e inferenza statistica; teoria della verosimiglianza; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati. |
| Testi di riferimento | Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834 Materiale didattico integrativo a cura del docente |
| Obiettivi formativi | Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati nell'ambito della Data Science per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi). |
| Metodi didattici | Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti. |
| Modalità di verifica dell'apprendimento | Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso. |
| Programma esteso | Richiami di probabilità e inferenza statistica: principali variabili casuali e loro momenti. Proprietà degli stimatori, intervalli di confidenza e test delle ipotesi per medie, proporzioni, differenze tra medie e differenze tra proporzioni. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap. Test del rapporto di verosimiglianza, score test e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Cenni all’analisi causale: distinzione tra associazione ed effetto causale, correlazione spuria. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring. |