Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON
- Corso
- Finanza e metodi quantitativi per l'economia
- Codice insegnamento
- A003078
- Sede
- PERUGIA
- Curriculum
- Data science for finance and insurance
- Docente
- Marco Doretti
- Docenti
-
- Marco Doretti
- Ore
- 42 ore - Marco Doretti
- CFU
- 6
- Regolamento
- Coorte 2022
- Erogato
- 2022/23
- Attività
- Caratterizzante
- Ambito
- Matematico, statistico, informatico
- Settore
- SECS-S/01
- Tipo insegnamento
- Obbligatorio (Required)
- Tipo attività
- Attività formativa monodisciplinare
- Lingua insegnamento
- INGLESE
- Contenuti
- Richiami di inferenza statistica; teoria della massima verosimiglianza; cenni di inferenza Bayesiana; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati.
- Testi di riferimento
- Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834
Materiale didattico integrativo a cura del docente - Obiettivi formativi
- Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati nell'ambito della Data Science per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi).
- Prerequisiti
- Conoscenze di base di Statistica descrittiva univariata e bivariata e di Statistica inferenziale (stima puntuale, intervalli di confidenza, test delle ipotesi).
- Metodi didattici
- Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti.
- Modalità di verifica dell'apprendimento
- Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso.
- Programma esteso
- Richiami di stima puntuale e per intervallo: proprietà degli stimatori, intervalli di confidenza. Inferenza per medie, proporzioni, differenze tra medie e differenze tra proporzioni. Determinazione della dimensione del campione. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap e all’inferenza Bayesiana: distribuzioni a priori e a posteriori, distribuzioni coniugate. Relazioni tra test delle ipotesi ed intervalli di confidenza: test del rapporto di verosimiglianza e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Cenni all’analisi causale: distinzione tra associazione ed effetto causale, correlazione spuria. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring.