Università degli Studi di Perugia

Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON

Nome del corso di laurea	Finanza e metodi quantitativi per l'economia
Codice insegnamento	A003078
Sede	PERUGIA
Curriculum	Data science for finance and insurance
Docente responsabile	Marco Doretti
Docenti	Marco Doretti
Ore	42 Ore - Marco Doretti
CFU	6
Regolamento	Coorte 2022
Erogato	Erogato nel 2022/23
Erogato altro regolamento	Informazioni sull'attività didattica Coorte 2023 - Erogato nell'anno 2023
Attività	Caratterizzante
Ambito	Matematico, statistico, informatico
Settore	SECS-S/01
Anno	1
Periodo	Primo Semestre
Tipo insegnamento	Obbligatorio (Required)
Tipo attività	Attività formativa monodisciplinare
Lingua insegnamento	INGLESE
Contenuti	Richiami di inferenza statistica; teoria della massima verosimiglianza; cenni di inferenza Bayesiana; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati.
Testi di riferimento	Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834 Materiale didattico integrativo a cura del docente
Obiettivi formativi	Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati nell'ambito della Data Science per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi).
Prerequisiti	Conoscenze di base di Statistica descrittiva univariata e bivariata e di Statistica inferenziale (stima puntuale, intervalli di confidenza, test delle ipotesi).
Metodi didattici	Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti.
Modalità di verifica dell'apprendimento	Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso.
Programma esteso	Richiami di stima puntuale e per intervallo: proprietà degli stimatori, intervalli di confidenza. Inferenza per medie, proporzioni, differenze tra medie e differenze tra proporzioni. Determinazione della dimensione del campione. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap e all’inferenza Bayesiana: distribuzioni a priori e a posteriori, distribuzioni coniugate. Relazioni tra test delle ipotesi ed intervalli di confidenza: test del rapporto di verosimiglianza e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Cenni all’analisi causale: distinzione tra associazione ed effetto causale, correlazione spuria. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring.