Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON

Nome del corso di laurea Finanza e metodi quantitativi per l'economia
Codice insegnamento A003078
Sede PERUGIA
Curriculum Data science for finance and insurance
Docente responsabile Marco Doretti
Docenti
  • Marco Doretti
Ore
  • 42 Ore - Marco Doretti
CFU 6
Regolamento Coorte 2022
Erogato Erogato nel 2022/23
Erogato altro regolamento
Informazioni sull'attività didattica
Attività Caratterizzante
Ambito Matematico, statistico, informatico
Settore SECS-S/01
Anno 1
Periodo Primo Semestre
Tipo insegnamento Obbligatorio (Required)
Tipo attività Attività formativa monodisciplinare
Lingua insegnamento INGLESE
Contenuti Richiami di inferenza statistica; teoria della massima verosimiglianza; cenni di inferenza Bayesiana; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati.
Testi di riferimento Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834

Materiale didattico integrativo a cura del docente
Obiettivi formativi Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati nell'ambito della Data Science per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi).
Prerequisiti Conoscenze di base di Statistica descrittiva univariata e bivariata e di Statistica inferenziale (stima puntuale, intervalli di confidenza, test delle ipotesi).
Metodi didattici Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti.
Modalità di verifica dell'apprendimento Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso.
Programma esteso Richiami di stima puntuale e per intervallo: proprietà degli stimatori, intervalli di confidenza. Inferenza per medie, proporzioni, differenze tra medie e differenze tra proporzioni. Determinazione della dimensione del campione. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap e all’inferenza Bayesiana: distribuzioni a priori e a posteriori, distribuzioni coniugate. Relazioni tra test delle ipotesi ed intervalli di confidenza: test del rapporto di verosimiglianza e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Cenni all’analisi causale: distinzione tra associazione ed effetto causale, correlazione spuria. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring.
Condividi su