Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON

Corso
Finanza e metodi quantitativi per l'economia
Codice insegnamento
A003078
Sede
PERUGIA
Curriculum
Data science for finance and insurance
Docente
Marco Doretti
Docenti
  • Marco Doretti
Ore
  • 42 ore - Marco Doretti
CFU
6
Regolamento
Coorte 2022
Erogato
2022/23
Attività
Caratterizzante
Ambito
Matematico, statistico, informatico
Settore
SECS-S/01
Tipo insegnamento
Obbligatorio (Required)
Tipo attività
Attività formativa monodisciplinare
Lingua insegnamento
INGLESE
Contenuti
Richiami di inferenza statistica; teoria della massima verosimiglianza; cenni di inferenza Bayesiana; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati.
Testi di riferimento
Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834

Materiale didattico integrativo a cura del docente
Obiettivi formativi
Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati nell'ambito della Data Science per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi).
Prerequisiti
Conoscenze di base di Statistica descrittiva univariata e bivariata e di Statistica inferenziale (stima puntuale, intervalli di confidenza, test delle ipotesi).
Metodi didattici
Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti.
Modalità di verifica dell'apprendimento
Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso.
Programma esteso
Richiami di stima puntuale e per intervallo: proprietà degli stimatori, intervalli di confidenza. Inferenza per medie, proporzioni, differenze tra medie e differenze tra proporzioni. Determinazione della dimensione del campione. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap e all’inferenza Bayesiana: distribuzioni a priori e a posteriori, distribuzioni coniugate. Relazioni tra test delle ipotesi ed intervalli di confidenza: test del rapporto di verosimiglianza e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Cenni all’analisi causale: distinzione tra associazione ed effetto causale, correlazione spuria. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring.
Condividi su