Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON

Corso
Finanza e metodi quantitativi per l'economia
Codice insegnamento
A003078
Curriculum
Data science for finance and insurance
Docente
Simone Del Sarto
Docenti
  • Simone Del Sarto
Ore
  • 42 ore - Simone Del Sarto
CFU
6
Regolamento
Coorte 2024
Erogato
2024/25
Attività
Caratterizzante
Ambito
Matematico, statistico, informatico
Settore
SECS-S/01
Tipo insegnamento
Obbligatorio (Required)
Tipo attività
Attività formativa monodisciplinare
Lingua insegnamento
INGLESE
Contenuti
Richiami di probabilità e inferenza statistica; teoria della massima verosimiglianza; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati.
Testi di riferimento
Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834
Obiettivi formativi
Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi).
Prerequisiti
Conoscenze di base di statistica descrittiva univariata e bivariata, di teoria della probabilità (principali variabili casuali e loro funzioni di massa/densità di probabilità, valori attesi, varianze etc.) e di statistica inferenziale (stima puntuale, intervalli di confidenza, test delle ipotesi).
Metodi didattici
Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti.
Modalità di verifica dell'apprendimento
Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso.
Programma esteso
Richiami di probabilità e inferenza statistica: principali variabili casuali e loro momenti. Proprietà degli stimatori, intervalli di confidenza e test delle ipotesi per medie e proporzioni. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap. Test del rapporto di verosimiglianza e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring.
Condividi su