Insegnamento STATISTICS FOR DATA SCIENCE WITH R AND PYTHON
- Corso
- Finanza e metodi quantitativi per l'economia
- Codice insegnamento
- A003079
- Sede
- PERUGIA
- Curriculum
- Statistical data science for finance and economics
- Docente
- Marco Doretti
- CFU
- 12
- Regolamento
- Coorte 2022
- Erogato
- 2022/23
- Tipo insegnamento
- Obbligatorio (Required)
- Tipo attività
- Attività formativa integrata
Modulo I Generalized linear models
Codice | A003092 |
---|---|
Sede | PERUGIA |
CFU | 6 |
Docente | Marco Doretti |
Docenti |
|
Ore |
|
Attività | Caratterizzante |
Ambito | Matematico, statistico, informatico |
Settore | SECS-S/01 |
Tipo insegnamento | Obbligatorio (Required) |
Lingua insegnamento | INGLESE |
Contenuti | Richiami di inferenza statistica; teoria della massima verosimiglianza; cenni di inferenza Bayesiana; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati. |
Testi di riferimento | Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834 Materiale didattico integrativo a cura del docente |
Obiettivi formativi | Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati nell'ambito della Data Science per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi). |
Prerequisiti | Conoscenze di base di Statistica descrittiva univariata e bivariata e di Statistica inferenziale (stima puntuale, intervalli di confidenza, test delle ipotesi). |
Metodi didattici | Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti. |
Modalità di verifica dell'apprendimento | Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso. |
Programma esteso | Richiami di stima puntuale e per intervallo: proprietà degli stimatori, intervalli di confidenza. Inferenza per medie, proporzioni, differenze tra medie e differenze tra proporzioni. Determinazione della dimensione del campione. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap e all’inferenza Bayesiana: distribuzioni a priori e a posteriori, distribuzioni coniugate. Relazioni tra test delle ipotesi ed intervalli di confidenza: test del rapporto di verosimiglianza e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Cenni all’analisi causale: distinzione tra associazione ed effetto causale, correlazione spuria. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring. |
Modulo II Credit scoring
Codice | A003093 |
---|---|
Sede | PERUGIA |
CFU | 6 |
Docente | Elena Stanghellini |
Docenti |
|
Ore |
|
Attività | Caratterizzante |
Ambito | Matematico, statistico, informatico |
Settore | SECS-S/01 |
Tipo insegnamento | Obbligatorio (Required) |
Lingua insegnamento | INGLESE |
Contenuti | Il corso approfondisce i principali strumenti di classificazione: il modello logistico, l’analisi discriminante. Tali strumenti saranno poi applicati nell’ambito del credit Scoring. Saranno pertanto presentate le nozioni teoriche e pratiche per il Credit scoring, ovvero: definizione e fasi; probabilità e indipendenza; modelli logistici come classificatori; curva ROC e CAP e altri metodi di validazione. |
Testi di riferimento | Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834 Note in inglese a cura del docente (tradotte dal libro Stanghellini (2009) Introduzione ai metodi statistici per il Credit Scoring -- Springer Italia, Capp: 1-5.) |
Obiettivi formativi | Un’importante componente della formazione del Data Scientist riguarda la classificazione. Il corso permette di acquisire gli elementi necessari alla comprensione e implementazione delle principali tecniche statistiche di classificazione parametrica. Le metodologie verranno applicate nel contesto del Credit Scoring per l'analisi e la previsione del rischio di insolvenza. Il taglio applicativo, mediante studio di casi reali attraverso il software R e Python, permette allo studente di acquisire familiarità con l'analisi dei dati e di vedere implementate le tecniche per la stima e la quantificazione della probabilità di default. |
Prerequisiti | Per affrontare con successo il modulo di Credit Scoring, lo studente deve avere frequentato e possibilmente superato il corso Generalized Linear Models. In particolare, è richiesta la conoscenza del modello di regressione lineare multiplo, nei seguenti aspetti: a) ipotesi di base b) stima dei parametri con il metodo dei Minimi Quadrati Ordinari (OLS) e con la Massima verosimiglianza (MLE); c) distribuzioni campionarie degli stimatori, sotto normalità o asintotiche; d) intervalli di confidenza e verifica di ipotesi; test F sulla bontà del modello; e) problemi di eteroschedasticità. |
Metodi didattici | L'insegnamento prevede quattro ore di lezione e due ore di esercitazione settimanali. Si consigliano gli studenti di seguire con assiduità le lezioni e le esercitazioni. Inoltre, gli studenti frequentanti possono scegliere di svolgere le esercitazioni assegnate dal docente su base bisettimanale. Le esercitazioni possono essere svolte in gruppi di 3 o 4 studenti ed esonerano dalla consegna del documento scritto (vedi modalità di verifica dell'apprendimento). Si consigliano gli studenti di partecipare allo schema di esercitazioni in gruppo. |
Altre informazioni | Gli studenti incoming in programmi di scambio internazionali quali Erasmus e accordi quadro sono benvenuti. |
Modalità di verifica dell'apprendimento | La valutazione è basata su una prova orale. Nella prova orale lo studente dovrà dimostrare sia padronanza dei contenuti teorici che capacità di applicare le tecniche di analisi dei dati presentate durante il corso. A tal fine, si mette a disposizione sulla pagina web del corso in Unistudium, la traccia di una esercitazione pratica di analisi di uno o più dataset. Lo studente dovrà consegnare un breve resoconto delle analisi svolte secondo la traccia messa in rete, almeno tre giorni prima della data prevista dell'orale. L'elaborato può essere inviato per e-mail al docente (e-mail disponibile nella pagina personale del docente). Gli studenti frequentanti possono aderire ad uno schema di esercitazioni su base settimanale (o bisettimanale). Questo esonera dalla presentazione dell'elaborato. |
Programma esteso | Il modello logistico come modello lineare generalizzato. Interpretazione e stima dei parametri. Intervalli di confidenza e verifica di ipotesi. La classificazione e il Credit Scoring. Definizione di Credit scoring: ipotesi e obiettivi; fasi; errori di classificazione; scelta del cut-off; curva ROC e CAP. Richiami di probabilità: indipendenza marginale e condizionata; variabili casuali categoriali e misure di associazione. Il modello logistico: variabili dummy; forma matriciale; stima mediante massima verosimiglianza; verifica d'ipotesi; criteri di scelta e procedure di selezione del modello; tabella di errata classificazione; test di Hosmer e Lemeshow; il campione bilanciato e metodi di ribilanciamento. Analisi discriminante: il caso normale; stima di massima verosimiglianza dei parametri di una v.c. normale multivariata; stima della funzione discriminante; selezione delle variabili; funzione discriminante di Fisher. Lo score nel tempo. Reject Inference. Il corso sarà basato su analisi di casi reali, analizzati al computer con il software statistico R e Python. |