Codice |
A003092 |
Sede |
PERUGIA |
CFU |
6 |
Docente |
Simone Del Sarto |
Docenti |
|
Ore |
- 42 ore - Simone Del Sarto
|
Attività |
Caratterizzante |
Ambito |
Matematico, statistico, informatico |
Settore |
SECS-S/01 |
Tipo insegnamento |
Obbligatorio (Required) |
Lingua insegnamento |
INGLESE |
Contenuti |
Richiami di probabilità e inferenza statistica; teoria della massima verosimiglianza; modelli di regressione lineare semplice e multipla; metodo dei minimi quadrati; diagnostica del modello; inclusione di variabili esplicative categoriche e analisi della varianza; introduzione ai modelli lineari generalizzati; cenni al modello di regressione logistica; modello di Poisson per dati di conteggio; metodi numerici per la stima di massima verosimiglianza dei modelli lineari generalizzati. |
Testi di riferimento |
Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834 |
Obiettivi formativi |
Studentesse e studenti apprenderanno gli strumenti per formulare correttamente i modelli statistici utilizzati per le principali tipologie di variabili di risposta, imparando a stimare questi ultimi e a trarne conclusioni di tipo inferenziale sulla base dei dati osservati. Il corso si propone inoltre di illustrare le tecniche diagnostiche di base per la selezione del modello, trasmettendo al contempo i princìpi guida della modellazione statistica (che spesso esulano dai tecnicismi). |
Prerequisiti |
Conoscenze di base di statistica descrittiva univariata e bivariata, di teoria della probabilità (principali variabili casuali e loro funzioni di massa/densità di probabilità, valori attesi, varianze etc.) e di statistica inferenziale (stima puntuale, intervalli di confidenza, test delle ipotesi). |
Metodi didattici |
Lezioni teoriche frontali, sessioni pratiche con l’utilizzo dei software preposti. |
Modalità di verifica dell'apprendimento |
Esame orale con domande su argomenti di teoria; analisi e commento dell’output del software con la stima dei modelli oggetto del corso. |
Programma esteso |
Richiami di probabilità e inferenza statistica: principali variabili casuali e loro momenti. Proprietà degli stimatori, intervalli di confidenza e test delle ipotesi per medie e proporzioni. Teoria della verosimiglianza: definizione della funzione di verosimiglianza e stima dei parametri attraverso la sua massimizzazione. Proprietà ed esempi per i parametri delle principali distribuzioni. Cenni a metodi di ricampionamento di tipo bootstrap. Test del rapporto di verosimiglianza e test di Wald. Modello di regressione lineare semplice: stima dei parametri con il metodo dei minimi quadrati, stima degli errori standard, interpretazione degli effetti, diagnostica del modello e bontà di adattamento. Rapporto tra analisi di regressione e correlazione lineare. Modello di regressione lineare multipla: stima dei parametri e degli errori standard, interpretazione degli effetti. Corretta specificazione della forma funzionale del modello: effetti di ordine superiore e interazioni. Analisi diagnostica: controllo delle assunzioni alla base del modello e rimedi a possibili violazioni. Inferenza sul modello lineare: test F e test t per significatività globale e locale. Introduzione di variabili esplicative categoriali e test di analisi della varianza. Formulazione matriciale dei modelli lineari. Modelli lineari generalizzati: introduzione delle tre componenti chiave e specificazione per le maggiori distribuzioni: Normale, Binomiale e Poisson. Devianza del modello e test del rapporto di verosimiglianza. Selezione del modello. Modello di Poisson per dati di conteggio. Metodi numerici per la stima dei parametri di un modello lineare generalizzato: algoritmo di Newton-Raphson e Fisher scoring. |
Codice |
A003093 |
Sede |
PERUGIA |
CFU |
6 |
Docente |
Elena Stanghellini |
Docenti |
|
Ore |
- 42 ore - Elena Stanghellini
|
Attività |
Caratterizzante |
Ambito |
Matematico, statistico, informatico |
Settore |
SECS-S/01 |
Tipo insegnamento |
Obbligatorio (Required) |
Lingua insegnamento |
INGLESE |
Contenuti |
Il corso approfondisce i principali strumenti di classificazione: il modello logistico e l’analisi discriminante. Tali strumenti saranno poi applicati nell’ambito del Credit Scoring. Saranno pertanto presentate le nozioni teoriche e pratiche per il Credit Scoring, ovvero: definizione e fasi; probabilità e indipendenza tra variabili casuali; i modelli logistici come classificatori; curva ROC e CAP e altri metodi di validazione (quale il test di Hosmer e Lemeshow). Risposta rara e campionamento retrospettivo per dati sbilanciati saranno oggetto di trattazione. |
Testi di riferimento |
Alan Agresti, Maria Kateri (2021): Foundations of Statistics for Data Scientists (with R and Python). CRC Press, Chapman & Hall. ISBN: 9781003159834 Note in inglese a cura del docente (tradotte dal libro Stanghellini (2009) Introduzione ai metodi statistici per il Credit Scoring -- Springer Italia, Capp: 1-5.)
|
Obiettivi formativi |
Un’importante componente della formazione del Data Scientist riguarda la classificazione. Il corso permette di acquisire gli elementi necessari alla comprensione e implementazione delle principali tecniche statistiche di classificazione parametrica. Le metodologie verranno applicate nel contesto del Credit Scoring per l'analisi e la previsione del rischio di insolvenza. Il taglio applicativo, mediante studio di casi reali attraverso il software R e Python, permette allo studente di acquisire familiarità con l'analisi dei dati e di vedere implementate le tecniche per la stima e la quantificazione della probabilità di default. |
Prerequisiti |
Per affrontare con successo il modulo di Credit Scoring, lo studente deve avere frequentato e possibilmente superato il primo modulo del corso Generalized Linear Models. In particolare, è richiesta la conoscenza del modello di regressione lineare multiplo, nei seguenti aspetti: a) ipotesi di base b) stima dei parametri con il metodo dei Minimi Quadrati Ordinari (OLS) e con la Massima verosimiglianza (MLE); c) distribuzioni campionarie degli stimatori, sotto normalità o asintotiche; d) intervalli di confidenza e verifica di ipotesi; test F sulla bontà del modello; e) problemi di eteroschedasticità. |
Metodi didattici |
L'insegnamento prevede quattro ore di lezione e due ore di esercitazione settimanali. Si consigliano gli studenti di seguire con assiduità le lezioni e le esercitazioni. Inoltre, gli studenti frequentanti possono scegliere di svolgere le esercitazioni assegnate dal docente su base bisettimanale. Le esercitazioni possono essere svolte in gruppi di 3 o 4 studenti ed esonerano dalla consegna del documento scritto (vedi modalità di verifica dell'apprendimento). Si consigliano gli studenti di partecipare allo schema di esercitazioni in gruppo. |
Altre informazioni |
Gli studenti incoming in programmi di scambio internazionali quali Erasmus e accordi quadro sono benvenuti. |
Modalità di verifica dell'apprendimento |
La valutazione è basata su una prova orale. Nella prova orale lo studente dovrà dimostrare sia padronanza dei contenuti teorici che capacità di applicare le tecniche di analisi dei dati presentate durante il corso. A tal fine, si mette a disposizione sulla pagina web del corso in Unistudium, la traccia di una esercitazione pratica di analisi di uno o più dataset. Lo studente dovrà consegnare un breve resoconto delle analisi svolte secondo la traccia messa in rete, almeno tre giorni prima della data prevista dell'orale. L'elaborato può essere inviato per e-mail al docente (e-mail disponibile nella pagina personale del docente). Gli studenti frequentanti possono aderire ad uno schema di esercitazioni su base settimanale (o bisettimanale). Questo esonera dalla presentazione dell'elaborato. |
Programma esteso |
Il Credit Scoring come un problema di classificazione. Definizione di Credit Scoring: ipotesi e obiettivi; fasi; errori di classificazione; scelta del cut-off; curva ROC e CAP. Campione di sviluppo e campione di validazione. Richiami di probabilità: indipendenza marginale e condizionata; variabili casuali categoriali e misure di associazione. Il modello logistico come modello lineare generalizzato. Interpretazione e stima dei parametri: il metodo della massima verosimiglianza. Intervalli di confidenza e verifica di ipotesi. Criteri di scelta delle variabili e procedure di selezione del modello basate sul campione di sviluppo. Il modello logistico come classificatore. Strumenti di verifica sul campione di validazione: la tabella di errata classificazione; test di Hosmer e Lemeshow. Il campione bilanciato e metodi di ribilanciamento. Analisi discriminante: il caso lineare e quadratico; la stima di massima verosimiglianza dei parametri; il metodo plug-in per la stima della funzione discriminante; selezione delle variabili. Lo score nel tempo. Reject Inference. Il corso sarà basato su analisi di casi reali, analizzati al computer con il software statistico R e Python. |
Obiettivi Agenda 2030 per lo sviluppo sostenibile |
L'insegnamento contribuisce al raggiungimento dell'obiettivo n. 4 "Istruzione di qualità" dell'Agenda 2030 per lo sviluppo sostenibile, in quanto fornisce strumenti per l'analisi critica di dati economici e finanziari, un aspetto cruciale nell'epoca dei BIG DATA. |