Insegnamento BASI DI DATI SU LARGA SCALA E DATA MINING
Nome del corso di laurea | Informatica |
---|---|
Codice insegnamento | GP004153 |
Sede | PERUGIA |
Curriculum | Comune a tutti i curricula |
Docente responsabile | Valentina Poggioni |
Docenti |
|
Ore |
|
CFU | 9 |
Regolamento | Coorte 2017 |
Erogato | Erogato nel 2017/18 |
Erogato altro regolamento | |
Attività | Caratterizzante |
Ambito | Discipline informatiche |
Settore | INF/01 |
Periodo | Secondo Semestre |
Tipo insegnamento | Obbligatorio (Required) |
Tipo attività | Attività formativa monodisciplinare |
Lingua insegnamento | ITALIANO |
Contenuti | Basi di dati avanzate, distribuite e non relazionali. Data Warehousing. Gestione grandi quantità di dati. Il processo KDD. Data mining e machine learning. Classificazione, clustering, regole associative. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test |
Testi di riferimento | Dispense fornite dal docente. Ian H. Witten, Eibe Frank - Data Mining: Practical Machine Learning Tools and Techniques (2nd ed.) - 2005 Pang-Ning Tan, M. Steinbach, V. Kumar - Introduction to data mining - Addison-Wesley - 2006 |
Obiettivi formativi | Lo studente dovrà conoscere le tecniche e i modelli più attuali per lo sviluppo di basi di dati distribuite e non relazionali, in particolare quando applicate a grando quantità di dati. Lo studente dovrà conoscere le principali tecniche di modellizzazione e realizzazione per il data warehousing e dovrà essere in grado di progettare, realizzare e interrogare un sistema di datawarehouse. Lo studente dovrà conoscere le principali tecniche e e gli algoritmi fondamentali per il data mining. Dovrà essere in grado di progettare un sistema di KDD |
Prerequisiti | Conoscenze di base su database e linguaggio SQL |
Metodi didattici | Lezioni in aula e in laboratorio |
Altre informazioni | E-learning platform unistudium.unipg.it |
Modalità di verifica dell'apprendimento | Progetto + prova orale. Gli studenti frequentanti possono sostituire la prova orale con prove in itinere svolte durante il periodo di lezione. Per informazioni sui servizi di supporto agli studenti con disabilità e/o DSA visita la pagina http://www.unipg.it/disabilita-e-dsa |
Programma esteso | Basi di dati avanzate. Basi di dati distribuite. Basi di dati non relazionali. Data Warehousing: Business Intelligence per analisi dei dati; metodi, strumenti e strategie progettuali; strutture e linguaggi. Software per la gestione di grando quantità di dati. Il processo Knowledge Discovery in Databases (KDD). Introduzione al data mining; data mining e machine learning. Classificazione: alberi di decisione (tipi e gestione degli attributi, algoritmi di costruzione); NN classifiers; classificatori bayesiani; classificatori basati su reti neurali; classificatori basati su SVM Clustering: tipi di cluster e tecniche di clustering, hierarchical and density based clustering (K-means, DBSCAN). Regole associative: frequent itemset generation, algoritmo a priori e ottimizzazione attraverso hash tree. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test. |