Insegnamento BASI DI DATI SU LARGA SCALA E DATA MINING
Nome del corso di laurea | Informatica |
---|---|
Codice insegnamento | GP004153 |
Curriculum | Comune a tutti i curricula |
Docente responsabile | Valentina Poggioni |
Docenti |
|
Ore |
|
CFU | 9 |
Regolamento | Coorte 2018 |
Erogato | Erogato nel 2018/19 |
Erogato altro regolamento | |
Attività | Caratterizzante |
Ambito | Discipline informatiche |
Settore | INF/01 |
Anno | 1 |
Periodo | Secondo Semestre |
Tipo insegnamento | Obbligatorio (Required) |
Tipo attività | Attività formativa monodisciplinare |
Lingua insegnamento | ITALIANO |
Contenuti | Basi di dati avanzate, distribuite e non relazionali. Data Warehousing. Gestione grandi quantità di dati. Il processo KDD. Data mining e machine learning. Classificazione, clustering, regole associative. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test. |
Testi di riferimento | Dispense fornite dal docente. Ian H. Witten, Eibe Frank - Data Mining: Practical Machine Learning Tools and Techniques (2nd ed.) - 2005 Pang-Ning Tan, M. Steinbach, V. Kumar - Introduction to data mining - Addison-Wesley - 2006 |
Obiettivi formativi | Lo studente dovrà conoscere le tecniche e i modelli più attuali per lo sviluppo di basi di dati distribuite e non relazionali, in particolare quando applicate a grandi quantità di dati. Lo studente dovrà conoscere le principali tecniche di modellizzazione e realizzazione per il data warehousing e dovrà essere in grado di progettare, realizzare e interrogare un sistema di datawarehouse. Lo studente dovrà conoscere le principali tecniche e e gli algoritmi fondamentali per il data mining. Dovrà essere in grado di progettare un sistema di KDD |
Prerequisiti | Conoscenze di base su database e linguaggio SQL |
Metodi didattici | Lezioni in aula e in laboratorio |
Altre informazioni | E-learning platform unistudium.unipg.it |
Modalità di verifica dell'apprendimento | Progetto + prova orale. Gli studenti frequentanti possono sostituire la prova orale con prove in itinere svolte durante il periodo di lezione. Dettagli su tali prove saranno fornite dal docente all'inizio del corso Per informazioni sui servizi di supporto agli studenti con disabilità e/o DSA visita la pagina http://www.unipg.it/disabilita-e-dsa |
Programma esteso | Basi di dati avanzate. Basi di dati distribuite. Basi di dati non relazionali. Data Warehousing: Business Intelligence per analisi dei dati; metodi, strumenti e strategie progettuali; strutture e linguaggi. Software per la gestione di grando quantità di dati. Il processo Knowledge Discovery in Databases (KDD). Introduzione al data mining; data mining e machine learning. Classificazione: alberi di decisione (tipi e gestione degli attributi, algoritmi di costruzione); NN classifiers; classificatori bayesiani; classificatori basati su reti neurali; classificatori basati su SVM Clustering: tipi di cluster e tecniche di clustering, hierarchical and density based clustering (K-means, DBSCAN). Regole associative: frequent itemset generation, algoritmo a priori e ottimizzazione attraverso hash tree. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test. |