Insegnamento BASI DI DATI SU LARGA SCALA E DATA MINING

Nome del corso di laurea Informatica
Codice insegnamento GP004153
Sede PERUGIA
Curriculum Comune a tutti i curricula
Docente responsabile Valentina Poggioni
Docenti
  • Valentina Poggioni
Ore
  • 63 Ore - Valentina Poggioni
CFU 9
Regolamento Coorte 2017
Erogato Erogato nel 2017/18
Erogato altro regolamento
Attività Caratterizzante
Ambito Discipline informatiche
Settore INF/01
Periodo Secondo Semestre
Tipo insegnamento Obbligatorio (Required)
Tipo attività Attività formativa monodisciplinare
Lingua insegnamento ITALIANO
Contenuti Basi di dati avanzate, distribuite e non relazionali. Data Warehousing. Gestione grandi quantità di dati. Il processo KDD. Data mining e machine learning. Classificazione, clustering, regole associative. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test
Testi di riferimento Dispense fornite dal docente.
Ian H. Witten, Eibe Frank - Data Mining: Practical Machine Learning Tools and Techniques (2nd ed.) - 2005
Pang-Ning Tan, M. Steinbach, V. Kumar - Introduction to data mining - Addison-Wesley - 2006
Obiettivi formativi Lo studente dovrà conoscere le tecniche e i modelli più attuali per lo sviluppo di basi di dati distribuite e non relazionali, in particolare quando applicate a grando quantità di dati.
Lo studente dovrà conoscere le principali tecniche di modellizzazione e realizzazione per il data warehousing e dovrà essere in grado di progettare, realizzare e interrogare un sistema di datawarehouse.
Lo studente dovrà conoscere le principali tecniche e e gli algoritmi fondamentali per il data mining. Dovrà essere in grado di progettare un sistema di KDD
Prerequisiti Conoscenze di base su database e linguaggio SQL
Metodi didattici Lezioni in aula e in laboratorio
Altre informazioni E-learning platform unistudium.unipg.it
Modalità di verifica dell'apprendimento Progetto + prova orale.
Gli studenti frequentanti possono sostituire la prova orale con prove in itinere svolte durante il periodo di lezione.

Per informazioni sui servizi di supporto agli studenti con disabilità e/o DSA visita la pagina http://www.unipg.it/disabilita-e-dsa
Programma esteso Basi di dati avanzate. Basi di dati distribuite. Basi di dati non relazionali. Data Warehousing: Business Intelligence per analisi dei dati; metodi, strumenti e strategie progettuali; strutture e linguaggi. Software per la gestione di grando quantità di dati.
Il processo Knowledge Discovery in Databases (KDD). Introduzione al data mining; data mining e machine learning.
Classificazione: alberi di decisione (tipi e gestione degli attributi, algoritmi di costruzione); NN classifiers; classificatori bayesiani; classificatori basati su reti neurali; classificatori basati su SVM
Clustering: tipi di cluster e tecniche di clustering, hierarchical and density based clustering (K-means, DBSCAN).
Regole associative: frequent itemset generation, algoritmo a priori e ottimizzazione attraverso hash tree.
Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test.
Condividi su