Insegnamento BASI DI DATI SU LARGA SCALA E DATA MINING

Nome del corso di laurea Informatica
Codice insegnamento GP004153
Curriculum Comune a tutti i curricula
Docente responsabile Valentina Poggioni
Docenti
  • Valentina Poggioni
Ore
  • 63 Ore - Valentina Poggioni
CFU 9
Regolamento Coorte 2019
Erogato Erogato nel 2019/20
Erogato altro regolamento
Attività Caratterizzante
Ambito Discipline informatiche
Settore INF/01
Anno 1
Periodo Secondo Semestre
Tipo insegnamento Obbligatorio (Required)
Tipo attività Attività formativa monodisciplinare
Lingua insegnamento ITALIANO
Contenuti Basi di dati avanzate, distribuite e non relazionali. Data Warehousing. Gestione grandi quantità di dati. Il processo KDD. Data mining e machine learning. Classificazione, clustering, regole associative. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test.
Testi di riferimento Dispense fornite dal docente.
Ian H. Witten, Eibe Frank - Data Mining: Practical Machine Learning Tools and Techniques (2nd ed.) - 2005
Pang-Ning Tan, M. Steinbach, V. Kumar - Introduction to data mining - Addison-Wesley - 2006
Obiettivi formativi Lo studente dovrà conoscere le tecniche e i modelli più attuali per lo sviluppo di basi di dati distribuite e non relazionali, in particolare quando applicate a grandi quantità di dati.
Lo studente dovrà conoscere le principali tecniche di modellizzazione e realizzazione per il data warehousing e dovrà essere in grado di progettare, realizzare e interrogare un sistema di datawarehouse.
Lo studente dovrà conoscere le principali tecniche e e gli algoritmi fondamentali per il data mining. Dovrà essere in grado di progettare un sistema di KDD
Prerequisiti Conoscenze di base su database e linguaggio SQL
Metodi didattici Lezioni in aula e in laboratorio
Altre informazioni E-learning platform unistudium.unipg.it
Modalità di verifica dell'apprendimento Progetto + prova orale.
Gli studenti frequentanti possono sostituire la prova orale con prove in itinere svolte durante il periodo di lezione. Dettagli su tali prove saranno fornite dal docente all'inizio del corso

Per informazioni sui servizi di supporto agli studenti con disabilità e/o DSA visita la pagina http://www.unipg.it/disabilita-e-dsa
Programma esteso Basi di dati avanzate. Basi di dati distribuite. Basi di dati non relazionali. Data Warehousing: Business Intelligence per analisi dei dati; metodi, strumenti e strategie progettuali; strutture e linguaggi. Software per la gestione di grando quantità di dati.
Il processo Knowledge Discovery in Databases (KDD). Introduzione al data mining; data mining e machine learning.
Classificazione: alberi di decisione (tipi e gestione degli attributi, algoritmi di costruzione); NN classifiers; classificatori bayesiani; classificatori basati su reti neurali; classificatori basati su SVM
Clustering: tipi di cluster e tecniche di clustering, hierarchical and density based clustering (K-means, DBSCAN).
Regole associative: frequent itemset generation, algoritmo a priori e ottimizzazione attraverso hash tree.
Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test.
Condividi su