Insegnamento BIG DATA ANALYTICS

Nome del corso di laurea Ingegneria informatica e robotica
Codice insegnamento 70A00037
Curriculum Data science
Docente responsabile Paolo Banelli
Docenti
  • Paolo Banelli
Ore
  • 72 Ore - Paolo Banelli
CFU 9
Regolamento Coorte 2017
Erogato Erogato nel 2018/19
Erogato altro regolamento
Attività Affine/integrativa
Ambito Attività formative affini o integrative
Settore ING-INF/03
Periodo Primo Semestre
Tipo insegnamento Obbligatorio (Required)
Tipo attività Attività formativa monodisciplinare
Lingua insegnamento ITALIANO
Contenuti - FONDAMENTI di ELABORAZIONE STATISTICA di DATI e SEGNALI. - FONDAMENTI di OTTIMIZZAZIONE CONVESSA -
ALGORITMI di APPRENDIMENTO ADATTATIVI E ITERATIVI
- BIG. DATA REDUCTION and SAMPLING
- ELABORAZIONE di DATI/SEGNALI su GRAFI - OTTIMIZZAZIONE DISTRIBUITA per l'elaborazione di DATI/SEGNALI e l'APPRENDIMENTO su RETI/GRAFI.
Testi di riferimento Il contenuto dell'insegnamento sarà ispirato al contenuto di alcuni capitoli di questi libri:- S.Kay, Fundamentals of Statistical Signal Processing, Vol. I & II, Prentice Hall, 1993-1998;
- S. Theodoridis, Machine Learning: A Bayesian and optimization perspective.- T. Hastie, et. al., The Elements of Statistical Learning: data Mining, Inference, and Prediction
- M. E. J Newman, Networks an Introduction- S. Boyd and L. Vandenberghe, Convex Optimization, Cambridge University Press, 2004;
- S. Boyd et al., Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers, Foundations and Trends in Machine Learning, 3(1):1–122, 2011- Inoltre saranno rese disponibili delle dispense a cura del docente.
Obiettivi formativi Comprendere i fondamenti dell'inferenza statistica e della ottimizzazione convessa come strumenti fondamentali della analisi dei (big)-data. Comprendere il concetto di riduzione dei dati e le condizioni sotto le quali l'inferenza statistica e/o la ricostruzione dell'informazione non soffre eccessivamente di riduzione/campionamento. Estendere le conoscenze dell'elaborazione dei segnali ai segnali definiti su grafi, i quali costituiscono una naturale rappresentazione di grandi moli di dati, dipendente o dalla loro distribuzione fisica su reti geografiche o tecnologiche, piuttosto che dalla loro intrinseca similarità statistica, piuttosto che da entrambe.
Comprendere gli strumenti metodologici per distribuire algoritmi di inferenza statistica su agenti multipli (computers, etc.) al fine di abilitare l'inferenza statistica e l'apprendimento su grandi moli di dati, potenzialmente distribuiti fisicamente o logicamente su una rete.
Prerequisiti Indispensabile: Analisi I e II, Algebra lineare, Teoria della Probabilità, Teoria dei Segnali, Processi Aleatori, Elaborazione numerica dei segnali.Suggerito: Machine Learning e Data Mining. Utile: Teoria della Stima e della Decisione
Metodi didattici Le lezioni saranno frontali con l'aiuto di slide/appunti al calcolatore. Inoltre alcuni degli algoritmi spiegati a lezione, saranno implementati al calcolatore in modo interattivo con gli studenti.
Modalità di verifica dell'apprendimento 1) Una breve tesina scritta sull'approfondimento di uno degli argomenti trattati a lezione, corredata dai risultati di simulazioni al calcolatore. Da consegnare 1 settimana prima della prova orale.

2) Esame orale: discussione della tesina e tipicamente un paio di domande sugli ulteriori contenuti del corso.

Per informazioni sui servizi di supporto agli studenti con disabilità e/o DSA visita la pagina http://www.unipg.it/disabilita-e-dsa
Programma esteso - Part I: FUNDAMENTALS OF STATISTICAL SIGNAL PROCESSING (14 ore)
Minimum variance unbiased estimation; Cramer-Rao lower bound;Sufficient statistics; maximum likelihood estimation, Linear estimation, least squares; Bayesian estimation: MMSE estimation, linear estimation.Adaptive estimation theory: Least mean squares estimation, recursive least squares estimation; Kalman filtering. STATISTICAL DECISION THEORY: Neyman-Pearson, Minimum Probability of Error, Bayes Risk, Multiple Hypothesis Testing;

- Part II: FUNDAMENTALS OF CONVEX OPTIMIZATION (10 ore)
Basics of convex optimization: Convex sets, convex functions, convex optimization problems;Duality theory: Lagrange dual problem, Slater's constraint qualifications, KKT conditions; Optimization algorithms: Primal methods (steepest descent, gradient projection, Newton method), primal-dual methods (dual ascent, alternating direction method of multipliers);Examples of applications: Approximation and fitting, statistical estimation and detection, adaptive filtering, supervised and unsupervised learning from data;

- Part III: BIG-DATA REDUCTION (8 ore)Compressed Sampling/Sensing and reconstructionStatistical Inference by Sparse Sensing. Classification by Principal Component Analysis.

Part IV: GRAPH-BASED SIGNAL PROCESSING (18 ore) Signals on graph: motivating examples; algebraic graph theory, graph features; signal processing on graphs: Fourier Transform, smoothing, sampling, and data compression on graph; Filtering over graphs.

- Part V: DISTRIBUTED OPTIMIZATION, SIGNAL PROCESSING, and LEARNING over NETWORKS (22 ore)Average consensus: Theory and algorithms; Distributed optimization: Consensus and sharing; Distributed optimization: Primal and primal-dual methods; Distributed signal processing: Estimation and detection; Distributed signal processing: LMS, RLS and Kalman Filtering on Graphs.Distributed supervised learning: Regression and data classification; Distributed unsupervised learning: Dictionary learning and data clustering;
Condividi su