Insegnamento BIOINFORMATICS AND BIOSTATISTICS

Nome del corso di laurea Biotecnologie
Codice insegnamento GP004129
Curriculum Comune a tutti i curricula
Docente responsabile Roberto Maria Pellegrino
Docenti
  • Roberto Maria Pellegrino
Ore
  • 52 Ore - Roberto Maria Pellegrino
CFU 6
Regolamento Coorte 2018
Erogato Erogato nel 2020/21
Attività Altro
Ambito Abilità informatiche e telematiche
Settore BIO/11
Anno 3
Periodo Primo Semestre
Tipo insegnamento Obbligatorio (Required)
Tipo attività Attività formativa monodisciplinare
Lingua insegnamento italiano e inglese
Contenuti
Lezioni Teoriche:
Nozioni fondamentali di IT (Information Technology), Computer, algoritmi, programmi. Introduzione all’ambiente di programmazione R. Database relazionali, Statistica descrittiva, inferenziale, multivariata. Applicazioni bioinformatiche e biostatistiche nelle scienze «omiche». Concetti di evoluzione molecolare. Allineamenti tra sequenze, uso di web server genomici e proteomici. Introduzione allo studio della proteomica con la spettrometria di massa

Attività di Laboratorio:
Alfabetizzazione all’uso del computer, Uso di fogli elettronici, lavorare con tabelle, produrre grafici, elaborazioni statistiche. Importazione di dati e utilizzo di funzioni sviluppate in ambiente R. Analisi statistica multivariata con MetaboAnalyst ed altre applicazione web. Allineamento di sequenze con Dotlet, Ricerche per similarità con Blast e altre attività sul genoma basate su webserver NCBI, Spettrometria di massa applicata alla proteomica. Interpretazione di spettri di massa di peptidi e strategie di sequenziamento di proteine.
Testi di riferimento
Manuela Helmer Citterich et al, Fondamenti di Bioinformatica. Ed Zanichelli.

Michael C. Whitlock, Dolph Schluter "Analisi statistica dei dati biologici", ed Zanichelli

Articoli scientifici di riviste specializzate saranno forniti in formato PDF durante il corso.
Obiettivi formativi Alla fine del corso lo studente conoscerà l'architettura e le funzioni base dei computer, i metodi di implementazione degli algoritmi e ne saprà valutare la trattabilità mediante mezzi informatici. Conoscerà la struttura e il funzionamento dei database relazionali.

Utilizzando software liberi o piattaforme web, lo studente sarà in grado di elaborare grafici e tabelle da dati univariati per rappresentare i risultati analitici di sperimentazioni biologiche e di indagini biometriche.

Sarà in grado di dimensionare un esperimento biologico, interpretarne il risultato e valutare la significatività statistica del risultato.

Nel campo delle scienze "omiche" lo studente sarà in grado di analizzare matrici complesse per determinare l'evanutale presenza di variabili latenti ed eventuali correlazioni tra campioni. Mediante tecniche di analisi statistica multivariata lo studente sarà inoltre in grado di individuare candidati biomarker oppure determinare gli elementi differenzialmente espressi e proiettare i dati su piattaforme web per Enrichment Analysis, Pathway Analysis e Joint Pathway Analysis.

Nel campo della genomica/proteomica lo studente sarà in grado di scoprire relazioni di omologia tra sequenze mediante algoritmi di allineamento globale, locale e multiplo. Sarà in grado di interrogare banche dati pubbliche per la ricerca di sequenze omologhe e sarà in grado di modulare i parametri di ricerca così da ottenere risultati significativi per gli scopi della ricerca. Inoltre, individuato un set di geni differenzialmente espressi da una analisi trascrittomica, saprà interrogare i vocabolari della Gene Onthology e interpretare il risultato.

Nel campo della proteomica lo studente sarà in grado di applicare strategie bioinformatiche per l'interpretazione di dati spettrometrici e proiettare i risultati su piattaforme web per lo svolgimento di indagini biotecnologiche.
Prerequisiti
Per affrontare il corso lo studente deve avere una buona base di matematica, chimica organica, biochimica, biologia molecolare.
Metodi didattici
Lezioni frontali con spiegazioni alla lavagna e proiezione di diapositive.

Le attività di laboratorio saranno svolte in aula con l'ausilio di computer personali
Altre informazioni
Per partecipare attivamente alle ore di laboratorio e per svolgere le esercitazioni a casa, gli studenti devono installare nei computer personali i software liberi "calc" di LibreOffice ed il pacchetto "R".
Modalità di verifica dell'apprendimento
Test scritto più test orale, come nel seguente schema:

Test scritto (obbligatorio): 30 domande a risposta multipla. Tempo massimo 2 ore. Punteggio: risposta giusta = 1; risposta sbagliata = – 0,5; nessuna risposta = 0.

Valutazione test scritto:
Da 0 a 11,5 = competenze insufficienti, esame da ripetere alla sessione successiva.
Da 12 a 20,5 = verifica orale obbligatoria.
Da 21 a 30 = verifica orale opzionale.

Test orale: 3 domande su argomenti diversi estratti a sorte. Max 3 punti per ciascuna domanda, punteggio test orale: minimo 0, massimo 9

Valutazione complessiva: voto test scritto + voto test orale.
(Decimali approssimati per eccesso).
voto finale < 17,5: competenze insufficienti, esame da ripetere alla sessione successiva;
Voto finale >= 18: competenze sufficienti;
Voto finale > 30: 30 e Lode
Programma esteso 1) Elementi di informatica di base: Architettura dei calcolatori, Sistemi operativi, Algoritmi e programmi, Linguaggi di programmazione, Introduzione all'uso di R,, operazioni con variabili, vettori e matrici, . Server e web server, Basi di dati, il modello relazionali, processo di normalizzazione, algebra relazionale e interrogazione di un database relazionale, Operatori booleani.

2) Elementi di statistica descrittiva: Definizioni, popolazioni e campioni, tipi di campionamento, tipi di dati e variabili, distribuzione delle frequenze. Rappresentazione della distribuzione delle frequenze, diagrammi a barre, a torta, tabelle di frequenze e istogrammi per dati numerici. Mediana e differenza interquantile, rappresentazione boxplot, Media aritmetica e deviazione standard, confronto tra misure di posizione e dispersione. La distribuzione normale: Formula della distribuzione normale e sue proprietà, la distribuzione normale standardizzata, tavole statistiche. Teorema del limite centrale. Distribuzione campionaria di una stima, misurare l'incertezza di una stima, intervallo di confidenza. Formulazione, impiego e verifica delle ipotesi: ipotesi nulla, ipotesi alternativa. P-value Z-test, T-test, ANOVA, F-test, analisi ROC.

3) Analisi Statistia multivariata: proprietà della matrice dati: filtrazione, trasformazione e scalaggio dei dati. Covarianza e matrice di covarianza, rappresentazione grafica Heatmap, analisi t-test e ANOVA, Volcano Plot. Metodi di analisi PCA, LDA, PLS, dendrogrammi, Random Forest. Uso di piattaforme web dedicate (MetaboAnalyst) e introduzione all'uso delle funzioni statistiche sviluppate in R.

4) L’evoluzione biologica e molecolare, meccanismi molecolari alla base dei processi evolutivi, Geni Omologhi, ortologhi e paraloghi.

5) Allineamento e confronto tra sequenze biologiche, Allineamento globale di coppie di sequenze, Programmazione dinamica, Matrici di sostituzione, Allineamento locale di coppie di sequenze, Ricerche per similarità in banca dati, BLAST: Parametri di input e output, Significatività degli allineamenti di sequenze, Interpretazione dei risultati. Allineamento di sequenze a genomi, Allineamento multiplo di sequenze.

6) Cenni alle principali Piattaforme di sequenziamento degli acidi nucleici e alla ricostruzione e annotazione di genomi. Proteine e proteomi: Annotazione funzionale di proteine, Banche dati: UNIPROT, PROSITE, ELM, PDB, PDBe, IntAct, MINT, STRING.

7) Analisi proteomiche mediante spettrometria di massa, interpretazione di spettri, uso di banche dati e servizi web dedicati alla proteomica (Mascot).
Condividi su