UniProt
UniProt (Universal Protein) è il più grande database bioinformatico per le sequenze proteiche di tutti gli organismi viventi e dei virus. Molte informazioni derivano da progetti di sequenziamento del genoma. Il Consorzio UniProtIl Consorzio UniProt (UniProt Consortium) comprende l'Istituto europeo di bioinformatica (EBI), l'Istituto svizzero di bioinformatica (SIB) e la Protein Information Resource (PIR). EBI, che si trova presso il Wellcome Trust Genome Campus a Hinxton, Regno Unito, ospita un grande centro di database e servizi di bioinformatica. SIB, con sede a Ginevra, Svizzera, gestisce i server della ExPASy (Expert Protein Analysis System) che sono una risorsa centrale per strumenti e database di proteomica. PIR, ospitato dal National Biomedical Research Foundation (NBRF) al Georgetown University Medical Center a Washington, DC, USA, è l'erede del più antico database di sequenze proteiche, Atlas of Protein Sequence and Structure di Margaret Dayhoff, pubblicato la prima volta nel 1965.[1] Nel 2002 EBI, SIB, e PIR hanno unito le loro forze, con il nome di Consorzio UniProt[2]. Le origini dei database UniProtOgni membro del consorzio è fortemente impegnato nella gestione del database di proteine e nelle annotazioni. Fino a poco tempo fa, EBI e SIB insieme producevano i database Swiss-Prot e TrEMBL, mentre PIR produceva il suo database delle sequenze proteiche (Protein Sequence, PIR-PSD).[3][4][5] Questi database coesistevano con priorità diverse di copertura e annotazioni delle sequenze proteiche. Swiss-Prot è stata creata nel 1986 da Amos Bairoch durante il suo dottorato e sviluppata dall'Istituto svizzero di bioinformatica e dall'Istituto europeo di bioinformatica.[6][7] Swiss-Prot ha lo scopo di fornire sequenze proteiche affidabili associate a un elevato livello di annotazioni (come la descrizione della funzione di una proteina, la struttura del suo dominio, le modificazioni post traduzionali, le varianti, etc.), un livello minimo di ridondanza e un alto livello di integrazione con altre banche dati. Riconoscendo che i dati della sequenza venivano prodotte ad un ritmo superiore alla capacità di gestirli di Swiss-Prot, venne creata TrEMBL (Translated EMBL Nucleotide Sequence Data Library) per fornire annotazioni automatizzate per le proteine non ancora presenti in Swiss-Prot. Nel frattempo, PIR mantenne il PIR-PSD e i relativi database, compreso iProClass, un database di sequenze proteiche e famiglie. I membri del consorzio hanno unito le loro risorse e competenze che si sovrapponevano, e lanciato UniProt nel dicembre 2003.[8] Organizzazione dei database UniProtUniProt fornisce quattro database principali: UniProtKBUniProt Knowledgebase (UniProtKB) è un database di proteine curato da esperti, composto da due sezioni. UniProtKB/Swiss-Prot (contenente voci revisionate, annotate manualmente) e UniProtKB/TrEMBL (contenente voci non revisionate, annotate automaticamente).[9] Nella versione 2010_09 del 10 agosto 2010, UniProtKB/Swiss-Prot conteneva 519.348 voci, e UniProtKB/TrEMBL conteneva 11.636.205 voci.[10][11] UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot è un database di sequenze proteiche di alta qualità, annotato manualmente, non ridondante. Esso combina le informazioni estratte dalla letteratura scientifica e l'analisi computazionale valutata da biocurator. Lo scopo di UniProtKB/Swiss-Prot è quello di fornire tutte le informazioni note relative ad una particolare proteina. Le annotazioni vengono riviste periodicamente per tenere il passo con le attuali conoscenze scientifiche. Le annotazioni manuali di una voce comprendono analisi dettagliate delle sequenze proteiche e della letteratura scientifica.[12] Le sequenze dello stesso gene e della stessa specie vengono fuse nella stessa voce del database. Le differenze tra le sequenze vengono identificate, e la loro causa documentata (per esempio Splicing alternativo, variazione naturale, luoghi di iniziazione non corretti, confini di esone non corretti, frameshifts, conflitti non identificati). Una gamma di strumenti di analisi di sequenza viene utilizzata nelle annotazioni delle voci di UniProtKB/Swiss-Prot. Previsioni computerizzate sono valutate manualmente, e i risultati pertinenti vengono selezionati per essere inclusi nella voce. Queste previsioni includono le modificazioni post-traduzionali, dominii transmembrani e topologia, peptide segnali, identificazione di dominio, e classificazione della famiglia di proteine.[12][13] Vengono identificate tramite banche dati di ricerca come Pubmed le pubblicazioni sull'argomento. Viene letto il testo completo di ogni documento, e l'informazione viene estratta ed inserita nella voce. Le annotazioni derivanti dalla letteratura scientifica includono (ma non si limitano):[12][13][14]
Le voci annotate vengono sottoposte al controllo di qualità, prima dell'inclusione nell'UniProtKB/Swiss-Prot. Quando i nuovi dati sono disponibili, le voci vengono aggiornate. UniProtKB/TrEMBLUniParcUniRefUniMesNote
Collegamenti esterni |