|
1. Attimonelli M, Lanave C, Pesole G, Liuni S, D'Elia D, Catalano D, Licciulli F, Grillo G, De Robertis M, Pasimeni R, Saccone C MitBASE, AMmtDB e MitoNuc, un pool di banche dati specializzate MITOCONDRIALI. Meeting: BIOCOMP 2000 - Year: 2000 Full text in a new tab Topic: Databanks Abstract: Nell'ultimo ventennio abbiamo assistito a due grandi rivoluzioni tecnologiche, lo sviluppo delle tecniche del DNA ricombinante e lo sviluppo delle Tecnologie informatiche. I metodi di sequenziamento sempre più avanzati hanno reso disponibili una grande quantità di dati ma la loro utilità è strettamente correlata alla disponibilità di strumenti informatici che ne consentano l'immagazzinamento e la catalogazione razionale allo scopo di consentirne l'analisi. Tutto ciò ha fatto nascere la neccessità di creare banche dati specializzate. MitBASE, AMmtDB e MitoNuc sono tre banche dati specializzate mitocondriali sviluppate dal gruppo di bioinformatica di Bari. MitBASE è una banca dati che raccoglie in maniera integrata sequenze di DNA mitocondriale di differenti organismi. La sua realizzazione è stata possibile grazie alla collaborazione tra sette differenti gruppi di ricerca europei ciascuno dei quali si è occupato della raccolta e della codifica dei dati relativi ad uno specifico gruppo di organismi (uomo, vertebrati, invertebrati, protisti, funghi, piante ed alghe). Le sequenze nucleotidiche e le loro eventuali varianti, raccolte dalle banche dati primarie e dalla letteratura, relative ai diversi organismi sono state poi arricchite con informazioni aggiuntive di carattere specifico per ciascun nodo. Il gruppo di ricerca di Bari si è occupato della strutturazione e della codifica dei dati relativi a varianti del DNA mitocondriale di uomo e di altri vertebrati con particolare attenzione ai dati inerenti a studi di genetica di popolazioni umane e a studi correlati alle patologie mitocondriali. Un nodo supplementare è stato inoltre sviluppato per raccogliere sequenze di geni nucleari del lievito Saccharomyces cerevisiae coinvolti nella biogenesi mitocondriale. Il database è disponibile al seguente indirizzo: http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl. AMmtDB è invece una banca dati costituita da una collezione di sequenze multiallineate di geni mitocondriali di vertebrati e invertebrati. Le sequenze multiallineate si riferiscono a geni che codificano per proteine e tRNA. Sono presenti inoltre anche multiallineamenti della regione del D-loop dei mammiferi. Tutti i dati sono stati strutturati per essere interrogati mediante il sistema di retrieval SRS all'indirizzo: http://bio-www.ba.cnr.it:8000/BioWWW/#AMMTDB. MitoNuc è una banca dati specializzata di geni nucleari di Metazoi coinvolti nella biogenesi dei mitocondri. Le informazioni relative a ciascun gene riguardanti ad esempio la localizzazione submitocondriale del prodotto, la sua eventuale tessuto specificità, il peptide segnale, le regioni 5' e 3' UTR dell'mRNA, sono strutturate in modo tale da consentire un efficace retrieval. Tale banca dati potrà essere proficuamente utilizzata per lo studio delle proprietà strutturali e funzionali dei geni nucleari codificanti per proteine mitocondriali, dei loro prodotti e delle interazioni tra il sistema genetico nucleare e quello mitocondriale. La banca dati è disponibile all'indirizzo: http://bio-www.ba.cnr.it:8000/srs6/ |
2. Calogero RA, Iazzetti G PRO2INS: un database per l'annotazione di interazioni proteina-proteina Meeting: BIOCOMP 2000 - Year: 2000 Full text in a new tab Topic: Databanks Abstract: Negli ultimi anni, tecniche quali il "yeast two hybrid system" hanno permesso la produzione di una notevole mole di dati riguardanti le interazioni proteina-proteina, aprendo di fatto la via alla comprensione dell'intricata rete d'interazioni proteiche che regolano le funzioni della cellula. Pur essendo disponibili un notevole numero di banche dati dedicate alle proteine ed ai domini strutturali proteici, le interazioni proteina-proteina sono raramente annotate (ad es.: domini d'interazione proteina-proteina caratterizzati strutturalmente) in questi databases. Quindi, non essendo i dati d'interazione tra proteine raggruppati in alcun modo, risulta alquanto tedioso risalire all'identificazione dei possibili pathways d'interazione tra piu' proteine. Il database PRO2INS (PROtein-PROtein INteractionS) nasce come punto di raccolta dei dati d'interazione tra proteine ed e' stato costruito utilizzando prevalentemente dati di letteratura (MEDLINE). PRO2INS e' stato sviluppato sfruttando le potenzialita' offerte dal linguaggio VRML 2.0 nella costruzione di mondi virtuali. In particolar modo il VRML 2.0 ha permesso di creare una rete tridimensionale dove le proteine sono rappresentate dai punti di giunzione (nodi) tra i filamenti della rete che rappresentano invece le interazioni proteina-proteina. I nodi (proteine) sono rappresentati da cilindri, le cui dimensioni sono proporzionali alla lunghezza della proteina. All'interno dei cilindri (nodi), i domini d'interazione con altre proteine sono rappresentati da fasce colorate da cui si originano i filamenti (interazioni proteina-proteina). PRO2INS al momento contiene piu' di 100 proteine, per le quali e' stata dimostrata sperimentalmente un'interazione. |
3. Cannata N, Dioguardi R, Fontana P, Scannapieco P, Toppo S, Lanfranchi G, Valle G An integrated knowledge-base of gene expression in human skeletal muscle Meeting: BIOCOMP 2000 - Year: 2000 Full text in a new tab Topic: Databanks Abstract: We have build a solid scaffolding that can hold and connect muscle transcript sequencing data to functional data, expression profiles, genomic sequences and genetic diseases. The starting point is the wide collection of skeletal muscle ESTs produced at CRIBI, which are automatically analysed, filtered and stored in a SQL table (HSPD-EST). A schematic view of the organization of the data is shown in the figure. ESTs are assembled into clusters (HSPD-CLUSTER table), which are very transitory entities as they may change at every new assembly depending on the order that the ESTs were merged or on the presence of new variant isoforms determined by alternative splicing or paralogue genes. On the other hand, many transcripts have now been well characterised and therefore should be considered as stable entities. Therefore, we decided to implement a Transcript Integrated Table (TRAIT) of human skeletal muscle, that includes some of the established information that is already available. As can be seen in the figure, we have also implemented a Single-Transcript Integrated Table (STRAIT), where different transcripts are stored in different records, even if they come from the same gene, for instance after alternative splicing. Therefore, every single transcript is recorded in STRAIT, while TRAIT is used to link together those transcripts that originated from the same gene. When a new cluster is discovered, then a provisional STRAIT record is automatically created. Records become permanent after the addition of further information such as full length sequencing, functional studies and high density hybridisation experiments, which are currently performed in our laboratory. All the above information is organised under an SQL database management system, in a protected intranet environment, currently including more than 4,000 STRAIT records. All the tables are periodically translated into SRS databases and are accessible on the web at HYPERLINK "http://grup.bio.unipd.it/" . The full implementation of the other databases (shown in the figure in light blue) is currently under way. In particular, a series of scripts and automatic procedures have been developed, linking full and partial transcripts to genomic sequences in view of the release of the entire human genome sequence. Our scripts make use of programs such as Blast, GeneFinder and Sim4, to perform this analysis systematically on every transcript of our database. The identification of the genomic sequence allows a simple and exact localisation of the genes and gives an indication of the full length sequence, introns, exons, alternative splicing and promoter region. Similar systematic procedures are also under way to link our muscle transcripts to sequences from model organisms such as yeast, C. elegans, Drosophila and mouse. |
4. Pesole G, Gissi C, Grillo G, Licciulli F, Larizza A, Liuni S Structural and evolutionary analysis of eukaryotic mRNA untranslated regions Meeting: BIOCOMP 2000 - Year: 2000 Full text in a new tab Topic: Databanks Abstract: The 5’ and 3’ untranslated regions of eukaryotic mRNAs may play a crucial role in the regulation of gene expression controlling mRNA localization, stability and translation efficiency. In order to study the general structural and compositional features of these sequences we have previously developed UTRdb, a specialized database of 5’ and 3’ UTR sequences of eukaryotic mRNAs cleaned from redundancy (Pesole, Liuni et al. 2000) . Utrdb (release 10.0) contains 75,448 entries (26,145,985 nucleotides) which are also annotated for the presence of functional sequence patterns whose biological activity has been experimentally demonstrated. All these patterns have been collected in the UTRsite database where for each functional pattern, corresponding to a specific entry, the consensus structure is reported with a short description of its biological activity and the relevant bibliography. Furthermore, UTRdb entries have been annotated for the presence of repeated elements present in the Repbase database (Jurka 1998) . A total of 5,818 functional elements and 54,975 repetitive elements are annotated in UTRdb. All Web resources we implemented for the retrieval and the analysis of UTR sequences are available at the UTR home page (Pesole and Liuni 1999b) we recently implemented. UTRdb entries can be retrieved through the SRS system where crosslinks to UTRsite as well as to the nucleotide or aminoacid primary database are also established. Through the Web facility UTRscan any input sequence can be searched for the presence of a functional pattern annotated in UTRsite and UTRfasta allows to assess sequence similarity between a query sequence and UTRdb entries. The analysis of complete UTR sequences contained in this database showed that 5’-UTR sequences, on the average 187 nucleotides long, were 1,2 to 4,3 times shorter than the corresponding 3’-UTR sequences in the various taxonomic groups considered. As far as the compositional properties were concerned, on average 5’-UTR sequences resulted in all cases GC richer than 3’-UTR sequences and significant correlation was found between the GC content of 5’ and 3’-UTR sequences and the GC content of the third silent codon positions of the corresponding protein coding genes (Pesole, Liuni et al. 1997) . Some structural features of 5'UTRs were investigated, such as presence of upstream ORFs and context of initiator ATG, which are known to affect the mRNA translation efficiency (Pesole, Bernardi et al. 1999) . In order to assess the level of functional constraint of UTR sequences we have studied their evolutionary dynamics also in comparison with the corresponding coding regions. With suitable evolutionary models we have calculated the nucleotide substitution rate of 5’-UTR, 3’-UTR, synonymous and asynonymous positions by comparing complete human, murid (rat and mouse) and artiodactyl mRNAs, for which a suitable number of orthologous sequences was available. |