O projektu: |
Ontologije su strukturirani načini pohrane znanja, i pokazale su svoju upotrebljivost u raznim područjima znanosti i industrije. Istaknuti primjer je tzv. Gene Ontology, koja je istraživačima iz svih polja biologije pružila kontrolirani vokabular za opis funkcija genskih produkata - proteina.
Gene Ontology (GO) praktički je revolucionalizirao suvremenu molekularnu biologiju - na tražilici za biomedicinsku literaturu PubMed samo je prošle 2007. godine izašlo 477 radova koji imaju GO već u naslovu ili sažetku. Naime, moderne eksperimentalne tehnike kao npr. DNA čipovi (microarrays) mogu mjeriti aktivnosti desetaka tisuća gena odjednom. Tako možemo pronaći sve gene čija se aktivnost razlikuje između npr. tumora i zdravog tkiva. Rezultirajući skupovi gena nerijetko imaju i stotine članova te se interpretiraju tako da se među njima statističkim testovima traže nad- i pod-zastupljene GO kategorije, v. Rivals et al., Bioinformatics 23/4 (2007).
Ovakva sumarizacija podataka u bliskoj budućnosti bit će nedostatna. Naime, DNA čipovi pojeftinjuju i postaju osjetljiviji - posljedično, liste gena koje razlikuju klase bioloških uzoraka postat će sve duže, te će se broj nadzastupljenih GO kategorija penjati do desetaka ili stotina. Situaciju dodatno komplicira visok stupanj redundantnosti i preklapanja GO kategorija. Potrebno je rješenje koje će: (a) omogućiti fleksibilno reduciranje liste preklapajućih GO kategorija uz minimalan gubitak informacije i (b) vizualizirati preostale GO kategorije, na pregledan način integrirajući informacije o njihovim međusobim odnosima sa ostalim veličinama bitnim korisniku - npr. snaga nadzastupljenosti konkretne GO kategorije, njena veličina, i sl.
Stoga predlažemo uspostavu Web aplikacije naziva "REVIGO" koja će se oslanjati na mnoštvo već istraženih metrika semantičke sličnosti u prostoru GO kategorija, v. Schlicker i Albrecht, Nucl Acids Res 36 (2008). Korisniku će omogućavati da zadanu listu GO kategorija skrati, izbacujući GO kategorije do proizvoljne razine sličnosti, i zatim preostale rezultate vizualizira upotrebom tehnika za redukciju dimenzionalnosti, prvenstveno analize osnovnih komponenti (engl. PCA), tako pružajući jedinstven vid bioinformatičke potpore vrhunskom znanstvenom radu u Hrvatskoj i svijetu. |