Parallellisatie van een probabilistisch clusteringsalgoritme voor gen expressiedata

Probleemstelling

Recente vooruitgang in de biotechnologie heeft er voor gezorgd dat expressie-data van genen op een zeer grote schaal kan gegenereerd worden. Een eerste stap in de analyse van deze data is het groeperen (clusteren) van genen die gelijkaardige expressieprofielen hebben. Deze genen zullen immers vaak betrokken zijn bij dezelfde cellulaire processen, en worden waarschijnlijk ook gereguleerd door een gemeenschappelijke verzameling van genen (regulators).

Recent werd er in onze vakgroep een nieuw, probabilistisch clusteringalgoritme ontwikkeld dat probeert tegelijkertijd genen en expressie-condities te clusteren, om zo coherente deelverzamelingen van genen en condities (de zogenaamde bi-clusters) te ontdekken. Dit clusteringalgoritme maakt gebruik van een Bayesiaanse score om de clusters te evalueren, en gebruikt een Gibbs sampling procedure om de optimale verdeling in clusters te vinden. In vergelijking met reeds bestaande clusteringalgoritmen konden we aantonen dat dit algoritme clusters van een betere kwaliteit terugvindt, maar dit wel tegen een zeer hoge computationele prijs. Op een grote dataset vergt het algoritme namelijk al snel enkele dagen rekentijd om tot een kwalitatieve oplossing te komen.

Doelstelling

Het voorgestelde thesisonderwerp heeft als doel de praktische bruikbaarheid van dit probabilistisch zoekalgoritme te verhogen, door te kijken in welke mate het clusteringsalgoritme kan geparallelliseerd worden. Er wordt van de student verwacht dat hij zich verdiept in het algoritme, en onderzoekt in welke mate parallellisatie mogelijk is. Enkele mogelijkheden tot parallellisatie werden reeds bedacht, maar er werd nog niet onderzocht tot wat voor een versnelling van de uitvoeringstijd dit zou kunnen leiden. Finaal dient ook een geparallelliseerde versie van het algoritme in software ontwikkeld te worden, die met enkele benchmark datasets kan vergeleken worden met de originele versie.

Contactpersonen










Contact:
VIB / UGent
Bioinformatics & Evolutionary Genomics
Technologiepark 927
B-9052 Gent
BELGIUM
+32 (0) 9 33 13807 (phone)
+32 (0) 9 33 13809 (fax)

Don't hesitate to contact the in case of problems with the website!

You are visiting an outdated page of the BEG/Van de Peer Lab site.

Not all pages have been ported, so these archived pages are still available.

Redirect to the new website?