Text mining voor biomedische toepassingen

Probleemstelling

Dagelijks worden nieuwe genetische experimenten uitgevoerd om een dieper inzicht te verkrijgen in de onderlinge interactie van genen en de functie die zij vervullen. Bekomen resultaten worden gepubliceerd in online literatuurdatabanken zoals PubMed, een bron waarin inmiddels meer dan 17 miljoen biomedische artikels beschikbaar zijn. Manuele analyse van de beschikbare literatuur is door de enorme hoeveelheid onbegonnen werk geworden. Om die reden zijn text mining systemen de laatste jaren een steeds belangrijkere rol gaan spelen bij de automatische verwerking van informatie. Algemene Natural Language Processing (NLP) technieken zijn vaak echter niet direct toepasbaar in het biomedische domein, gezien de specifieke terminologie en de vaak complexe zinsstructuur. De ontwikkeling van specifieke BioNLP algoritmen blijkt daarom een noodzaak.

De toepassing van zo'n text mining algoritme bestaat uit drie algemene fasen. In de eerste fase moet de tekst die als invoer dient op een dusdanige manier voorgesteld worden dat zij verwerkt kan worden door automatische methoden (preprocessing). In de tweede fase wordt deze informatie gebruikt voor de eigenlijke extractie van i nformatie; dit kan o.a. gebeuren aan de hand van patroonherkenning of machine learning technieken. Wanneer de applicatie bijvoorbeeld ontwikkeld werd om interacties tussen genen op te sporen, kan men na het afronden van de tweede fase volledige interactie netwerken opstellen die inzicht bieden in de samenwerking en de functies van de genen in kwestie. Tenslotte is als laatste fase een evaluatie van het gebruikte systeem noodzakelijk. Indien bij de validatie van de bekomen resultaten immers fouten opgespoord worden, kunnen deze als feedback dienen om het systeem aan te passen en te verbeteren.

Doelstelling

Het doel van deze scriptie is bij te dragen tot de ontwikkeling van nieuwe BioNLP systemen aan de hand van volgende realisaties:

Vertrouwd raken met de verschillende manieren waarop tekst voorgesteld kan worden in een abstracte vorm die geschikt is voor automatische verwerking. In het bijzonder wordt hierbij gedacht aan formalismen zoals shallow parsing, parse trees en dependency trees
Deze verschillende voorstellingsvormen met elkaar vergelijken en bestuderen hoe zij in staat zijn semantische informatie voor te stellen zodat de achterliggende betekenis van een tekstfragment door automatische procedures blootgelegd kan worden. Hierbij wordt ook aandacht besteed aan specifieke kenmerken van biomedische tekst.
Evalueren hoe onderlinge verschillen in deze voorstellingsvormen impact hebben op de performantie van een compleet text mining systeem dat relaties tussen biomedische entiteiten probeert te extraheren uit PubMed artikelen, en dat onderzoekers een vollediger beeld geeft van de beschikbare informatie in het biomedisch domein.

Het bekomen inzicht in BioNLP technieken leidt idealiter tot een betere performantie van dergelijke text mining systemen.

Contactpersonen

Promotor: Yvan Saeys
Begeleiders: Sofie Van Landeghem

Referentiemateriaal

credits

Contact:
VIB / UGent
Bioinformatics & Evolutionary Genomics
Technologiepark 927
B-9052 Gent
BELGIUM
+32 (0) 9 33 13807 (phone)
+32 (0) 9 33 13809 (fax)