Model kan trænes til at gætte din højde

Forskere fra Aarhus Universitet har udviklet en ny sandsynlighedsmodel, som de træner til at regne ud, hvad de forskellige genetiske varianter betyder for vores udseende og sygdomme. Modellen er mere præcis end de hidtidige – men der er stadig lang vej, til kortlægningen af vores genomer munder ud i nøjagtige vejvisere over vore arveanlæg.

Af Peter F. Gammelby

Når forskere skal finde frem til de gener, der styrer vore egenskaber og sygdomme, finder de et af deres vigtigste redskaber i matematikbogen. Nærmere bestemt på siderne om sandsynlighedsregning. 

Postdoc Bjarni Vilhjálmsson har udviklet en ny sandsynlighedsmodel, som er den hidtil mest træfsikre, når det gælder om at gætte en persons arvelige egenskaber ud fra vedkommendes genom. Således vil han med nogenlunde præcision kunne beregne, om hans søn Jonas også kommer til at ligne sin far på højden. Bogstaverne i baggrunden er en del af en DNA-sekvens fra Human Genome Project. Foto og montage: Peter F. Gammelby

Populært sagt analyserer man i såkaldte Genome-Wide Association Studies (GWAS) hundredtusindvis af menneskers genomer for at finde frem til genvarianter, som kan knyttes til bestemte træk eller sygdomme. Hvis nogle bestemte genvarianter optræder særlig hyppigt hos personer med en bestemt sygdom, er der sandsynligvis en sammenhæng mellem denne kombination af genvariantener og sygdommen.

Den store udfordring ligger i ordet ”sandsynligvis” – for hvis sammenhængen skal munde ud i en ny behandlingstype, gælder det om at være ret sikker på, at sammenhængen er der.

Svære kombinationer

Men det er svært at sikre sig, når mange arvelige egenskaber og sygdomme (f.eks. de fleste folkesygdomme) er polygene: de skyldes ikke ét gen, men en kombination af varianter i mange gener, som hver for sig ikke bon’er ud i GWAS.

Sandsynligheden for, at hypotesen om en sammenhæng er sand, afhænger således af, hvor vidt man nu har fået talt alle de relevante genvarianter med i den aktuelle kombination. Eller om man har fået talt nogle irrelevante med.

Det er en af de udfordringer, som postdoc Bjarni Vilhjálmsson fra Aarhus Universitet forsøger at løse med en ny sandsynlighedsmodel, der er bedre til at ”fange” de relevante genvarianter. Modellen har i træning med GWAS-data vist sig bedre end de hidtil kendte modeller til at forudsige sygdomme på baggrund af bestemte genkombinationer.

De tal, som sandsynlighedsmodellen spytter ud (fra en computer), kaldes polygenetiske risikoscores. PRS, som det forkortes, er et hedt emne for genforskere over hele verden – både som forskningsområde og diskussionsemne.

For nogle sygdomme, som f.eks. type 1 diabetes, skizofreni og multipel sklerose, er det faktisk lykkedes ganske godt. Men i mange tilfælde får man mere retvisende prognoser blot ved at spørge, om andre i familien lider af sygdommen.

Der er stadig for mange ubekendte størrelser i vores arveegenskaber til, at sandsynlighedsmodellerne kan forudsige et enkelt individs risiko for polygene sygdomme alene ud fra en gen-analyse.

Ikke nok med det; siden menneskets genom blev kortlagt for snart 16 år siden, har videnskaben snarere opdaget flere ubekendte end bekendte størrelser.

Samspilsramte spådomme

Resultatet af The Human Genome Project blev den gang præsenteret med høje fanfarer og spådomme om store medicinske fremskridt: ved hjælp af gensekventering ville man i fremtiden kunne se, om et menneske har særlig risiko for at få bestemte sygdomme, og tilpasse medicinen efter vedkommendes personlige anlæg.

Siden har genforskningen da også skabt medicinske fremskridt – men et af de største videnskabelige fremskridt i den forbindelse er opdagelsen af, at vore arveanlæg er langt mere komplicerede, end man troede.

Som nævnt skyldes mange arvelige egenskaber og sygdomme ikke en variant i ét bestemt gen, men et samspil mellem flere forskellige gener; i nogle tilfælde endda hundredvis af gener.

”F.eks. har man foreløbig fundet ca. 700 genetiske varianter, der er med til at styre en persons højde. Men meget tyder på, at disse 700 forklarer mindre end halvdelen af, hvad man forventer, der kan forklare højden genetisk,” forklarer Bjarni Vilhjálmsson.

… med junk og hø

Nyere forskning tyder på, at de 26.000 protein-kodende gener alligevel ikke styrer vore arveegenskaber alene, men "tændes og slukkes" af gener i det øvrige DNA - og af mekanismer i vore celler, som igen påvirkes af vores levevis. Fotomontage: Colourbox / Peter F. Gammelby

Dertil kommer, at det såkaldte junk-DNA alligevel ikke er junk. De 95 pct. af vore DNA-strenge, som man førhen mente ikke betød noget for vore arveegenskaber, betyder alligevel noget. Det svarer lidt til, at man har ledt efter nåle i en høstak og fundet 26.000 – som er antallet af gener, der koder for proteiner – og så opdager, at en del af stråene i stakken også skal tælles med, fordi de på en eller flere måder har indflydelse på nålene.

Og så viser det sig oven i købet, at vore arveegenskaber ikke kun styres af vort DNA. Kropscellerne har nogle mekanismer, som styrer, hvilke gener i DNA’et, der bliver ”læst”, og hvilke der ikke gør. Disse mekanismer kan påvirkes af vores miljø og levevis – og ændringer i dem kan muligvis gå i arv. Hvis din mor f.eks. var stresset under graviditeten, kan det således måske påvirke dit og dine børns helbred. Epigenetik, som mekanismen kaldes, er et forskningsfelt i sig selv.

Uligevægt i klumper

Ikke desto mindre er sandsynlighedsberegningerne på baggrund af GWAS-studierne stadig brugbare, og de bliver også bedre til at ramme rigtigt i takt med, at computerne bliver stærkere, flere mennesker får deres genom kortlagt, og forskere som Bjarni Vilhjálmsson forfiner de matematiske modeller.

Han kalder sin nye sandsynlighedsmodel LDpred. LD står for Linkage Disequilibrium, som betyder koblingsuligevægt. Det er et afgørende begreb i GWA-studierne, og har stor betydning for strukturen i LDpred.

Så hold nu fast:

Koblingsuligevægt er en situation, hvor en særlig kombination af genvarianter (alleler) forekommer mere (eller mindre) hyppigt i en population, end man kunne forvente, hvis varianterne var tilfældigt fordelt. Generne i de kombinationer, som er i koblingsuligevægt, er desuden tæt koblet til hinanden; hvis man har en bestemt variant, har man også de andre.

Dermed kan man i GWA-studierne nøjes med at lede efter koblingsuligevægter, og slippe for at gennemtrawle hele genomet. Problemet er bare, at algoritmen som regel kun tæller de genvarianter med, som har den stærkeste koblingsuligevægt, og samler dem i overskuelige klumper (fagudtrykket er LD clumping).

”Dermed ser man bort fra potentielt vigtige informationer og forringer mulighederne for, at de polygenetiske riskscores rammer rigtigt. LDpred tager højde for denne mangel, og er derfor mere præcis end andre modeller,” forklarer Bjarni Vilhjálmsson.

Vægtede data tager højde for uligevægt

LDpred regner med betingede sandsynligheder – dvs. den først estimerer koblingsuligevægten ud fra en referencegruppe af genomer, og derefter bruger det estimat til at korrigere de gennemsnitlige sandsynligheder fra GWA-studierne.

”I beregninger på type 1 og 2 diabetes, skizofreni, multipel sklerose, brystkræft og åreforkalkning i hjertet har vi opnået en markant forbedret træfsikkerhed med 10-30 pct. i forhold til tidligere modeller,” fortæller Bjarni Vilhjálmsson.

Og hvad der er nok så vigtigt: LDpred kan beregne de polygenetiske riskscores på baggrund af gennemsnitstal fra GWA-studierne, uden at behøve de rå genetiske data, der ligger til grund for dem. De rå data må af privatlivshensyn alligevel ikke publiceres.

”GWAS og polygenetiske riskscores kan bruges til mange formål. Det vigtigste er at forstå sygdommes genetiske arkitektur, så man i fremtiden både kan forstå sygdomme og forudsige komplekse sygdomme og egenskaber. Og med LDpred er vi kommet et skridt nærmere,” siger Bjarni Vilhjálmsson.