“Het kost wat moeite, maar je investeert voor impact.”

Met het concept ‘Personal Health Train’ (PHT) kun je grote hoeveelheden data delen en analyseren, zonder dat je privacygegevens schendt. Samen met het onderzoeksteam van NCDC paste dr. Pedro Da Costa Mateus de PHT voor het eerst toe op dementiedata, destijds nog als als PhD-student (Maastro-Universiteit Maastricht). Da Costa Mateus, inmiddels klinisch datawetenschapper (Radboudumc), legt nu uit hoe de PHT werkt, wat die oplevert en geeft je tips.
Data van andere cohortstudies analyseren, of jouw data delen met anderen, is lastig te combineren met het beschermen van de privacy van onderzoeksdeelnemers (zie ook: Onderzoeksdata FAIR maken, hoe dan?). Maar data uitwisselen is cruciaal voor impact. Je kunt daardoor op veel grotere schaal data-analyses doen en zo meer onderzoeksvragen sneller beantwoorden.
Op bezoek bij data
Om die reden is het goed dat de Personal Health Train (PHT) is ontwikkeld. Dit is een digitale infrastructuur, die is gemaakt om data te analyseren zonder privacygevoelige informatie te delen. Dat werkt zo: in plaats van alle data naar één centrale plek te kopiëren, maakt de PHT het mogelijk om een analyse-algoritme of script (de trein) naar de data toe te brengen. Dus: naar data-eigenaren zoals onderzoeksinstellingen, ziekenhuizen of klinieken (de stations). Zij geven vervolgens aan wat een langskomende trein wel of niet met de data mag doen. De spoorlijnen zorgen er tot slot voor dat de betreffende algoritmen op een veilige manier bij de data komen en dat er interactie kan plaatsvinden. Het algoritme neemt uiteindelijk alléén de uitkomsten mee terug. De onderzoeker die de data wil analyseren, kan dus niet de privacygevoelige gegevens inzien.
De PHT is gezamenlijk ontwikkeld door Maastro (Universiteit Maastricht), het Dutch Techcentre for Life Sciences en het LUMC. Deze is doorontwikkeld tot open-source-applicatie door Integraal Kankercentrum Nederland.
PHT voor het eerst toegepast op dementiedata
Da Costa Mateus en het team van NCDC (Netherlands Consortium of Dementia Cohorts) pasten als eersten de PHT toe op dementiedata. Dat gebeurde binnen hun onderzoek naar bloed- en MRI-biomarkers gerelateerd aan de ziekte van Alzheimer.
De voornaamste uitdaging voor het team was het harmoniseren van data uit negen Nederlandse cohorten, ofwel: zorgen dat alle variabelen op dezelfde manier benoemd en gecodeerd zijn.
Voor het ontwerp van een analyse-algoritme is het belangrijk dat je precies weet hoe de data zijn georganiseerd. Wanneer je gebruik maakt van de PHT, kun je data niet inzien en is het lastig om deze te ‘debuggen’. “Daarom is dataharmonisatie vooraf cruciaal. Dat was tevens onze grootste uitdaging,” aldus Mateus. “Met name omdat voor longitudinale cohortdata nog geen goed datamodel bestond.” Mateus maakte scripts en mappings die de harmonisatie van de negen cohorten mogelijk maakten. DEMPACT richtte de Dutch Dementia Data Community op, op zenodo.org. Daar vind je een publicatie over deze scrips en mappings.
Wat is NCDC gelukt dankzij de PHT?
Mateus: “De verzameling data die we konden analyseren, werd door de PHT zoveel groter, dat we onderzoeksvragen konden beantwoorden die we met elk cohort apart niet hadden kunnen beantwoorden.”
Was het gebruik van de PHT bij jullie onderzoek een succes?
“Ja. Uiteindelijk werkte het voor deze eerste use case: het trainen van een AI-model om de hersenleeftijd te voorspellen.” Mateus benadrukt wel dat het zeker geen soepel proces was.
“Het bleek lastig om juridische afspraken te maken. Er was best wat miscommunicatie en verschil in interpretatie.” Dit heeft het team veel tijd gekost. Net als de afstemming over het inregelen van dataharmonisatie. “En praktische dingen, zoals het installeren van bepaalde software bij de data-eigenaar. Gelukkig zijn de afspraken er nu, en bieden ze een goede basis voor de toekomst.”
Heb je praktische tips voor collega-onderzoekers?
“Zorg dat je de juiste expertise aan tafel krijgt: mensen met juridische kennis maar óók mensen met de juiste technische kennis. Wij waren veel tijd en energie kwijt aan het uitleggen aan ziekenhuizen, klinieken en andere partijen, wat de PHT inhoudt en hoe we die wilden inzetten. We moesten hen echt overtuigen van de grote voordelen. Als je dit niet goed doet, willen partijen vaak niet meewerken. Ze zijn bang data weg te geven en dan per ongeluk de privacywetgeving te overschrijden.”
“En ja, dit kost inderdaad best wat moeite. Maar je investeert voor impact op de lange termijn. Dankzij de resultaten die we hebben geboekt, kunnen we nu de analyse doen voor een andere onderzoeksvraag, waarbij we wederom gebruik maken van de PHT.”
Wat was voor jou het grootste inzicht rond de PHT?
“Veel technische kennis was nieuw voor mij. Maar het belangrijkste inzicht was hoezeer samenwerking bepalend is voor succes. Dit soort onderzoek kun je niet alleen, je moet de juiste expertises samenbrengen om het mogelijk te maken.”
Aan de slag of vragen? Neem contact op!
Wil je zelf iets met de PHT voor je cohortdata? Of heb je een andere vraag rond datamanagement? Neem gerust contact op met Coordinator datamanagement dr. Didi Lamers.


