Ontbrekende data: de impact van wat er niet is

Graag met vermelding van de bron
ineke
Berichten: 484
Lid geworden op: 08 nov 2014, 17:53

Ontbrekende data: de impact van wat er niet is

Bericht door ineke »

Open Access
Datum online publicatie: Okt 2020
Auteursrechten: © 2020 European Society of Endocrinology 2020


Ontbrekende data: de impact van wat er niet is

Auteurs: Rolf HH Groenwold 1 , 2 en Olaf M Dekkers 1 , 3
• 1 Afdelingen Klinische Epidemiologie, Leids Universitair Medisch Centrum, Leiden, Nederland
• 2 Biomedical Data Sciences, Leids Universitair Medisch Centrum, Leiden, Nederland
• 3 Endocrinologie, Leids Universitair Medisch Centrum, Leiden, Nederland
Correspondentie dient te worden gericht aan RHH Groenwold; E-mailadres: RHHGroenwold@lumc.nl



Abstract
De validiteit van klinisch onderzoek wordt mogelijk bedreigd door ontbrekende gegevens.
Elke variabele die in een onderzoek wordt gemeten, kan ontbrekende waarden hebben, inclusief de blootstelling, de uitkomst en verstorende factoren. Als ontbrekende waarden in de analyse worden genegeerd, worden alleen die proefpersonen met volledige records in de analyse opgenomen. Dit kan leiden tot vertekende resultaten en vermogensverlies. We leggen uit waarom ontbrekende gegevens kunnen leiden tot vertekening en bespreken een veelgebruikte classificatie van ontbrekende gegevens.


Invoering
In bijna al het klinische onderzoek ontbreken een of meer van de gemeten variabelen. In een onderzoek naar dagelijkse lichaamsbeweging en het risico op diabetes mellitus type 2 zijn bijvoorbeeld metingen van het inspanningsniveau mogelijk niet voor alle proefpersonen beschikbaar, en als roken een verstorende factor is in dit onderzoek, kan de rookstatus voor sommige proefpersonen onbekend zijn.

Deze situatie wordt gewoonlijk ontbrekende gegevens genoemd.
Standaard statistische benaderingen negeren ontbrekende gegevens, wat betekent dat proefpersonen met een ontbrekende waarde niet zullen bijdragen aan de analyse. Dit wordt volledige (of beschikbare) case-analyse genoemd. Belangrijk is dat dit van toepassing is op alle variabelen in het model, niet alleen op de resultaten.
Er zijn twee mogelijke problemen met ontbrekende gegevens: stroomverlies en vertekening.
Hier, Bias als gevolg van ontbrekende gegevens

Overweeg een gerandomiseerde studie onder ouderen met subklinische hypothyreoïdie waarin levothyroxine wordt vergeleken met placebo; 120 patiënten krijgen levothyroxine, terwijl nog eens 120 een placebo krijgen.

De resultaten van deze hypothetische studie zijn samengevat in Tabel 1 .


Tabel 1
Numerieke voorbeelden van de mogelijke impact van ontbrekende gegevens in een hypothetische studie met levothyroxine.
https://eje.bioscientifica.com/view/jou ... 2.xml#tbl1


In scenario A, geen ontbrekende gegevens, wordt het resultaat waargenomen voor alle patiënten in het onderzoek en suggereert het onderzoek een risicoreductie van 40% (relatief risico 0,60).
We beschouwen scenario A als referentie.

In scenario B en C mist slechts 2% van de patiënten uitkomstwaarden, terwijl dit in scenario D maar liefst 50% is.
In een volledige casusanalyse, in scenario B, C en D, dragen de gegevens van respectievelijk 235, 235 en 120 patiënten bij aan de analyse.

Merk op dat de effectschattingen in scenario B en C afwijken van de referentiewaarde; de effectschatting in scenario D niet, hoewel deze veel minder nauwkeurig is vanwege de kleinere steekproefomvang. Blijkbaar is het percentage ontbrekende gegevens niet erg informatief over het risico op bias. Merk ook op dat ontbrekende gegevens kunnen leiden tot zowel een overschatting als een onderschatting van het behandelingseffect.


De effectschatting in scenario B wijkt af van de referentiewaarde, omdat het risico van de uitkomst bij degenen met een geobserveerde uitkomstwaarde ( n  = 115, risico 17%) in de levothyroxine-arm niet overeenkomt met het risico van de uitkomst bij alle proefpersonen in die behandelarm (risico 20%, niet waargenomen).
Daarom zal de berekende risicoverhouding ook vertekend zijn.

Evenzo vertegenwoordigt voor scenario C het waargenomen risico in de placebogroep ( n  = 115, risico 30%) niet het ware (nog niet waargenomen) risico onder de met placebo behandelde proefpersonen ( n = 115, risico 30%). = 120, risico 33%).
De effectschatting in scenario D wijkt niet af van de referentiewaarde, omdat in elke behandelarm het risico van de uitkomst bij degenen met een geobserveerde uitkomstwaarde gelijk is aan het risico op de uitkomst bij alle proefpersonen in die behandelarmen.

In scenario E verschilt in elke behandelarm het risico van de uitkomst bij degenen met een geobserveerde uitkomstwaarde van de werkelijke risico's in beide groepen (referentie).
Desalniettemin komt de risicoverhouding die op basis van deze risico's wordt berekend, overeen met de werkelijke waarde.

In observationele studies met de noodzaak om te corrigeren voor confounding ( 1), kan het aandeel ontbrekende waarden aanzienlijk groter zijn dan bij gerandomiseerde onderzoeken.
Denk aan een observationeel cohort om het effect van glucosespiegels op cardiovasculaire gebeurtenissen te bestuderen; er zijn veel mogelijke verstorende factoren voor deze associatie (leeftijd, BMI, levensstijl, hoeveelheid salat-eten, enz.).
Hoewel een enkele confounder slechts 5% ontbrekende waarden heeft, met 10 mogelijke confounders (niet onwaarschijnlijk voor de associatie tussen glucose en cardiovasculaire events), zou dit kunnen betekenen dat slechts voor 50% van de proefpersonen informatie beschikbaar is over alle confounders.
Zelfs als een volledige case-analyse niet tot vertekende resultaten leidt, zou het nog steeds erg inefficiënt zijn (dwz laag vermogen en bredere CI's) dan een situatie zonder ontbrekende gegevens.

Omdat de standaardoptie in statistische software is om alleen onderwerpen op te nemen zonder ontbrekende waarden, ontbrekende gegevens worden gemakkelijk over het hoofd gezien.
Daarom moet voor elke analyse die wordt uitgevoerd, het werkelijke aantal geïncludeerde proefpersonen worden gerapporteerd.

Onderzoekers kunnen het uiteindelijke aangepaste statistische model bekijken, waarbij de output het aantal geïncludeerde onderwerpen weergeeft. Bij voorkeur wordt een vergelijking gemaakt van onderwerpen met en zonder ontbrekende waarden, omdat dit ook inzicht kan geven in de mogelijke redenen voor het missen van data (het ontbrekende datamechanisme) en begeleiding bij het kiezen van de optimale statistische benadering.



Classificatie van ontbrekende gegevens
Een veelgebruikte classificatie van ontbrekende gegevens beschrijft het (veronderstelde) mechanisme dat ertoe leidt dat de gegevens ontbreken (zie ( 2 , 3 ) voor een inleiding op het onderwerp en Tabel 2 voor definities ( 4 , 5).)).

Tabel 2
https://eje.bioscientifica.com/view/jou ... 2.xml#tbl2


Als misselijkheid een willekeurig proces is (bv. Een batch met laboratoriumtests gaat verloren in het laboratorium) en er is geen systematisch verschil tussen die met en die zonder ontbrekende waarden, dan wordt dit aangeduid als volledig willekeurig missen (MCAR); scenario D zou een voorbeeld van MCAR kunnen zijn.
Als misselijkheid een willekeurig proces is binnen niveaus van een geobserveerde variabele, wordt het - enigszins verwarrend - missing at random (MAR) genoemd.

Zo zou het in de trial kunnen zijn dat uitkomstwaarden vaker ontbreken bij mannen dan bij vrouwen, maar bij mannen is het een willekeurig proces of de uitkomst wel of niet wordt waargenomen (en idem voor vrouwen).
Als misselijkheid geen willekeurig proces is (binnen niveaus van een waargenomen variabele), maar afhankelijk is van niet-waargenomen variabelen, zodat het systematische verschil tussen die met en die zonder ontbrekende waarden afhangt van niet-waargenomen factoren, dit wordt missing not at random (MNAR) genoemd.

Scenario's B en C zijn voorbeelden van MNAR. Hoewel we weten dat in scenario B alle vijf proefpersonen met een ontbrekende uitkomstwaarde wel degelijk de uitkomst hadden, weten de onderzoekers dat natuurlijk niet.


Tabel 2
Classificatie van ontbrekende gegevens.
- Volledig willekeurig missen (MCAR) betekent dat de kans dat een waarde ontbreekt voor alle proefpersonen in een onderzoek gelijk is en niet afhankelijk is van waargenomen of niet-waargenomen kenmerken van de proefpersonen in het onderzoek. In dat geval is de ontbrekende waarde niet gerelateerd aan de specifieke waarden die ontbreken of waargenomen waarden in de gegevens.

- Missing at random (MAR) betekent dat de kans dat een waarde ontbreekt binnen groepen proefpersonen gelijk is, waarbij de groepen worden gedefinieerd op basis van de geobserveerde data. Misselijkheid hangt in dat geval af van waargenomen, maar niet van niet-waargenomen, kenmerken van de proefpersonen in het onderzoek, inclusief de specifieke waarden die ontbreken.

- Wanneer ontbrekende gegevens noch MCAR noch MAR zijn, wordt gezegd dat ze niet willekeurig ontbreken (MNAR), wat betekent dat de kans dat een waarde ontbreekt afhangt van de specifieke waarde die ontbreekt naast de waargenomen kenmerken van de proefpersonen in de studie.


Op basis van de geobserveerde gegevens kan onderscheid worden gemaakt tussen MCAR en MAR.
Omdat het onderscheid tussen MCAR / MAR en MNAR echter berust op niet-waargenomen gegevens, kan dit onderscheid niet worden gemaakt met alleen waargenomen gegevens.
Daarom kunnen aannames over ontbrekende gegevensmechanismen worden ondersteund door gegevensanalyse, maar kunnen ze uiteindelijk niet worden bevestigd; de gegevens zullen niet vertellen welk mechanisme voor ontbrekende gegevens aan het werk is.


Er zijn verschillende methoden ontwikkeld om met ontbrekende gegevens om te gaan om de vertekening te verminderen die gepaard kan gaan met volledige case-analyse.
Meervoudige imputatie wordt tegenwoordig vaak gebruikt om de ontbrekende waarde 'toe te schrijven' (dwz in te vullen) met behulp van een voorspelde waarde die is gebaseerd op de waargenomen gegevens ( 6 ).
Een cruciale aanname die aan deze methode ten grondslag ligt, is dat ontbrekende gegevens MAR zijn, aangezien ontbrekende gegevens dan geldig kunnen worden ingevuld op basis van waargenomen gegevens; in het geval van MNAR kunnen de resultaten echter nog steeds vertekend zijn. Voor een inleidend overzicht van methoden om met ontbrekende gegevens om te gaan, verwijzen we naar de literatuur ( 2 , 3 , 4 ).

Of de resultaten al dan niet vertekend zijn, hangt af van het mechanisme van ontbrekende gegevens in combinatie met de methode die wordt toegepast om met ontbrekende gegevens om te gaan en de methode van gegevensanalyse ( 7 ).
Een volledige casusanalyse kan bijvoorbeeld geschikt zijn in het geval van ontbrekende gegevens die MCAR zijn, maar misschien niet als ontbrekende gegevens MAR zijn.
Meervoudige imputatie kan echter geschikt zijn als ontbrekende gegevens MAR zijn, maar niet als dit MNAR is. Er zijn echter ook situaties waarin een volledige case-analyse op zijn plaats is, zelfs als de ontbrekende gegevens MNAR zijn ( 7 );


Scenario E in tabel 1 is een voorbeeld. Het is te simplistisch om te zeggen dat MAR bijvoorbeeld nooit zal resulteren en MNAR altijd zal resulteren in een vertekening.
Om uitspraken te doen over de mogelijke impact van ontbrekende gegevens, zijn aannames nodig over de ontbrekende gegevens en inzicht in de invloed van ontbrekende gegevens op de toegepaste analysemethode.


Afsluitende opmerkingen
Ontbrekende gegevens kunnen leiden tot vertekening, hoewel dit niet altijd het geval hoeft te zijn, afhankelijk van het ontbrekende gegevensmechanisme en de toegepaste statistische benadering.
In een volledige case-analyse kan er al bij lage percentages ontbrekende waarden sprake zijn van substantiële bias en bij hoge percentages hoeft er geen bias te zijn.

Desalniettemin kan het percentage ontbrekende waarden verband houden met de kwaliteit van het onderzoek in het algemeen en in het bijzonder met de kwaliteit van de verzamelde gegevens.
Als zodanig kan het percentage ontbrekende waarden een proxy zijn voor de studiekwaliteit en het risico op vertekening, hoewel niet noodzakelijk vertekening vanwege ontbrekende gegevens.


Zelfs gerandomiseerde onderzoeken zijn niet immuun voor vooringenomenheid als gevolg van ontbrekende gegevens ( 8 , 9 , 10), hoewel de hoeveelheid ontbrekende gegevens in onderzoeken waarschijnlijk kleiner is dan in observationele onderzoeken.
Aangezien standaard statistische methoden proefpersonen met ontbrekende waarden negeren, moet elke gerapporteerde analyse vergezeld gaan van het werkelijke aantal proefpersonen dat in die analyse is opgenomen.
Afgezien van een mogelijke impact in termen van bias, verminderen ontbrekende gegevens de nauwkeurigheid van effectschattingen.

In plaats van elke ontbrekende gegevensvooroordeel af te schrijven, omdat een onderzoek een gerandomiseerde studie is of vanwege het lage percentage ontbrekende waarden, zouden onderzoekers het mogelijke ontbrekende gegevensmechanisme moeten bespreken in relatie tot de gegevensanalyse en mogelijke oplossingen overwegen, waaronder imputatietechnieken.



Verklaring van belangenverstrengeling
RG meldt geen belangenconflicten. OMD is een adjunct-redacteur voor European Journal of Endocrinology .
Hij was niet betrokken bij het review- of redactionele proces voor dit artikel, waarop hij als auteur vermeld staat.
Financiering
Dit werk werd ondersteund door subsidies van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (ZonMW-Vidi-project 917.16.430) en het LUMC.



https://eje.bioscientifica.com/download ... 0-0732.xml

.
Plaats reactie