Scholarly article on topic 'Imputación de valores ausentes en salud pública: conceptos generales y aplicación en variables dicotómicas'

Imputación de valores ausentes en salud pública: conceptos generales y aplicación en variables dicotómicas Academic research paper on "Health sciences"

CC BY-NC-ND
0
0
Share paper
Academic journal
Gaceta Sanitaria
OECD Field of science
Keywords
{"Valores ausentes" / Imputación / "Salud pública" / Epidemiología / "Missing data" / Imputation / "Public health" / Epidemiology}

Abstract of research paper on Health sciences, author of scientific article — Gilma Hernández, David Moriña, Albert Navarro

Resumen Que haya valores ausentes en variables registradas en encuestas de salud es habitual, pero no lo es imputarlos posteriormente cuando se realiza el análisis. Trabajar con datos imputados puede tener ventajas en términos de precisión de los estimadores y de identificación sin sesgos de la asociación entre variables. Probablemente, el proceso de imputación sigue siendo desconocido para muchos profesionales no estadísticos, que le atribuyen una alta complejidad y quizás un objetivo que no es exactamente el que persigue. Para aclarar estas cuestiones, esta nota pretende ofrecer una visión amena, no exhaustiva, del proceso de imputación, que permita conocer sus bondades para el trabajo de un salubrista. Todo ello en el marco de variables dicotómicas, habituales en salud pública. Para ilustrar los conceptos se usa un ejemplo en el cual se trabaja con datos con valores ausentes, imputados de forma simple y múltiple. Abstract The presence of missing data in collected variables is common in health surveys, but the subsequent imputation thereof at the time of analysis is not. Working with imputed data may have certain benefits regarding the precision of the estimators and the unbiased identification of associations between variables. The imputation process is probably still little understood by many non-statisticians, who view this process as highly complex and with an uncertain goal. To clarify these questions, this note aims to provide a straightforward, non-exhaustive overview of the imputation process to enable public health researchers ascertain its strengths. All this in the context of dichotomous variables which are commonplace in public health. To illustrate these concepts, an example in which missing data is handled by means of simple and multiple imputation is introduced.

Academic research paper on topic "Imputación de valores ausentes en salud pública: conceptos generales y aplicación en variables dicotómicas"

■aHiil^H ARTICLE IN PRESS

Gac Sanit. 2017;xxx(xx):xxx-xxx

Nota metodológica

Imputación de valores ausentes en salud pública: conceptos generales y aplicación en variables dicotómicas

Gilma Hernándezab, David Morinac d y Albert Navarrod *

a Instituto de Investigaciones Médicas, Universidad de Antioquia, Medellín, Colombia

b Programa de Doctorado en Metodología de la Investigación Biomédica y Salud Pública, Departament de Pediatría, d'Obstetricia i Ginecologia i de Medicina Preventiva, Universitat Autónoma de Barcelona, Bellaterra (Cerdanyola del Vallès, Barcelona), España

c Unitat d'Infeccions i Cáncer (UNIC), Programa d'Investigació en Epidemiología del Cáncer (PREC), Institut Català d'Oncologia (ICO)-IDIBELL, L'Hospitalet de Llobregat (Barcelona), España

d GRAAL-Unitat de Bioestadística, Facultat de Medicina, Universitat Autónoma de Barcelona, Bellaterra (Cerdanyola del Vallès, Barcelona), España

INFORMACION DEL ARTICULO

RESUMEN

Historia del artículo: Recibido el 23 de noviembre de 2016 Aceptado el 9 de enero de 2017 On-line el xxx

Palabras clave: Valores ausentes Imputación Salud pública Epidemiología

Que haya valores ausentes en variables registradas en encuestas de salud es habitual, pero no lo es imputarlos posteriormente cuando se realiza el análisis. Trabajar con datos imputados puede tener ventajas en términos de precisión de los estimadores y de identificación sin sesgos de la asociación entre variables. Probablemente, el proceso de imputación sigue siendo desconocido para muchos profesionales no estadísticos, que le atribuyen una alta complejidad y quizás un objetivo que no es exactamente el que persigue. Para aclarar estas cuestiones, esta nota pretende ofrecer una visión amena, no exhaustiva, del proceso de imputación, que permita conocer sus bondades para el trabajo de un salubrista. Todo ello en el marco de variables dicotómicas, habituales en salud pública. Para ilustrar los conceptos se usa un ejemplo en el cual se trabaja con datos con valores ausentes, imputados de forma simple y múltiple.

© 2017 SESPAS. Publicado por Elsevier España, S.L.U. Este es un artículo Open Access bajo la licencia

CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).

Imputing missing data in public health: general concepts and application to dichotomous variables

ABSTRACT

The presence of missing data in collected variables is common in health surveys, but the subsequent imputation thereof at the time of analysis is not. Working with imputed data may have certain benefits regarding the precision of the estimators and the unbiased identification of associations between variables. The imputation process is probably still little understood by many non-statisticians, who view this process as highly complex and with an uncertain goal. To clarify these questions, this note aims to provide a straightforward, non-exhaustive overview of the imputation process to enable public health researchers ascertain its strengths. All this in the context of dichotomous variables which are commonplace in public health. To illustrate these concepts, an example in which missing data is handled by means of simple and multiple imputation is introduced.

© 2017 SESPAS. Published by Elsevier Espana, S.L.U. This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).

Keywords: Missing data Imputation Public health Epidemiology

Introducción

Que haya valores ausentes es frecuente en salud pública. Ignorarlos conlleva la pérdida de potencia del estudio y la obtención de estimadores ineficientes y posiblemente sesgados. Los valores ausentes representan falta de información en el contenido de una o varias variables en un conjunto de datos, y pueden deberse a factores como la no respuesta en una encuesta, la falta de alguna medición, la pérdida en el proceso de recolección, etc. Algunos ejemplos en el ámbito de la salud pública son la imputación del instante de seroconversión al virus de la inmunodeficiencia humana1 o el estado físico y mental en las personas mayores2.

* Autor para correspondencia. Correo electrónico: albert.navarro@uab.cat (A. Navarro).

El abordaje más frecuente consiste en ignorar los valores ausentes y usar la variable sin mayor consideración. Al hacerlo conjuntamente con otra variable sin valores ausentes, el análisis tiene en cuenta solo aquellos casos completos (listwise deletion [LW]), descartando información disponible. Con esta estrategia, si el análisis es multivariado, incluso en situaciones en que el porcentaje de valores ausentes sea bajo en cada variable, puede suponer que el número de casos analizados sea sensiblemente inferior al tamano muestral con el que se creía trabajar3. Ello implica estimaciones ineficientes y, a veces, sesgadas4-7.

La alternativa consiste en imputar los valores ausentes, consiguiendo que no se descarten casos. Si bien se dispone de programas estándar, como SAS, R, Stata o SPSS, que cuentan con algoritmos de imputación, diríamos que su uso no es habitual.

Existe literatura sobre imputación en el ámbito de la salud, pero la mayoría se ocupa de la imputación de variables continuas7,8 y

http://dx.doi.org/10.1016/j.gaceta.2017.01.001

0213-9111/© 2017 SESPAS. Publicado por Elsevier Espana, S.L.U. Este es un artículo Open Access bajo la licencia CC BY-NC-ND (http://creativecommoñs.org/liceñses/by-ñc-nd/4.0/).

IIIIMII^M lili IIIII.E IN PRESS

G. Hernández et al. / Gac Sanit. 2017;xxx(xx):xxx-xxx

no dicotómicas, muy habituales en salud pública. El propósito de esta nota es ofrecer a profesionales no estadísticos una descripción general de la imputación de valores ausentes, enfatizando en variables de naturaleza dicotómica.

Mecanismos de pérdida

Existen tres mecanismos:

• Missing Completely At Random (MCAR): la probabilidad de observar un valor ausente en una variable no depende de las otras variables ni de ella misma. Los sujetos con y sin valores ausentes tienen las mismas características.

• Missing At Random (MAR): la probabilidad de observar un valor ausente depende de otras variables, no de los valores de la propia variable.

• Missing Not At Random (MNAR): la probabilidad de observar un valor ausente depende de los valores de la propia variable, una vez controladas el resto de las variables. En esta situación no pueden imputarse los valores ausentes.

Es importante identificar el patrón en que aparecen los datos ausentes, ya que esto puede determinar la viabilidad de imputar y, en caso afirmativo, el método más eficiente3,5,7.

Imputación simple

Consiste en asignar un valor al valor ausente, que posteriormente es analizado exactamente igual que los realmente observados. Para variables dicotómicas existen varios métodos: entre otros, generar una nueva categoría que agrupe los valores ausentes; asignar el valor del vecino más cercano; o el método HotDeck, que consiste en extraer al azar, del grupo de sujetos con las mismas características que el que presenta el valor ausente, uno de los valores observados (donador). El lector interesado puede profundizar en imputación simple consultando varios trabajos4,5.

Imputación múltiple

Su objetivo primario es mantener la variabilidad de la población preservando las relaciones entre variables. Tiene tres fases (fig. 1):

1. Imputation step: se crean m >1 conjuntos de datos completos donde en cada uno se mantienen fijos los valores observados (xli), imputando los valores ausentes x1i_impji. El valor imputado para una misma observación en cada conjunto no tiene por qué ser el mismo, lo cual incorpora variabilidad a estos valores (de los cuales nunca conoceremos el valor real). La obtención de valores plausibles se consigue mediante un modelo de imputación, que debería contener las variables que se analizarán posteriormente, incluida la respuesta, más aquellas que ayuden a explicar los valores ausentes.

2. Completed-data analysis step: cada conjunto de datos es analizado individualmente mediante procedimientos estándar, obteniendo estimadores particulares en cada conjunto

(fixi y (oxo) . Los estimadores diferirán en cada conjunto a

causa de la variación introducida en la imputación de los valores ausentes.

3. Pooling step: combinando las estimaciones de los diversos conjuntos de datos mediante reglas simples6 se obtienen los estimadores definitivos (/3X1 _¡mp), así como los errores (<xX1 _¿mp) que incorporan la incertidumbre de los valores ausentes.

Para profundizar en la imputación múltiple pueden consultarse Rubin6 y Van der Palm et al.2.

Ejemplo

Tenemos una población con tres variables dicotómicas: la dependiente, Y~Bin(N, ^=0,207); la variable con valores ausentes, X1~Bin(N, ^=0,399); y una sin valores ausentes, X2~Bin(N,

Id X1 X2 Y

1 xli X21 y1

2 x12 x22 y2

3 1 M x2 y3

n X1n X2n yn

Conjunto de datos original, con valores ausentes

Pxh &X1

Id X1 X2 Y Id X1 X2 Y Id X1 X2 Y

1 x11 x21 y1 1 x11 x21 y1 1 x11 x21 y1

2 X12 x22 y2 2 x12 x22 y2 2 x12 x22 y2

3 x1 Al3 imp 1 x23 y3 3 x1 A '3 imp 2 x223 y3 3 x1 A '3 imp m x223 y3

n x1n x2n yn n x1n x2n yn n x1n x2n yn

A ' " A ' " A ■ „

Px1_1, &X1_1

fix1_2, &x1_2

Px1_m> &x1

Figura 1. Esquema del proceso de imputación múltiple para una variable Xl, con dos covariables sin valores ausentes (X2 e Y).

'hfflWW^W AMIIILE IN PRESS

G. Hernández et al. / Gac Sanit. 2017;xxx(xx):xxx-xxx

5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% LW IS im

5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% LW IS IM

Porcentaje de valores ausentes

3,02,5

5% 15% 25% 35% LW

5% 15% 25% 35% IS

5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% IM LW IS IM

Porcentaje de valores ausentes

5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% LW IS IM LW IS IM

Porcentaje de valores ausentes

Figura 2. Resultados de las simulaciones: error estándar de X1 (SE(X1)), OR(X1) y OR(X2). La línea discontinua indica el valor poblacional.

^=0,442). Seleccionamos muestras de tamano n=1000 con diferentes porcentajes de pérdidas según MCAR y MAR (véase el Apéndice disponible online como Material suplementario). Se estiman los coeficientes de una regresión logística según LW, imputación simple (método Hot-Deck, librería RHotDecklmputation9) e imputación múltiple, mediante ecuaciones encadenadas2,10 (librería R mice10). Se comparan los resultados en términos de precisión para la estimación de X1 y de la asociación entre X1 y X2 con Y.

En la figura 2 se presentan los resultados de las simulaciones. En términos de precisión de X1 puede observarse que, con LW, a mayor porcentaje de pérdida, peor precisión, mientras que al trabajar de forma imputada esta se mantiene. En términos de asociación de X1 con Y se observa que, cuando el patrón de pérdidas es MCAR, todos los métodos realizan estimaciones cercanas al valor real. Sin embargo, cuando el patrón es MAR, LW obtiene estimadores con mayor sesgo al aumentar el porcentaje de valores ausentes. La imputación simple y la imputación múltiple arrojan estimadores cercanos al valor real en todos los casos, ligeramente con menor variabilidad con la imputación múltiple.

Discusión y conclusiones

En nuestra opinión, hay tres razones fundamentales por las que el uso de la imputación múltiple sigue siendo poco frecuente:

1) porque se cree que su objetivo consiste simplemente en sustituir un valor ausente por uno imputado; 2) por la percepción de que es una técnica compleja; y 3) por la creencia de que ante la incerti-dumbre que provoca un valor ausente lo más prudente es dejarlo como tal. La primera es falsa; sobre la segunda, creemos que puede afirmarse que hay técnicas más complejas cuyo uso está generalizado; y para la última opinamos que, a menudo, imputar puede ser más prudente que no hacerlo (con la información disponible e imputando podemos lograr estimadores más eficientes y menos sesgados, si no insesgados).

Trabajar con LW aumenta la imprecisión, y si el mecanismo de pérdida es MAR, generará estimadores sesgados5,7. Hay que distinguir entre imputación simple e imputación múltiple: la primera solo sustituye el valor ausente por otro que es tratado exactamente igual que uno observado; la segunda consiste en un proceso más elaborado que permite capturar la incertidumbre de los valores ausentes. A diferencia de cuando se trabaja con una variable continua, donde la imputación simple suele subestimar el error5-7, según nuestros resultados para variables dicotómicas parecería que las diferencias entre imputación simple e imputación múltiple no son tan sensibles, siempre que el mecanismo de imputación reproduzca el patrón de pérdida. Y es que la validez de los resultados depende de que, en el caso de la imputación múltiple, el modelo de imputación se realice adecuadamente3.

AI IIIII.E IN PRESS

G. Hernández et al. / Gac Sanit. 2017;xxx(xx):xxx-xxx

Nótese que la magnitud y la dirección del sesgo no siempre coincidirán con lo mostrado en nuestro ejemplo; dependerá de la relación entre las variables estudiadas. Siguiendo a Sterne et al.,3 en la actualidad los procedimientos de imputación son ampliamente accesibles, por lo que no existe excusa para que los análisis potencialmente enganosos e ineficientes basados en LW sean considerados adecuados sin mayor atención.

Editora responsable del artículo

María Victoria Zunzunegui.

Contribuciones de autoría

Todas las personas firmantes contribuyeron a la concepción y el diseno del trabajo, el diseno de las simulaciones, el análisis y la interpretación de los datos, la escritura del documento y su revisión crítica con contribuciones intelectuales importantes, y aprobaron la versión final para su publicación.

Financiación

Si bien este trabajo no ha tenido financiación directa, el segundo autor ha sido parcialmente apoyado por becas del Instituto de Salud Carlos III (Gobierno de Espana), cofinanciado por fondos FEDER (Fondos para el Desarrollo Regional Europeo) - Una forma de hacer Europa (referencias: RD12/0036/0056, PI11/02090) y por la Agencia de Gestió d'Ajuts Universitaris i de Recerca (2014SGR 756) y RecerCaixa 2015 (MD088652).

Conflicto de intereses

Agradecimientos

Queremos agradecer a la Dra. Valeria Stuardo MA la lectura crítica y los posteriores comentarios a una de las versiones de este manuscrito.

Anexo. Material adicional

Se puede consultar material adicional a este artículo en su versión electrónica disponible en doi:10.1016/j.gaceta.2017.01.001

Bibliografía

1. Pérez-Hoyos S, Ferreros I, del Amo J, et al. Imputación del instante de serocon-versión alVIH en cohortes de hemofílicos. Gac Sanit. 2003;17:474-82.

2. Van der Palm DW, van der Ark LA, Vermunt JK. A comparison of incomplete-data methods for categorical data. Stat Methods Med Res. 2016;25:754-74.

3. Sterne JAC, White IR, Carlin JB, et al. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009;338: b2393.

4. Little RJA, Rubin DB. Statistical analysis with missing data. New York: Wiley; 2002.

5. Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychol Methods. 2002;7:147-77.

6. Rubin DB. Multiple imputation for nonresponse in surveys. New York: Wiley-Interscience; 2004.

7. Donders ART, van der Heijden GJMG, Stijnen T, et al. Review: a gentle introduction to imputation of missing values. J Clin Epidemiol. 2006;59:1087-91.

8. Canizares M, Barroso I, Alfonso K. Datos incompletos: una mirada crítica para su manejo en estudios sanitarios. Gac Sanit. 2004;18:58-63.

9. Joenssen DW. HotDeckImputation. Hot Deck Imputation Methods for Missing Data. 2015.

10. Van Buuren S, Groothuis-Oudshoorn IK MICE. Multivariate Imputation by Chained Equations in R.J Stat Softw. 2011;45:1-67.

Ninguno.