Hola, Quería preguntar si alguien conoce alguna referencia que pueda ayudarme a entender cuál es la mejor forma de lidiar con valores faltantes para aplicar svm en datos de microarrays. Estoy pensando que una buena solución es eliminar la variable en la que exista un valor faltante de la matriz de datos. En el paquete e1070 de R se elimina la muestra que contiene valores faltantes, pero eso para datos de microarrays implica eliminar miles de observaciones por un solo valor faltante. No tiene sentido en mi opinión. La imputación tampoco me parece lo mas adecuado, porque aunque es poco probable, puede haber muchos valores faltantes en una de las clases y entonces estaríamos imputando con valores de las otras, eliminando variabilidad en el modelo. En fin, no sé si alguien tiene alguna idea o conocéis un paquete de R que me ofrezca solución. Muchas gracias, un saludo [[alternative HTML version deleted]]
Ramon Diaz-Uriarte
2009-Oct-23 12:38 UTC
[R-es] Valores faltantes en SVM aplicado a microarrays
Hola Patricia, Me temo que has descrito las dos posibles opciones. 2009/10/22 Usuario R <r.user.spain en gmail.com>:> Hola, > > Quería preguntar si alguien conoce alguna referencia que pueda ayudarme a > entender cuál es la mejor forma de lidiar con valores faltantes para aplicar > svm en datos de microarrays. Estoy pensando que una buena solución es > eliminar la variable en la que exista un valor faltante de la matriz de > datos. En el paquete e1070 de R se elimina la muestra que contiene valores > faltantes, pero eso para datos de microarrays implica eliminar miles de > observaciones por un solo valor faltante. No tiene sentido en mi opinión. > > La imputación tampoco me parece lo mas adecuado, porque aunque es poco > probable, puede haber muchos valores faltantes en una de las clases y > entonces estaríamos imputando con valores de las otras, eliminando > variabilidad en el modelo. >Si fuera a hacer imputación, y tuviera tiempo, usaría imputación múltiple. En cuanto a lo segundo que planteas, la existencia de un sustancial desequilibrio en missings entre las clases, puede ser indicación de problemas más serios. A qué se debe? Se han hecho todas las array de alguna de las clases en algunos cristales concretos que son de baja calidad? Y si hay sesgo en missing patterns, no habrá sesgos en los valores que no son missing? Etc. En cualquier caso, una idea rápida te la puedes hacer en un momento. Software: no estoy al corriente, pero en los últimos 6 meses han aparecido varios papers sobre análisis de SNPs con missing values en el contexto de "genome wide association studies" (aunque no se si usan SVMs; sospecho que no) y al menos algunos tenían software. R.> En fin, no sé si alguien tiene alguna idea o conocéis un paquete de R que me > ofrezca solución. > > Muchas gracias, un saludo > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >-- Ramon Diaz-Uriarte Structural Biology and Biocomputing Programme Spanish National Cancer Centre (CNIO) http://ligarto.org/rdiaz Phone: +34-91-732-8000 ext. 3019