Hola quería preguntaros acerca de un problema que se me ha planteado. Normalmente he realizado estudios con diseños factoriales, pero en este caso, por distintos motivos, quería hacer un estudio de regresión, En la tabla que pego se observa (a ojo incluso) cómo varias variables correlacionan fuertemente (principalmente el problema está en las variables frq, basefq y cumfrq), introduciendo en los análisis colinearidad. Estudios de otros colegas en este sentido suelen hablar de un procedimiento que en inglés llaman "partial out" para eliminar la colinearidad y que consiste en obtener de las variables que correlacionan fuertemente otros valores que, mientras que correlacioonan muy fuertemente con los valores originales, sin embargo pasan a correlacionar muy poco con los otros con los que antes correlacionaban. De esta manera disminuye la colinearidad aunque los nuevos valores son fieles a los originales. He leído bastantes documentos sobre R, alguno de los cuales trata sobre la colinearidad, pero no observo pistas que me ayuden en este problema tan práctico. Quizá alguno de vosotros pueda ayudarme. Pego la tabla por si os guiara en algo. Gracias y un saludo word freq basefq cumfrq ndnsty len stmfs afxfs w1 4 14.5 17 1 7 6 2700 w2 0 5 5 1 9 8 650 w3 1 19 23 1 8 7 1200 w4 11 89 125 1 8 6 1200 w5 8 7 32 1 8 9 2300 w6 2 74 83 4 7 4 850 w7 1 31 72 0 9 7 2300 w8 7 93 95 3 9 5 2700 w9 5 7.5 10 0 9 4 1200 w10 2 6 6 0 9 6 850 w11 5 5 23 0 9 6 750 w12 0 73.5 84 0 10 8 2700 w13 2 45 59 3 7 6 3000 w14 0 68.5 78 3 6 8 4400 w15 3 10 11 5 7 6 2250 w16 8 19 26 1 8 7 650 w17 1 12 13 1 8 7 2250 w18 2 11.5 13 2 10 6 650 w19 14 56.5 78 2 8 5 1200 w20 4 3 11 0 7 8 440 w21 1 12 13 1 10 4 1200 w22 7 21 24 0 7 7 2250 w23 19 114 158 8 6 8 4400 w24 2 10 12 2 7 6 650 [[alternative HTML version deleted]]
Bueno, depende de tu objetivo. No existe una solución ideal universal (salvo, tal vez, aumentar el tamaño de la muestra). Si tu objetivo es simplemente predecir, puedes utilizar una regresión de ridge (ver ?lm.ridge en R) que reduce los efectos de la multicolinealidad. Pero me parece que en el caso concreto que describes las variables frq, basefq y cumfrq, están todas relacionadas con una misma variables subyacente (¿una frecuencia?). Tal vez, podrías prescindir de dos de ellas sin que eso afecte a tu modelo explicativo. Un saludo. Olivier -- ____________________________________ Olivier G. Nuñez Email: onunez en iberstat.es Tel : +34 663 03 69 09 Web: http://www.iberstat.es ____________________________________ El 05/01/2011, a las 20:13, Miguel Lázaro escribió:> Hola > quería preguntaros acerca de un problema que se me ha planteado. > Normalmente he realizado estudios con diseños factoriales, pero en > este caso, por distintos motivos, quería hacer un estudio de > regresión, En la tabla que pego se observa (a ojo incluso) cómo > varias variables correlacionan fuertemente (principalmente el > problema está en las variables frq, basefq y cumfrq), introduciendo > en los análisis colinearidad. Estudios de otros colegas en este > sentido suelen hablar de un procedimiento que en inglés llaman > "partial out" para eliminar la colinearidad y que consiste en > obtener de las variables que correlacionan fuertemente otros > valores que, mientras que correlacioonan muy fuertemente con los > valores originales, sin embargo pasan a correlacionar muy poco con > los otros con los que antes correlacionaban. De esta manera > disminuye la colinearidad aunque los nuevos valores son fieles a > los originales. He leído bastantes documentos sobre R, alguno > de los cuales trata sobre la colinearidad, pero no observo pistas > que me ayuden en este problema tan práctico. Quizá alguno de > vosotros pueda ayudarme. Pego la tabla por si os guiara en algo. > Gracias y un saludo
Buenas. A mi esta clase de "consulta" siempre me recuerda: fortune("brain"). Es decir, suelta un conjunto de datos que no explica, menciona un posible problema, no aclara el objetivo, cita vagamente una técnica y pretende que los demás se lo resuelvan ... y encima gratis. ¿No tenemos una posting guide? Un saludo Gregorio R. Serrano El 5 de enero de 2011 20:13, Miguel Lázaro <lazarolv@yahoo.es> escribió:> Hola > quería preguntaros acerca de un problema que se me ha planteado. > Normalmente he realizado estudios con diseños factoriales, pero en este > caso, por distintos motivos, quería hacer un estudio de regresión, En la > tabla que pego se observa (a ojo incluso) cómo varias variables > correlacionan fuertemente (principalmente el problema está en las > variables frq, basefq y cumfrq), introduciendo en los análisis colinearidad. > Estudios de otros colegas en este sentido suelen hablar de un procedimiento > que en inglés llaman "partial out" para eliminar la colinearidad y que > consiste en obtener de las variables que correlacionan fuertemente otros > valores que, mientras que correlacioonan muy fuertemente con los valores > originales, sin embargo pasan a correlacionar muy poco con los otros con los > que antes correlacionaban. De esta manera disminuye la colinearidad aunque > los nuevos valores son fieles a los originales. He leído bastantes > documentos sobre R, alguno > de los cuales trata sobre la colinearidad, pero no observo pistas que me > ayuden en este problema tan práctico. Quizá alguno de vosotros pueda > ayudarme. Pego la tabla por si os guiara en algo. > Gracias y un saludo > > > word freq basefq cumfrq ndnsty len stmfs > afxfs > w1 4 14.5 17 1 7 > 6 2700 > w2 0 5 5 1 9 > 8 650 > w3 1 19 23 1 8 7 > 1200 > w4 11 89 125 1 8 > 6 1200 > w5 8 7 32 1 8 > 9 2300 > w6 2 74 83 4 7 > 4 850 > w7 1 31 72 0 9 > 7 2300 > w8 7 93 95 3 9 > 5 2700 > w9 5 7.5 10 0 9 > 4 1200 > w10 2 6 6 0 9 > 6 850 > w11 5 5 23 0 9 > 6 750 > w12 0 73.5 84 > 0 10 8 2700 > w13 2 45 59 3 7 > 6 3000 > w14 0 68.5 78 3 6 > 8 4400 > w15 3 10 11 5 7 > 6 2250 > w16 8 19 26 1 8 > 7 650 > w17 1 12 13 1 8 > 7 2250 > w18 2 11.5 13 2 10 > 6 650 > w19 14 56.5 78 2 8 > 5 1200 > w20 4 3 11 0 7 > 8 440 > w21 1 12 13 1 10 > 4 1200 > w22 7 21 24 0 7 > 7 2250 > w23 19 114 158 8 6 > 8 4400 > w24 2 10 12 2 7 > 6 650 > > > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >-- Dr. Gregorio R. Serrano Dpto. Economía Cuantitativa (UCM) Voz:+34 91394 2361 Fax:+34 91394 2591 http://www.grserrano.es [[alternative HTML version deleted]]
Hola, Es cierto que la colinealidad tiende a considerarse un problema. Para curarte en salud, si tienes variables fuertemente correlacionadas entre sí (por ejemplo, cuando r > 0.8), podrías excluir algunas de ellas (información redundante) y quedarte sólo con la que explique una mayor variación de los datos. Otra cosa que podrías hacer, teniendo en cuenta la existencia de colinealidad (collinearity, en inglés) y las dificultades que esto podría causar en la selección de variables (???), sería evitar utilizar procedimientos automáticos de selección de las mismas. Yo te aconsejaría que utilizaras un proceso de eliminación de variables paso a paso hacia atrás (backward elimination), además de la selección de variables paso a paso hacia delante (forward selection) que normalmente se usa. En principio, el resultado final debería ser el mismo, aunque no necesariamente. Cuando incluyes todos los términos en el modelo y luego vas quitando uno a uno los no significativos (backward elimination), todos aquellos que no explican nada, los que son redundantes (están fuertemente correlacionados con otros), también se quitan; o sea, que al final se caen ellos "solitos" del modelo. En cambio, mediante una selección paso a paso hacia delante, la inclusión de una determinada variable podría impedir que luego otras variables, que en conjunto explicaran más que esa primera, entraran en el modelo. Por eso, el modelo obtenido por forward podría ser diferente del modelo obtenido por backward. Si con los dos procedimientos obtuvieras el mismo modelo, entonces, estupendo; eso le daría más solidez a tu modelo. Y si obtienes dos modelos diferentes, no desestimes ninguno y piensa que todos los modelos son incorrectos (al fin y al cabo, no son más que una simplificación de la realidad). Un saludo, y Feliz Año 2011 Lola -- Dr. Dolores Ferrer-Castán Área de Ecología, Facultad de Biología Universidad de Salamanca C.U. Miguel de Unamuno E-37007 Salamanca, Spain Tel: +34 923 294 464 Fax: +34 923 294 515 -----Mensaje original----- De: r-help-es-bounces en r-project.org [mailto:r-help-es-bounces en r-project.org] En nombre de Miguel Lázaro Enviado el: miércoles, 05 de enero de 2011 20:14 Para: r-help-es en r-project.org Asunto: [R-es] colinearidad Hola quería preguntaros acerca de un problema que se me ha planteado. Normalmente he realizado estudios con diseños factoriales, pero en este caso, por distintos motivos, quería hacer un estudio de regresión, En la tabla que pego se observa (a ojo incluso) cómo varias variables correlacionan fuertemente (principalmente el problema está en las variables frq, basefq y cumfrq), introduciendo en los análisis colinearidad. Estudios de otros colegas en este sentido suelen hablar de un procedimiento que en inglés llaman "partial out" para eliminar la colinearidad y que consiste en obtener de las variables que correlacionan fuertemente otros valores que, mientras que correlacioonan muy fuertemente con los valores originales, sin embargo pasan a correlacionar muy poco con los otros con los que antes correlacionaban. De esta manera disminuye la colinearidad aunque los nuevos valores son fieles a los originales. He leído bastantes documentos sobre R, alguno de los cuales trata sobre la colinearidad, pero no observo pistas que me ayuden en este problema tan práctico. Quizá alguno de vosotros pueda ayudarme. Pego la tabla por si os guiara en algo. Gracias y un saludo word freq basefq cumfrq ndnsty len stmfs afxfs w1 4 14.5 17 1 7 6 2700 w2 0 5 5 1 9 8 650 w3 1 19 23 1 8 7 1200 w4 11 89 125 1 8 6 1200 w5 8 7 32 1 8 9 2300 w6 2 74 83 4 7 4 850 w7 1 31 72 0 9 7 2300 w8 7 93 95 3 9 5 2700 w9 5 7.5 10 0 9 4 1200 w10 2 6 6 0 9 6 850 w11 5 5 23 0 9 6 750 w12 0 73.5 84 0 10 8 2700 w13 2 45 59 3 7 6 3000 w14 0 68.5 78 3 6 8 4400 w15 3 10 11 5 7 6 2250 w16 8 19 26 1 8 7 650 w17 1 12 13 1 8 7 2250 w18 2 11.5 13 2 10 6 650 w19 14 56.5 78 2 8 5 1200 w20 4 3 11 0 7 8 440 w21 1 12 13 1 10 4 1200 w22 7 21 24 0 7 7 2250 w23 19 114 158 8 6 8 4400 w24 2 10 12 2 7 6 650 [[alternative HTML version deleted]]