Carlos J. Gil Bellosta
2009-Jul-20 14:17 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Hola, ¿qué tal? Las propiedades asintóticas del test de la chi-cuadrado me están llevando a rechazar sistemáticamente hipótesis de homogeneidad. El problema es el siguiente. Parto de una población de n individuos (n del orden de 100.000). En t0, están agrupados en 10 bloques, A1-A10. En t1, algunos inviduos han entrado, otros han salido, otros han cambiado de bloque. Y me interesa estimar la medida en la que ha cambiado la distribución de la población sobre los bloques. Pero encuentro la hipótesis que conduce al test de la chi-cuadrado demasiado restrictivo. De hecho, haciendo las cuentas, observo que las desviaciones de frecuencias respecto a la población original que conducen a un rechazo de la hipótesis de homogeneidad son del orden de la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de un 1% puede pasar de no provocar un rechazo de H0 a provocarlo. ¿Existe algún test o conjunto de hipótesis distinto al que subyace al test de la chi-cuadrado que útil para el estudio de este tipo de problemas que se usen en campos como demografía, ecología, etc., donde n sea, típicamente grande? Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com
Kjetil Halvorsen
2009-Jul-20 15:10 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
No estoy seguro si entiendo correctamewnte el problema. peri si si, Brad Efron ha desarrollado ideas interesantes para atacar este tripo de problemas, el esta hablando de "estimar la hipótesis nula"! Estrictamente la _distribución_ nula. Así el criterio de rechazo se puede adaptar al los datos. Yo he encontrado estas idéas útiles. Estan coneccionados con la idea de controlar FDR "la taza de descubrimientos falsos". http://www-stat.stanford.edu/~ckirby/brad/ Especialmente, mire: Mire la lista de sus papeles desde 2000, comenzando con 2003: "Large-scale simultaneous hypothesis testing: The choice of a null hypothesis" Yo encuentro estas idéas superinteresantes (y superútiles!) Kjetil 2009/7/20 Carlos J. Gil Bellosta <cgb en datanalytics.com>:> Hola, ¿qué tal? > > Las propiedades asintóticas del test de la chi-cuadrado me están > llevando a rechazar sistemáticamente hipótesis de homogeneidad. El > problema es el siguiente. > > Parto de una población de n individuos (n del orden de 100.000). En > t0, están agrupados en 10 bloques, A1-A10. > > En t1, algunos inviduos han entrado, otros han salido, otros han > cambiado de bloque. Y me interesa estimar la medida en la que ha > cambiado la distribución de la población sobre los bloques. > > Pero encuentro la hipótesis que conduce al test de la chi-cuadrado > demasiado restrictivo. De hecho, haciendo las cuentas, observo que las > desviaciones de frecuencias respecto a la población original que > conducen a un rechazo de la hipótesis de homogeneidad son del orden de > la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de > un 1% puede pasar de no provocar un rechazo de H0 a provocarlo. > > ¿Existe algún test o conjunto de hipótesis distinto al que subyace al > test de la chi-cuadrado que útil para el estudio de este tipo de > problemas que se usen en campos como demografía, ecología, etc., donde > n sea, típicamente grande? > > Un saludo, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- "... an entire human genome would fit on a music CD." --- www.thinkgene.com
Olivier Nuñez
2009-Jul-20 15:31 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Carlos, fija un alpha más conservador: alpha = 1%? Pues al fin y al cabo, estás diciendo que las variaciones pequeñas no te interessan. De hecho, sería interesante saber lo que quieres detectar. Un abrazo. Olivier ----- Original Message ----- From: "Carlos J. Gil Bellosta " <cgb en datanalytics.com> To: "r-help-es" <r-help-es en r-project.org> Sent: Monday, July 20, 2009 4:17 PM Subject: [R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente? Hola, ¿qué tal? Las propiedades asintóticas del test de la chi-cuadrado me están llevando a rechazar sistemáticamente hipótesis de homogeneidad. El problema es el siguiente. Parto de una población de n individuos (n del orden de 100.000). En t0, están agrupados en 10 bloques, A1-A10. En t1, algunos inviduos han entrado, otros han salido, otros han cambiado de bloque. Y me interesa estimar la medida en la que ha cambiado la distribución de la población sobre los bloques. Pero encuentro la hipótesis que conduce al test de la chi-cuadrado demasiado restrictivo. De hecho, haciendo las cuentas, observo que las desviaciones de frecuencias respecto a la población original que conducen a un rechazo de la hipótesis de homogeneidad son del orden de la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de un 1% puede pasar de no provocar un rechazo de H0 a provocarlo. ¿Existe algún test o conjunto de hipótesis distinto al que subyace al test de la chi-cuadrado que útil para el estudio de este tipo de problemas que se usen en campos como demografía, ecología, etc., donde n sea, típicamente grande? Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
José Trujillo Carmona
2009-Jul-20 15:48 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Si lo he entendido me parece que se trata de un problema de concepto. El problema del contraste de hipótesis consiste en demostrar que la hipótesis nula es falsa y además mientras menos datos para comprobarlo mejor. No ponemos la hipótesis que queremos demostrar en la hipótesis nula, sino que si hace falta llevamos la igualdad a la hipótesis alternativa como hacen los bioensayos. La hipótesis nula es falsa por principio pero la damos como buena si no hay evidencias en contra en base al principio de parsimonia o su forma más antigua "la navaja de Occam": si los datos no lo piden no compliquemos el modelo. Pero es que de tu planteamiento se deduce que efectivamente la hipótesis nula ha de ser falsa siempre; dices: En t1, algunos inviduos han entrado, otros han salido, otros han cambiado de bloque. ... Es decir, t0 no es igual que t1; hay evolución. Luego siempre debería dar falsa H0. A veces el movimiento es tan leve que ni con 100.000 datos; pero ya sabes que H0 es falsa. El planteamiento del modelo de test de hipótesis es: "O son exactamente iguales, como dos números reales con infinitos decimales, o H0 es falsa". El problema por tanto ha de ser replanteado y definir cuando podemos dar por "similar" la situación t0 y t1, porque ya sabes que no son iguales y el test Ji-Cuadrado dirá que no son iguales si no son "EXACTAMENTE" iguales y tienes suficientes datos para acreditarlo, como es tu caso. Saludos. Carlos J. Gil Bellosta escribió:> Hola, ¿qué tal? > > Las propiedades asintóticas del test de la chi-cuadrado me están > llevando a rechazar sistemáticamente hipótesis de homogeneidad. El > problema es el siguiente. > > Parto de una población de n individuos (n del orden de 100.000). En > t0, están agrupados en 10 bloques, A1-A10. > > En t1, algunos inviduos han entrado, otros han salido, otros han > cambiado de bloque. Y me interesa estimar la medida en la que ha > cambiado la distribución de la población sobre los bloques. > > Pero encuentro la hipótesis que conduce al test de la chi-cuadrado > demasiado restrictivo. De hecho, haciendo las cuentas, observo que las > desviaciones de frecuencias respecto a la población original que > conducen a un rechazo de la hipótesis de homogeneidad son del orden de > la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de > un 1% puede pasar de no provocar un rechazo de H0 a provocarlo. > > ¿Existe algún test o conjunto de hipótesis distinto al que subyace al > test de la chi-cuadrado que útil para el estudio de este tipo de > problemas que se usen en campos como demografía, ecología, etc., donde > n sea, típicamente grande? > > Un saludo, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >
Kjetil Halvorsen
2009-Jul-20 16:08 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Mire abajo: 2009/7/20 José Trujillo Carmona <trujillo en unex.es>:> Si lo he entendido me parece que se trata de un problema de concepto. > > El problema del contraste de hipótesis consiste en demostrar que la > hipótesis nula es falsa y además mientras menos datos para comprobarlo > mejor. No ponemos la hipótesis que queremos demostrar en la hipótesis > nula, sino que si hace falta llevamos la igualdad a la hipótesis > alternativa como hacen los bioensayos. > > La hipótesis nula es falsa por principio pero la damos como buena si no > hay evidencias en contra en base al principio de parsimonia o su forma > más antigua "la navaja de Occam": si los datos no lo piden no > compliquemos el modelo. > > Pero es que de tu planteamiento se deduce que efectivamente la hipótesis > nula ha de ser falsa siempre; dices: > > En t1, algunos inviduos han entrado, otros han salido, otros han > cambiado de bloque. ... > > > Es decir, t0 no es igual que t1; hay evolución. Luego siempre debería > dar falsa H0. A veces el movimiento es tan leve que ni con 100.000 > datos; pero ya sabes que H0 es falsa. El planteamiento del modelo de > test de hipótesis es: "O son exactamente iguales, como dos números > reales con infinitos decimales, o H0 es falsa".Este es justo el problema que Brad Efron (inventor del bootstrap) trata de resolver. Efectivamente, el esta redefiniendo el concepto de hipótesis nula de "igualdad exacta" a "diferencias pequeñas sim importar" y el clave de sus ideas es hacer este operacional mediante suponer a) muchos datos (por lo menos 100 H_0, mejor 1000) b) suponer que la gram mayoria de estos H_0 son verdaderos, y c) bajo el supuesto b) ESTIMAR la distribución del criterio test bajo H_0. Yo he visto que esto funciona muy bién. Si Carlos tiene más que 100 H_0, debe tratar esta idea. Kjetil> > El problema por tanto ha de ser replanteado y definir cuando podemos dar > por "similar" la situación t0 y t1, porque ya sabes que no son iguales y > el test Ji-Cuadrado dirá que no son iguales si no son "EXACTAMENTE" > iguales y tienes suficientes datos para acreditarlo, como es tu caso. > > Saludos. > > > > Carlos J. Gil Bellosta escribió: >> >> Hola, ¿qué tal? >> >> Las propiedades asintóticas del test de la chi-cuadrado me están >> llevando a rechazar sistemáticamente hipótesis de homogeneidad. El >> problema es el siguiente. >> >> Parto de una población de n individuos (n del orden de 100.000). En >> t0, están agrupados en 10 bloques, A1-A10. >> >> En t1, algunos inviduos han entrado, otros han salido, otros han >> cambiado de bloque. Y me interesa estimar la medida en la que ha >> cambiado la distribución de la población sobre los bloques. >> >> Pero encuentro la hipótesis que conduce al test de la chi-cuadrado >> demasiado restrictivo. De hecho, haciendo las cuentas, observo que las >> desviaciones de frecuencias respecto a la población original que >> conducen a un rechazo de la hipótesis de homogeneidad son del orden de >> la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de >> un 1% puede pasar de no provocar un rechazo de H0 a provocarlo. >> >> ¿Existe algún test o conjunto de hipótesis distinto al que subyace al >> test de la chi-cuadrado que útil para el estudio de este tipo de >> problemas que se usen en campos como demografía, ecología, etc., donde >> n sea, típicamente grande? >> >> Un saludo, >> >> Carlos J. Gil Bellosta >> http://www.datanalytics.com >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- "... an entire human genome would fit on a music CD." --- www.thinkgene.com
José Trujillo Carmona
2009-Jul-20 16:22 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Kjetil Halvorsen escribió:> b) suponer que la gram mayoria de estos > H_0 son verdaderos,Ese desde luego es un planteamiento que me parece muy correcto y efectivamente Carlos debe estudiar: No utilizar la hipótesis nula del Ji-Cuadrado clásico, sino que debe introducir una hipótesis nula que incluya un cierto nivel de variabilidad en la frecuencias. El problema me temo que finalmente vuelve a ser el mismo: ¿Qué variabilidad debe introducir en la hipótesis nula? es lo mismo que pregunto en el mensaje que va cruzado con éste (esto es una conversación "destemporizada"): ¿Qué diferencia es RELEVANTE? En mi solución juego con el tamaño de muestra y desde luego la solución que propones es mucho mejor, pero no resuelve la cuestión que le preguntamos a Carlos ambos. Le echaré un vistazo al trabajo de Efron. Saludos. Kjetil Halvorsen escribió:> Mire abajo: > > 2009/7/20 José Trujillo Carmona <trujillo@unex.es>: > >> Si lo he entendido me parece que se trata de un problema de concepto. >> >> El problema del contraste de hipótesis consiste en demostrar que la >> hipótesis nula es falsa y además mientras menos datos para comprobarlo >> mejor. No ponemos la hipótesis que queremos demostrar en la hipótesis >> nula, sino que si hace falta llevamos la igualdad a la hipótesis >> alternativa como hacen los bioensayos. >> >> La hipótesis nula es falsa por principio pero la damos como buena si no >> hay evidencias en contra en base al principio de parsimonia o su forma >> más antigua "la navaja de Occam": si los datos no lo piden no >> compliquemos el modelo. >> >> Pero es que de tu planteamiento se deduce que efectivamente la hipótesis >> nula ha de ser falsa siempre; dices: >> >> En t1, algunos inviduos han entrado, otros han salido, otros han >> cambiado de bloque. ... >> >> >> Es decir, t0 no es igual que t1; hay evolución. Luego siempre debería >> dar falsa H0. A veces el movimiento es tan leve que ni con 100.000 >> datos; pero ya sabes que H0 es falsa. El planteamiento del modelo de >> test de hipótesis es: "O son exactamente iguales, como dos números >> reales con infinitos decimales, o H0 es falsa". >> > > Este es justo el problema que Brad Efron (inventor del bootstrap) > trata de resolver. Efectivamente, el esta redefiniendo el concepto > de hipótesis nula de "igualdad exacta" a "diferencias pequeñas sim importar" > y el clave de sus ideas es hacer este operacional mediante suponer a) > muchos datos > (por lo menos 100 H_0, mejor 1000) b) suponer que la gram mayoria de estos > H_0 son verdaderos, y c) bajo el supuesto b) ESTIMAR la distribución > del criterio test bajo H_0. Yo he visto que esto funciona muy bién. > > Si Carlos tiene más que 100 H_0, debe tratar esta idea. > > Kjetil > > >> El problema por tanto ha de ser replanteado y definir cuando podemos dar >> por "similar" la situación t0 y t1, porque ya sabes que no son iguales y >> el test Ji-Cuadrado dirá que no son iguales si no son "EXACTAMENTE" >> iguales y tienes suficientes datos para acreditarlo, como es tu caso. >> >> Saludos. >> >> >> >> Carlos J. Gil Bellosta escribió: >> >>> Hola, ¿qué tal? >>> >>> Las propiedades asintóticas del test de la chi-cuadrado me están >>> llevando a rechazar sistemáticamente hipótesis de homogeneidad. El >>> problema es el siguiente. >>> >>> Parto de una población de n individuos (n del orden de 100.000). En >>> t0, están agrupados en 10 bloques, A1-A10. >>> >>> En t1, algunos inviduos han entrado, otros han salido, otros han >>> cambiado de bloque. Y me interesa estimar la medida en la que ha >>> cambiado la distribución de la población sobre los bloques. >>> >>> Pero encuentro la hipótesis que conduce al test de la chi-cuadrado >>> demasiado restrictivo. De hecho, haciendo las cuentas, observo que las >>> desviaciones de frecuencias respecto a la población original que >>> conducen a un rechazo de la hipótesis de homogeneidad son del orden de >>> la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de >>> un 1% puede pasar de no provocar un rechazo de H0 a provocarlo. >>> >>> ¿Existe algún test o conjunto de hipótesis distinto al que subyace al >>> test de la chi-cuadrado que útil para el estudio de este tipo de >>> problemas que se usen en campos como demografía, ecología, etc., donde >>> n sea, típicamente grande? >>> >>> Un saludo, >>> >>> Carlos J. Gil Bellosta >>> http://www.datanalytics.com >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es@r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >>> >> _______________________________________________ >> R-help-es mailing list >> R-help-es@r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> >> > > > >[[alternative HTML version deleted]]
Pablo Emilio Verde
2009-Jul-20 16:32 UTC
[R-es] Re: El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Hola Carlos, Esto es solo una idea que he utilizado en casos similares. Lo que se hace es clasificar cada observacion segun el cambio que hay desde t0 a t1. Esto lo podes hacer armando una tabla de contingencia de 10x10 en tu caso o quizas de mayor tamaño. Esta tabla la podes analizar utilizando regresion Poisson por medio de glm( ... , family=poisson). Esto te permite estudiar como se realizaron los cambios en tu poblacion y cambios son interesantes. Una referencia buena es el libro de Jim Lindsey " Modelling Frequency and count data". El libro tiene las scripts en R para estos modelos. Saludos, Pablo ----- Original Message ----- From: "Carlos J. Gil Bellosta " <cgb en datanalytics.com> To: "r-help-es" <r-help-es en r-project.org> Sent: Monday, July 20, 2009 4:17 PM Subject: [R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente? Hola, ¿qué tal? Las propiedades asintóticas del test de la chi-cuadrado me están llevando a rechazar sistemáticamente hipótesis de homogeneidad. El problema es el siguiente. Parto de una población de n individuos (n del orden de 100.000). En t0, están agrupados en 10 bloques, A1-A10. En t1, algunos inviduos han entrado, otros han salido, otros han cambiado de bloque. Y me interesa estimar la medida en la que ha cambiado la distribución de la población sobre los bloques. Pero encuentro la hipótesis que conduce al test de la chi-cuadrado demasiado restrictivo. De hecho, haciendo las cuentas, observo que las desviaciones de frecuencias respecto a la población original que conducen a un rechazo de la hipótesis de homogeneidad son del orden de la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de un 1% puede pasar de no provocar un rechazo de H0 a provocarlo. ¿Existe algún test o conjunto de hipótesis distinto al que subyace al test de la chi-cuadrado que útil para el estudio de este tipo de problemas que se usen en campos como demografía, ecología, etc., donde n sea, típicamente grande? Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Jorge Ivan Velez
2009-Jul-20 17:20 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Hola Pablo y Carlos, Llego un poco tarde a la conversación, pero... Si entiendo el contexto, Carlos tiene algo similar a # Datos set.seed(123) datos <- replicate(5, 20 + floor( 20 * runif( 10 ) )) colnames(datos) <- paste(''t'',1:5,sep="") rownames(datos) <- paste(''Grupo'',1:10, sep="") datos y con # Cada color representa un grupo matplot(datos, type = ''l'', lty = 1, lwd = 2, xlab = ''Tiempo de medición'', ylab = ''Número de individuos'', xaxt = ''n'', las = 1, yaxt = ''n'') axis(1, 1:10,1:10) axis(2, seq(20, 40, by = 2), seq(20, 40, by = 2), las = 1) puedes tener una idea del comportamiento de los grupos. Otra alternativa para el gráfico anterior es lattice. La detección de las diferencias que mencionas podría, como alternativa, hacerse via un modelo de Regresión Poisson con medidas repetidas, algo un poco más elaborado a lo que Pablo plantea (gracias por traerlo al post!), pero igualmente válido dado que estás trabajando con conteos. La variable respuesta sería el número de personas por grupos y las covariables el tiempo y el grupo. Otra alternativa que no sé si aplique en el caso de tener mas de dos tiempos de medición (como en los datos que genero), sería el _Linear Trend Alternative to Independence Test_ propuesto en la página 34 de [1]. Una implementación de este test en R se puede hacerse en R via la función "cmh_test" de la libreria "coin". En SAS se utiliza el proc freq con weight dados por los conteos y la opción cmh1. Espero sea de utilidad, Jorge [1] Agresti, A. (1996). An Introduction to Categorical Data Analysis. John Wiley and Sons, ISBN 0-471-11338-7. 2009/7/20 Pablo Emilio Verde <>> Hola Carlos, > > Esto es solo una idea que he utilizado > en casos similares. > > Lo que se hace es clasificar cada observacion > segun el cambio que hay desde t0 a t1. > Esto lo podes hacer armando una tabla > de contingencia de 10x10 en tu caso o quizas > de mayor tamaño. > > Esta tabla la podes analizar utilizando regresion > Poisson por medio de glm( ... , family=poisson). > Esto te permite estudiar como se realizaron los > cambios en tu poblacion y cambios son interesantes. > > Una referencia buena es el libro de Jim Lindsey " > Modelling Frequency and count data". El libro > tiene las scripts en R para estos modelos. > > Saludos, > > Pablo > > > > > ----- Original Message ----- > From: "Carlos J. Gil Bellosta " <> > To: "r-help-es" <r-help-es@r-project.org> > Sent: Monday, July 20, 2009 4:17 PM > Subject: [R-es] El test de la chi-cuadrado, ¿demasiado restrictivo > asintóticamente? > > > Hola, ¿qué tal? > > Las propiedades asintóticas del test de la chi-cuadrado me están > llevando a rechazar sistemáticamente hipótesis de homogeneidad. El > problema es el siguiente. > > Parto de una población de n individuos (n del orden de 100.000). En > t0, están agrupados en 10 bloques, A1-A10. > > En t1, algunos inviduos han entrado, otros han salido, otros han > cambiado de bloque. Y me interesa estimar la medida en la que ha > cambiado la distribución de la población sobre los bloques. > > Pero encuentro la hipótesis que conduce al test de la chi-cuadrado > demasiado restrictivo. De hecho, haciendo las cuentas, observo que las > desviaciones de frecuencias respecto a la población original que > conducen a un rechazo de la hipótesis de homogeneidad son del orden de > la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de > un 1% puede pasar de no provocar un rechazo de H0 a provocarlo. > > ¿Existe algún test o conjunto de hipótesis distinto al que subyace al > test de la chi-cuadrado que útil para el estudio de este tipo de > problemas que se usen en campos como demografía, ecología, etc., donde > n sea, típicamente grande? > > Un saludo, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]
Carlos J. Gil Bellosta
2009-Jul-20 17:56 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Hola, ¿qué tal? El problema que motiva mi mensaje es el siguiente. Imaginad un banco que ha concedido un millón de hipotecas. Cada hipoteca está asignada a uno de 10 niveles de riesgo distinto (A1 el menos arriesgado, A10 "subprime"). Pasa un mes y se recalculan los niveles de cada una de las hipotecas. Algunas ya se han cancelado, hay hipotecas nuevas, etc. Tanto el banco en cuestión como el regulador (Banco de España, en mi caso particular) están interesados en detectar si hay "desviaciones poblacionales significativas". Si se detecta una "desviación poblacional significativa" se generan una serie de alarmas, hay que replantear modelos, hay que notificar al regulador, etc. Para detectar estas "desviaciones poblacionales significativas" se plantean distintos tests. Uno de ellos (utilizado por algunos bancos, sugerido también en el documento regulatorio que he apuntado antes) es el de la chi-cuadrado. Problema: que la población subyacente es tan grande que los p-valores obtenidos con fluctuaciones "mínimas" son alarmantes, del tipo 0.000000000000000000000021233. Y eso aun cuando los histogramas, a simple vista, son casi idénticos. Claro, es difícil justificar que con histogramas casi idénticos, con conteos de frecuencias muy similares, haya que decir: "según el p-valor obtenido por el test de la chi-cuadrado, Vd. tiene que replantearse la homogeneidad de su población". Simplemente creo que en este contexto, a pesar de que se utilice el test de la chi-cuadrado y que incluso se recomiende desde "altas esferas", es necesario plantearse una alternativa. De ahí que haya escrito a la lista: no sé si en estudios demográficos, de poblaciones de especies en ecosistemas, en disciplinas donde se manejen frecuencias elevadas, se utilizan medidas de "homogeneidad poblacional" distintas de la de la chi-cuadrado. Entiendo que, en última instancia, debería ser el banco (o el regulador) el que determinase cómo de grande debería ser la desviación que tuviese que generar una alarma (y eso no lo decido yo). Pero me gustaría ser capaz de proponer una medida alternativa al estadístico que da lugar al test de la chi-cuadrado que, como propiedad deseable, no dependiese de n (el tamaño muestral)... No sé si esto aclara las cosas o consigue el efecto contrario... Un saludo, Carlos J. Gil Bellosta
Ramon Diaz-Uriarte
2009-Jul-21 08:02 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Carlos, creo que la respuesta la ha dado ya José Trujillo Carmona. Si el Banco de España quiere detectar desviaciones poblacionales significativas, el Banco de España es el que debe decidir qué es lo que considera "significativo", no en el sentido de p-valor, sino en el sentido de "desviación que me importa". (Y lo qué es o no importante imagino que depende de las consecuencias de esas desviaciones, etc, etc. Supongo que para eso tienen economistas en el BE :-). O sea, es el "subject matter knowledge" lo que debe dictaminar cual es la diferencia mínima que queremos detectar, NO el p-valor per se. A partir de ahí, uno construye un test apropiado para detectar esas diferencias que nos importan. Como ya ha indicado Jo?e, la idea de bioequivalence et al. es apropiada aquí. Por ejemplo, copio de un artículo en The American Statistician de Barker et al. ("Equivalence Testing for Binomial Random Variables: Which Test to Use?", The American Statistician, 55(4), pp. 279-287, 2001). "In studies intended to show that two populations are practically equivalent, the null hypothesis that a substantial difference between the populations exists is more appropriate". Y "In equivalence testing, a difference is specified between parameters such that the experimenter does not care about a smaller difference, but does care about a larger difference". Etc.> Pero me > gustaría ser capaz de proponer una medida alternativa al estadístico > que da lugar al test de la chi-cuadrado que, como propiedad deseable, > no dependiese de n (el tamaño muestral)... >Me temo que ese deseo sencillamente no puede ser satisfecho Un saludo, R. P.D. No estoy seguro de que lo que menciona Kjetil sea aplicable inmediatamente a este caso. El problema que examina Efron es el contraste de muchas (miles a centenares de miles) de hipótesis nulas, como se da frecuentemente en genómica. Pero si entiendo bien tu estás satisfecho con UNA sola hipótesis nula (lo que falta es decidir exactamente CUAL es esa unica hipótesis nula que tienes). 2009/7/20 Carlos J. Gil Bellosta <cgb en datanalytics.com>:> Hola, ¿qué tal? > > El problema que motiva mi mensaje es el siguiente. Imaginad un banco > que ha concedido un millón de hipotecas. Cada hipoteca está asignada a > uno de 10 niveles de riesgo distinto (A1 el menos arriesgado, A10 > "subprime"). > > Pasa un mes y se recalculan los niveles de cada una de las hipotecas. > Algunas ya se han cancelado, hay hipotecas nuevas, etc. > > Tanto el banco en cuestión como el regulador (Banco de España, en mi > caso particular) están interesados en detectar si hay "desviaciones > poblacionales significativas". Si se detecta una "desviación > poblacional significativa" se generan una serie de alarmas, hay que > replantear modelos, hay que notificar al regulador, etc. > > Para detectar estas "desviaciones poblacionales significativas" se > plantean distintos tests. Uno de ellos (utilizado por algunos bancos, > sugerido también en el documento regulatorio que he apuntado antes) es > el de la chi-cuadrado. > > Problema: que la población subyacente es tan grande que los p-valores > obtenidos con fluctuaciones "mínimas" son alarmantes, del tipo > 0.000000000000000000000021233. Y eso aun cuando los histogramas, a > simple vista, son casi idénticos. > > Claro, es difícil justificar que con histogramas casi idénticos, con > conteos de frecuencias muy similares, haya que decir: "según el > p-valor obtenido por el test de la chi-cuadrado, Vd. tiene que > replantearse la homogeneidad de su población". > > Simplemente creo que en este contexto, a pesar de que se utilice el > test de la chi-cuadrado y que incluso se recomiende desde "altas > esferas", es necesario plantearse una alternativa. De ahí que haya > escrito a la lista: no sé si en estudios demográficos, de poblaciones > de especies en ecosistemas, en disciplinas donde se manejen > frecuencias elevadas, se utilizan medidas de "homogeneidad > poblacional" distintas de la de la chi-cuadrado. > > Entiendo que, en última instancia, debería ser el banco (o el > regulador) el que determinase cómo de grande debería ser la desviación > que tuviese que generar una alarma (y eso no lo decido yo). Pero me > gustaría ser capaz de proponer una medida alternativa al estadístico > que da lugar al test de la chi-cuadrado que, como propiedad deseable, > no dependiese de n (el tamaño muestral)... > > No sé si esto aclara las cosas o consigue el efecto contrario... > > Un saludo, > > Carlos J. Gil Bellosta > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Ramon Diaz-Uriarte Structural Biology and Biocomputing Programme Spanish National Cancer Centre (CNIO) http://ligarto.org/rdiaz Phone: +34-91-732-8000 ext. 3019
Carlos J. Gil Bellosta
2009-Jul-21 17:42 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Hola, ¿qué tal? Ramón, estoy de acuerdo contigo. Es ciertamente efecto de la pereza intelectual que cuando en el campo X surja el problema de comparar la estructura (respecto a cierta variable cualitativa) de dos poblaciones se recurra automáticamente al test de la chi-cuadrado. Y todavía de mayor pereza intelectual que dicho consejo se reproduzca incontestadamente en artículos y manuales. En el problema que estoy estudiando, el uso de la chi-cuadrado no se justifica porque: 1) No se cumplen las hipótesis básicas para ser aplicado. 2) Da lugar a resultados no razonables. En particular, los individuos que forman parte de la población en estudio no son, ni mucho menos, iid según una multinomial con parámetros fijos. Es una hipótesis de rigidez distribucional muy restrictiva. Quiero pensar que bajo hipótesis que tuviesen en cuenta la incertidumbre sobre los parámetros observados y las correlaciones entre los individuos (tal vez introduciendo variables latentes (¿normales?) asociadas a cada individuo con un grado de correlación dado) se obtendrían intervalos de confianza más generosos. O plausibles. Aunque me da que abundar en esto es matar moscas a cañonazos: hay que saber mucho para expresar analíticamente que se sabe poco. La alternativa, muy en el espíritu de lo que apunta Ramón, sería, efectivamente, dentro del "conocimiento de la materia", determinar qué se puede entender por "significativo". Yo no sé a partir de qué umbral un cambio en la estructura poblacional es relevante pero sí que intuyo que la relevancia (medida en este ámbito en términos del coste económico del error) está relacionada linealmente con la tasa de error. En fin, creo que me reintegraré dócilmente al redil de los que no cuestionan en este contexto el uso de la chi-cuadrado consolándome pensando que nunca despidieron a nadie por seguir diligentemente las normas que emanan de los despachos del Banco de España. Un saludo y muchas gracias a todos, Carlos J. Gil Bellosta http://www.datanalytics.com El 21 de julio de 2009 10:02, Ramon Diaz-Uriarte<rdiaz02 en gmail.com> escribió:> Carlos, creo que la respuesta la ha dado ya José Trujillo Carmona. Si > el Banco de España quiere detectar desviaciones poblacionales > significativas, el Banco de España es el que debe decidir qué es lo > que considera "significativo", no en el sentido de p-valor, sino en el > sentido de "desviación que me importa". (Y lo qué es o no importante > imagino que depende de las consecuencias de esas desviaciones, etc, > etc. Supongo que para eso tienen economistas en el BE :-). > > O sea, es el "subject matter knowledge" lo que debe dictaminar cual es > la diferencia mínima que queremos detectar, NO el p-valor per se. A > partir de ahí, uno construye un test apropiado para detectar esas > diferencias que nos importan. > > Como ya ha indicado Jo?e, la idea de bioequivalence et al. es > apropiada aquí. Por ejemplo, copio de un artículo en The American > Statistician de Barker et al. ("Equivalence Testing for Binomial > Random Variables: Which Test to Use?", The American Statistician, > 55(4), pp. 279-287, 2001). "In studies intended to show that two > populations are practically equivalent, the null hypothesis that a > substantial difference between the populations exists is more > appropriate". Y "In equivalence testing, a difference is specified > between parameters such that the experimenter does not care about a > smaller difference, but does care about a larger difference". Etc. > >> Pero me >> gustaría ser capaz de proponer una medida alternativa al estadístico >> que da lugar al test de la chi-cuadrado que, como propiedad deseable, >> no dependiese de n (el tamaño muestral)... >> > > > Me temo que ese deseo sencillamente no puede ser satisfecho > > > > Un saludo, > > R. > > > P.D. No estoy seguro de que lo que menciona Kjetil sea aplicable > inmediatamente a este caso. El problema que examina Efron es el > contraste de muchas (miles a centenares de miles) de hipótesis nulas, > como se da frecuentemente en genómica. Pero si entiendo bien tu estás > satisfecho con UNA sola hipótesis nula (lo que falta es decidir > exactamente CUAL es esa unica hipótesis nula que tienes). > > > > 2009/7/20 Carlos J. Gil Bellosta <cgb en datanalytics.com>: >> Hola, ¿qué tal? >> >> El problema que motiva mi mensaje es el siguiente. Imaginad un banco >> que ha concedido un millón de hipotecas. Cada hipoteca está asignada a >> uno de 10 niveles de riesgo distinto (A1 el menos arriesgado, A10 >> "subprime"). >> >> Pasa un mes y se recalculan los niveles de cada una de las hipotecas. >> Algunas ya se han cancelado, hay hipotecas nuevas, etc. >> >> Tanto el banco en cuestión como el regulador (Banco de España, en mi >> caso particular) están interesados en detectar si hay "desviaciones >> poblacionales significativas". Si se detecta una "desviación >> poblacional significativa" se generan una serie de alarmas, hay que >> replantear modelos, hay que notificar al regulador, etc. >> >> Para detectar estas "desviaciones poblacionales significativas" se >> plantean distintos tests. Uno de ellos (utilizado por algunos bancos, >> sugerido también en el documento regulatorio que he apuntado antes) es >> el de la chi-cuadrado. >> >> Problema: que la población subyacente es tan grande que los p-valores >> obtenidos con fluctuaciones "mínimas" son alarmantes, del tipo >> 0.000000000000000000000021233. Y eso aun cuando los histogramas, a >> simple vista, son casi idénticos. >> >> Claro, es difícil justificar que con histogramas casi idénticos, con >> conteos de frecuencias muy similares, haya que decir: "según el >> p-valor obtenido por el test de la chi-cuadrado, Vd. tiene que >> replantearse la homogeneidad de su población". >> >> Simplemente creo que en este contexto, a pesar de que se utilice el >> test de la chi-cuadrado y que incluso se recomiende desde "altas >> esferas", es necesario plantearse una alternativa. De ahí que haya >> escrito a la lista: no sé si en estudios demográficos, de poblaciones >> de especies en ecosistemas, en disciplinas donde se manejen >> frecuencias elevadas, se utilizan medidas de "homogeneidad >> poblacional" distintas de la de la chi-cuadrado. >> >> Entiendo que, en última instancia, debería ser el banco (o el >> regulador) el que determinase cómo de grande debería ser la desviación >> que tuviese que generar una alarma (y eso no lo decido yo). Pero me >> gustaría ser capaz de proponer una medida alternativa al estadístico >> que da lugar al test de la chi-cuadrado que, como propiedad deseable, >> no dependiese de n (el tamaño muestral)... >> >> No sé si esto aclara las cosas o consigue el efecto contrario... >> >> Un saludo, >> >> Carlos J. Gil Bellosta >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > > -- > Ramon Diaz-Uriarte > Structural Biology and Biocomputing Programme > Spanish National Cancer Centre (CNIO) > http://ligarto.org/rdiaz > Phone: +34-91-732-8000 ext. 3019 >
Pablo Emilio Verde
2009-Jul-22 08:38 UTC
[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Hola Carlos, Muy estimulante la discusion! En mi experiencia, los documentos regulatorios son superficiales y conservadores. Una de las razones por la que los bancos (industria farmaceutica, etc.) contratan consultores es porque si siguen al pie de la letra estos documentos no pueden hacer negocios. Seguramente, el problema estadistico que planteaste se deberia resolver muy puntualmente como se ha mensionado en la mails anteriores. De todos modos y fuera del contexto particular de tu aplicacion, aca hay algo muy profundo en el uso de metodos estadisticos que hay que cambiar. Tambien algo muy profundo en la enseñanza de la estadistica que tambien hay que cambiar, sino profesionales de otras areas, con uno o dos cursos de estadistica en su carrera, nos seguiran indicando que hay que mirar los valores p! "R-utopia" (el mundo fantastico de R) nos seguira brindando esta posibilidad de cambios. Saludos, Pablo ----- Original Message ----- From: "Carlos J. Gil Bellosta " <cgb en datanalytics.com> To: "Ramon Diaz-Uriarte" <rdiaz02 en gmail.com> Cc: "r-help-es" <r-help-es en r-project.org> Sent: Tuesday, July 21, 2009 7:42 PM Subject: Re: [R-es]El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?> Hola, ¿qué tal? > > Ramón, estoy de acuerdo contigo. Es ciertamente efecto de la pereza > intelectual que cuando en el campo X surja el problema de comparar la > estructura (respecto a cierta variable cualitativa) de dos poblaciones > se recurra automáticamente al test de la chi-cuadrado. Y todavía de > mayor pereza intelectual que dicho consejo se reproduzca > incontestadamente en artículos y manuales. > > En el problema que estoy estudiando, el uso de la chi-cuadrado no se > justifica porque: > 1) No se cumplen las hipótesis básicas para ser aplicado. > 2) Da lugar a resultados no razonables. > > En particular, los individuos que forman parte de la población en > estudio no son, ni mucho menos, iid según una multinomial con > parámetros fijos. Es una hipótesis de rigidez distribucional muy > restrictiva. > > Quiero pensar que bajo hipótesis que tuviesen en cuenta la > incertidumbre sobre los parámetros observados y las correlaciones > entre los individuos (tal vez introduciendo variables latentes > (¿normales?) asociadas a cada individuo con un grado de correlación > dado) se obtendrían intervalos de confianza más generosos. O > plausibles. Aunque me da que abundar en esto es matar moscas a > cañonazos: hay que saber mucho para expresar analíticamente que se > sabe poco. > > La alternativa, muy en el espíritu de lo que apunta Ramón, sería, > efectivamente, dentro del "conocimiento de la materia", determinar qué > se puede entender por "significativo". Yo no sé a partir de qué umbral > un cambio en la estructura poblacional es relevante pero sí que intuyo > que la relevancia (medida en este ámbito en términos del coste > económico del error) está relacionada linealmente con la tasa de > error. > > En fin, creo que me reintegraré dócilmente al redil de los que no > cuestionan en este contexto el uso de la chi-cuadrado consolándome > pensando que nunca despidieron a nadie por seguir diligentemente las > normas que emanan de los despachos del Banco de España. > > Un saludo y muchas gracias a todos, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > > El 21 de julio de 2009 10:02, Ramon Diaz-Uriarte<rdiaz02 en gmail.com>escribió:> > Carlos, creo que la respuesta la ha dado ya José Trujillo Carmona. Si > > el Banco de España quiere detectar desviaciones poblacionales > > significativas, el Banco de España es el que debe decidir qué es lo > > que considera "significativo", no en el sentido de p-valor, sino en el > > sentido de "desviación que me importa". (Y lo qué es o no importante > > imagino que depende de las consecuencias de esas desviaciones, etc, > > etc. Supongo que para eso tienen economistas en el BE :-). > > > > O sea, es el "subject matter knowledge" lo que debe dictaminar cual es > > la diferencia mínima que queremos detectar, NO el p-valor per se. A > > partir de ahí, uno construye un test apropiado para detectar esas > > diferencias que nos importan. > > > > Como ya ha indicado Jo?e, la idea de bioequivalence et al. es > > apropiada aquí. Por ejemplo, copio de un artículo en The American > > Statistician de Barker et al. ("Equivalence Testing for Binomial > > Random Variables: Which Test to Use?", The American Statistician, > > 55(4), pp. 279-287, 2001). "In studies intended to show that two > > populations are practically equivalent, the null hypothesis that a > > substantial difference between the populations exists is more > > appropriate". Y "In equivalence testing, a difference is specified > > between parameters such that the experimenter does not care about a > > smaller difference, but does care about a larger difference". Etc. > > > >> Pero me > >> gustaría ser capaz de proponer una medida alternativa al estadístico > >> que da lugar al test de la chi-cuadrado que, como propiedad deseable, > >> no dependiese de n (el tamaño muestral)... > >> > > > > > > Me temo que ese deseo sencillamente no puede ser satisfecho > > > > > > > > Un saludo, > > > > R. > > > > > > P.D. No estoy seguro de que lo que menciona Kjetil sea aplicable > > inmediatamente a este caso. El problema que examina Efron es el > > contraste de muchas (miles a centenares de miles) de hipótesis nulas, > > como se da frecuentemente en genómica. Pero si entiendo bien tu estás > > satisfecho con UNA sola hipótesis nula (lo que falta es decidir > > exactamente CUAL es esa unica hipótesis nula que tienes). > > > > > > > > 2009/7/20 Carlos J. Gil Bellosta <cgb en datanalytics.com>: > >> Hola, ¿qué tal? > >> > >> El problema que motiva mi mensaje es el siguiente. Imaginad un banco > >> que ha concedido un millón de hipotecas. Cada hipoteca está asignada a > >> uno de 10 niveles de riesgo distinto (A1 el menos arriesgado, A10 > >> "subprime"). > >> > >> Pasa un mes y se recalculan los niveles de cada una de las hipotecas. > >> Algunas ya se han cancelado, hay hipotecas nuevas, etc. > >> > >> Tanto el banco en cuestión como el regulador (Banco de España, en mi > >> caso particular) están interesados en detectar si hay "desviaciones > >> poblacionales significativas". Si se detecta una "desviación > >> poblacional significativa" se generan una serie de alarmas, hay que > >> replantear modelos, hay que notificar al regulador, etc. > >> > >> Para detectar estas "desviaciones poblacionales significativas" se > >> plantean distintos tests. Uno de ellos (utilizado por algunos bancos, > >> sugerido también en el documento regulatorio que he apuntado antes) es > >> el de la chi-cuadrado. > >> > >> Problema: que la población subyacente es tan grande que los p-valores > >> obtenidos con fluctuaciones "mínimas" son alarmantes, del tipo > >> 0.000000000000000000000021233. Y eso aun cuando los histogramas, a > >> simple vista, son casi idénticos. > >> > >> Claro, es difícil justificar que con histogramas casi idénticos, con > >> conteos de frecuencias muy similares, haya que decir: "según el > >> p-valor obtenido por el test de la chi-cuadrado, Vd. tiene que > >> replantearse la homogeneidad de su población". > >> > >> Simplemente creo que en este contexto, a pesar de que se utilice el > >> test de la chi-cuadrado y que incluso se recomiende desde "altas > >> esferas", es necesario plantearse una alternativa. De ahí que haya > >> escrito a la lista: no sé si en estudios demográficos, de poblaciones > >> de especies en ecosistemas, en disciplinas donde se manejen > >> frecuencias elevadas, se utilizan medidas de "homogeneidad > >> poblacional" distintas de la de la chi-cuadrado. > >> > >> Entiendo que, en última instancia, debería ser el banco (o el > >> regulador) el que determinase cómo de grande debería ser la desviación > >> que tuviese que generar una alarma (y eso no lo decido yo). Pero me > >> gustaría ser capaz de proponer una medida alternativa al estadístico > >> que da lugar al test de la chi-cuadrado que, como propiedad deseable, > >> no dependiese de n (el tamaño muestral)... > >> > >> No sé si esto aclara las cosas o consigue el efecto contrario... > >> > >> Un saludo, > >> > >> Carlos J. Gil Bellosta > >> > >> _______________________________________________ > >> R-help-es mailing list > >> R-help-es en r-project.org > >> https://stat.ethz.ch/mailman/listinfo/r-help-es > >> > > > > > > > > -- > > Ramon Diaz-Uriarte > > Structural Biology and Biocomputing Programme > > Spanish National Cancer Centre (CNIO) > > http://ligarto.org/rdiaz > > Phone: +34-91-732-8000 ext. 3019 > > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >