En cualquier caso, para nada necesitas normalidad en las variables. De las distribuciones que presentas, y abundando en lo que te indica Olivier, ¿sería interesante considerar sólo 2 grupos (?normal? y ?enhorabuena?) en las variables 2 y 3? Todo esto sin saber de lo que estamos tratando, claro? XD Un saludo, Isidro De: Olivier Nuñez [mailto:onunez en unex.es] Enviado el: martes, 30 de septiembre de 2014 15:23 Para: jluis gilsanz CC: ihidalgo en jccm.es; r-help-es en r-project.org Asunto: Re: [R-es] Clasificacion de individuos Me parece que tu ordenación es esencialmente unidimensional. Por lo tanto, en algún momento tendrás que considerar una combinación de tus tres variables. Ignoro el contexto, pero la ponderación de cada una debería ser conforme a los criterios de la empresa que evalúa al personal. Una vez tengas tu variable podrás definir los tres grupos con la función cut. Ejemplo:> z=rnorm(100) > y=exp(z)/(1+exp(z)) > C=c("Regular","Normal","Enhorabuena") > grupos=cut(y,quantile(y,c(0,.1,.9,1)),include.lowest=TRUE,labels=C) > table(grupos)grupos Regular Normal Enhorabuena 10 80 10 Un saludo. Olivier _____ De: "jluis gilsanz" <jluis.gilsanz en tasacionesh.com> Para: ihidalgo en jccm.es CC: r-help-es en r-project.org Enviados: Martes, 30 de Septiembre 2014 12:51:56 Asunto: Re: [R-es] Clasificacion de individuos Hola Isidro: También había sopesado esa posibilidad pero por una parte me parecía "complicar" el proceso y por otra tengo mis dudas acerca de que en que el análisis cluster pueda prescindir de la hipótesis de Normalidad en las dos variables "raras" que tengo. De cualquier forma muchas gracias por tu idea. Un saludo {In Archive} RE: [R-es] Clasificacion de individuos (Internet) ihidalgo To: Jluis GILSANZ, r-help-es 30/09/2014 12:40 Archive: This message is being viewed in an archive. _____ ¿Has probado a hacer directamente una clasificación de los individuos con 3 clusters? Es muy sencillo y quizá te funcione. En un espacio tridimensional un cluster se hace más rápido que un disparo. Un saludo. Isidro> -----Mensaje original----- > De: r-help-es-bounces en r-project.org [ <mailto:r-help-es-bounces en r-> mailto:r-help-es-bounces en r- > project.org] En nombre de jluis.gilsanz en tasacionesh.com > Enviado el: martes, 30 de septiembre de 2014 12:24 > Para: r-help-es en r-project.org > Asunto: [R-es] Clasificacion de individuos > > Estimados apa eRos: > > La duda o propuesta que os voy a plantear es a la vez metodol gica y > relacionada con R. > > Me encuentro trabajando con tres variables que son el resultado de un > computo de porcentajes. > Me explico, se toma una muestra de n casos (unos 6.500 aprox) > pertenecientes a i individuos (unos 230 aprox) en la que se comprueba > si un determinado evento ha ocurrido o no, anot ndose 1 en caso de > dicha ocurrencia y 0 en caso de no ocurrencia. > Algo as como: > indiv ocurrencia > -------- ----------------- > 1 0 > 1 0 > 1 1 > 2 0 > 2 1 > 3 0 > 3 0 > 3 0 > 4 1 > 4 1 > . . > . . > . . > n > > Tras ello se computa el porcentaje de ocurrencias para cada individuo > obteniendo las variables que ser n estudiadas, obteniendo algo as : > > indiv % > ----- ------ > 1 0.333 > 2 0.5 > 3 0 > 4 1 > . . > . . > i > > Este mismo proceso se repite en cada una de las tres variables objeto > de estudio. > > Lo que se pretende es clasificar los i individuos en tres grupos seg n > sus resultados en cuanto a los porcentajes calculados (%): > -Por debajo de la media: Individuos que forman parte de la cola con > peores porcentajes. Aprox 10% -Por encima de la media: Individuos que > forman parte de la cola con peores porcentajes. Aprox 10% -Acordes a > la media: El 80% de individuos resultantes. > > Se trata b sicamente de "rega ar" a los del primer grupo y "felicitar" > los del segundo grupo ;-) > > La cuesti n es que de las tres variables en estudio, las dos ultimas no > son normales: > > >stem(v1) > > The decimal point is 1 digit(s) to the left of the | > > 0 | 0000000000466899 > 1 | 0133347777778999 > 2 | 0000011233344555667778889999 > 3 | 0001233333333334444567778888889999999999 > 4 | 000001122233333344444566788889999 > 5 | 000000000000011234444566667777889 > 6 | 00122233345555777777788899 > 7 | 00011222334455567779 > 8 | 1333336668 > 9 | > 10 | 0000000000000 > > >quantile(v1,c(0.1,0.9)) > 10% 90% > 0.1670 0.7834 > > > > >stem(v2) > > The decimal point is 1 digit(s) to the left of the | > > 0 | > 00000000000000000000000000000000000000000000000000000000000000000000+75 > 1 | 00000000111122233333444445677788888999 > 2 | 0000122444557899 > 3 | 0001123378999 > 4 | 266 > 5 | 0000 > 6 | 57 > 7 | > 8 | 3 > 9 | > 10 | 000 > > >quantile(v2,c(0.1,0.9)) > 10% 90% > 0.000 0.304 > > > > stem(V3) > > The decimal point is 1 digit(s) to the left of the | > > 0 | > 00000000000000000000000000000000011111111122222222222222222222222222+12 > 8 > 1 | 000001133333477 > 2 | 000 > 3 | 3 > 4 | > 5 | 000 > 6 | > 7 | > 8 | > 9 | > 10 | 00000 > > >quantile(V3,c(0.1,0.9)) > 10% 90% > 0.0 0.1 > > > > La primera variable V1 aparece como Normal segun los test de Kolmogorv- > Smirnov, Jarque-Bera (simetria), Agostino (simetria) y Anscombe > (curtosis) pero como No Normal segun el test de Shapiro-Wilks. > Las otras dos no aparecen como Normales en ninguno de los test, > logicamente al tener una asimetria tan fuerte. > He probado transformando mediante Box-Cox pero la ni la raiz > cuadadrada, ni 1/Variable me solucionan el problema y al haber muchos > casos con 0 la logaritmica tampoco me vale. > > > > Asumiendo Normalidad puedo emplear los intervalos de confianza para > "rega ar" o "felicitar" a los individuos y Puedo utilizar los > percentiles > 0.1 y 0,9 para obtener las clasificaciones en cualquier caso (normal o > no normal). > > Pero me surgen varias dudas: > -La principal de todas es la metodologia (y paquetes/funciones de R > asociados) para llevar a cabo tarea de clasificacion.Actualmente estoy > valorando hacer la clasificacion mediante intervalos de confianza (en > caso de poder transformar a "normales" las dos ultimas variables), > percentiles o directamente aplicando la desigualdad Chebychev. > > - Que paquetes me ofrece R para obtener la distribucion de probabilidad > subyacente en una determinada muestra?. > > > - Que test, de los que se ofrecen en R, considerais como los mas > potentes > para comprobar si una muestra de estas caracteristicassigue una > determinada distribucion?.Yo utilizo ks.test y shapiro.test pero igual > hay > otros mejores en algun paquete que conozcais.Por la construccion de las > variables habia supuesto que las variables debian de seguir una > distribucion U(0,1) pero el test ks solo concluye uniformidad en la > primera variable. > > > Muchas gracias a tod en s por leer hasta el final del ladrillo > > > Saludos > > > > > > > > > > > -- AVISO LEGAL -- > > Los datos personales que en esta comunicaci n aparecen, as como los > que nuestra > empresa mantiene de Vd. y de su empresa, son tratados con la finalidad > de mantener > el contacto as como realizar las gestiones que en esta aparecen (Ley > Org nica > 15/1999, de 13 de diciembre, de Protecci n de Datos de Car cter > Personal). > Puede ejercer sus derechos de acceso, rectificaci n, cancelaci n y > oposici n > dirigi ndose a atencion.clientes en tasacionesh.com > La utilizaci n de su direcci n de correo electr nico por parte de > nuestra empresa > queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la > Sociedad de > la Informaci n y el Comercio Electr nico. Si Vd. recibe comunicaci n > comercial por > nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por > v a electr nica > a trav s de la direcci n atencion.clientes en tasacionesh.com > > [[alternative HTML version deleted]]-- AVISO LEGAL -- Los datos personales que en esta comunicación aparecen, así como los que nuestra empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de mantener el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal). Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición dirigiéndose a atencion.clientes en tasacionesh.com La utilización de su dirección de correo electrónico por parte de nuestra empresa queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la Sociedad de la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial por nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía electrónica a través de la dirección atencion.clientes en tasacionesh.com _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es [[alternative HTML version deleted]]
Hola, ¿qué tal? Y te vas a encontrar un caso muy corriente: un sujeto con un solo caso que acierta (y tiene un 100%) tal vez de casualidad o falla (y obtiene un 0%) igual inmerecidamente. ¿Por qué no utilizar una beta como priori por individuo y estimar su posteriori? Evitarás todos los casos extremos y, probablemente, tu evaluación será más justa. Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com El 30 de septiembre de 2014, 15:29, Isidro Hidalgo <ihidalgo en jccm.es> escribió:> En cualquier caso, para nada necesitas normalidad en las variables. De las > distribuciones que presentas, y abundando en lo que te indica Olivier, > ¿sería interesante considerar sólo 2 grupos (?normal? y ?enhorabuena?) en > las variables 2 y 3? > > Todo esto sin saber de lo que estamos tratando, claro? XD > > > > Un saludo, > > Isidro > > > > De: Olivier Nuñez [mailto:onunez en unex.es] > Enviado el: martes, 30 de septiembre de 2014 15:23 > Para: jluis gilsanz > CC: ihidalgo en jccm.es; r-help-es en r-project.org > Asunto: Re: [R-es] Clasificacion de individuos > > > > Me parece que tu ordenación es esencialmente unidimensional. > > Por lo tanto, en algún momento tendrás que considerar una combinación de > tus tres variables. > > Ignoro el contexto, pero la ponderación de cada una debería ser conforme a > los criterios de la empresa que evalúa al personal. > > Una vez tengas tu variable podrás definir los tres grupos con la función > cut. Ejemplo: > > > z=rnorm(100) > > y=exp(z)/(1+exp(z)) > > C=c("Regular","Normal","Enhorabuena") > > grupos=cut(y,quantile(y,c(0,.1,.9,1)),include.lowest=TRUE,labels=C) > > table(grupos) > grupos > Regular Normal Enhorabuena > 10 80 10 > > > > Un saludo. Olivier > > _____ > > De: "jluis gilsanz" <jluis.gilsanz en tasacionesh.com> > Para: ihidalgo en jccm.es > CC: r-help-es en r-project.org > Enviados: Martes, 30 de Septiembre 2014 12:51:56 > Asunto: Re: [R-es] Clasificacion de individuos > > > > Hola Isidro: > > También había sopesado esa posibilidad pero por una parte me parecía > "complicar" el proceso y por otra tengo mis dudas acerca de que en que el > análisis cluster pueda prescindir de la hipótesis de Normalidad en las dos > variables "raras" que tengo. > > De cualquier forma muchas gracias por tu idea. > > Un saludo > > > > > > > > > {In Archive} RE: [R-es] Clasificacion de individuos > > > > > (Internet) > ihidalgo > > > To: > > Jluis GILSANZ, r-help-es > > 30/09/2014 12:40 > > > > > Archive: > > This message is being viewed in an archive. > > > > _____ > > > > > ¿Has probado a hacer directamente una clasificación de los individuos con 3 > clusters? Es muy sencillo y quizá te funcione. En un espacio > tridimensional un > cluster se hace más rápido que un disparo. > > Un saludo. > Isidro > > > -----Mensaje original----- > > De: r-help-es-bounces en r-project.org [ <mailto:r-help-es-bounces en r-> > mailto:r-help-es-bounces en r- > > project.org] En nombre de jluis.gilsanz en tasacionesh.com > > Enviado el: martes, 30 de septiembre de 2014 12:24 > > Para: r-help-es en r-project.org > > Asunto: [R-es] Clasificacion de individuos > > > > Estimados apa eRos: > > > > La duda o propuesta que os voy a plantear es a la vez metodol gica y > > relacionada con R. > > > > Me encuentro trabajando con tres variables que son el resultado de un > > computo de porcentajes. > > Me explico, se toma una muestra de n casos (unos 6.500 aprox) > > pertenecientes a i individuos (unos 230 aprox) en la que se comprueba > > si un determinado evento ha ocurrido o no, anot ndose 1 en caso de > > dicha ocurrencia y 0 en caso de no ocurrencia. > > Algo as como: > > indiv ocurrencia > > -------- ----------------- > > 1 0 > > 1 0 > > 1 1 > > 2 0 > > 2 1 > > 3 0 > > 3 0 > > 3 0 > > 4 1 > > 4 1 > > . . > > . . > > . . > > n > > > > Tras ello se computa el porcentaje de ocurrencias para cada individuo > > obteniendo las variables que ser n estudiadas, obteniendo algo as : > > > > indiv % > > ----- ------ > > 1 0.333 > > 2 0.5 > > 3 0 > > 4 1 > > . . > > . . > > i > > > > Este mismo proceso se repite en cada una de las tres variables objeto > > de estudio. > > > > Lo que se pretende es clasificar los i individuos en tres grupos seg n > > sus resultados en cuanto a los porcentajes calculados (%): > > -Por debajo de la media: Individuos que forman parte de la cola con > > peores porcentajes. Aprox 10% -Por encima de la media: Individuos que > > forman parte de la cola con peores porcentajes. Aprox 10% -Acordes a > > la media: El 80% de individuos resultantes. > > > > Se trata b sicamente de "rega ar" a los del primer grupo y "felicitar" > > los del segundo grupo ;-) > > > > La cuesti n es que de las tres variables en estudio, las dos ultimas no > > son normales: > > > > >stem(v1) > > > > The decimal point is 1 digit(s) to the left of the | > > > > 0 | 0000000000466899 > > 1 | 0133347777778999 > > 2 | 0000011233344555667778889999 > > 3 | 0001233333333334444567778888889999999999 > > 4 | 000001122233333344444566788889999 > > 5 | 000000000000011234444566667777889 > > 6 | 00122233345555777777788899 > > 7 | 00011222334455567779 > > 8 | 1333336668 > > 9 | > > 10 | 0000000000000 > > > > >quantile(v1,c(0.1,0.9)) > > 10% 90% > > 0.1670 0.7834 > > > > > > > > >stem(v2) > > > > The decimal point is 1 digit(s) to the left of the | > > > > 0 | > > 00000000000000000000000000000000000000000000000000000000000000000000+75 > > 1 | 00000000111122233333444445677788888999 > > 2 | 0000122444557899 > > 3 | 0001123378999 > > 4 | 266 > > 5 | 0000 > > 6 | 57 > > 7 | > > 8 | 3 > > 9 | > > 10 | 000 > > > > >quantile(v2,c(0.1,0.9)) > > 10% 90% > > 0.000 0.304 > > > > > > > > stem(V3) > > > > The decimal point is 1 digit(s) to the left of the | > > > > 0 | > > 00000000000000000000000000000000011111111122222222222222222222222222+12 > > 8 > > 1 | 000001133333477 > > 2 | 000 > > 3 | 3 > > 4 | > > 5 | 000 > > 6 | > > 7 | > > 8 | > > 9 | > > 10 | 00000 > > > > >quantile(V3,c(0.1,0.9)) > > 10% 90% > > 0.0 0.1 > > > > > > > > La primera variable V1 aparece como Normal segun los test de Kolmogorv- > > Smirnov, Jarque-Bera (simetria), Agostino (simetria) y Anscombe > > (curtosis) pero como No Normal segun el test de Shapiro-Wilks. > > Las otras dos no aparecen como Normales en ninguno de los test, > > logicamente al tener una asimetria tan fuerte. > > He probado transformando mediante Box-Cox pero la ni la raiz > > cuadadrada, ni 1/Variable me solucionan el problema y al haber muchos > > casos con 0 la logaritmica tampoco me vale. > > > > > > > > Asumiendo Normalidad puedo emplear los intervalos de confianza para > > "rega ar" o "felicitar" a los individuos y Puedo utilizar los > > percentiles > > 0.1 y 0,9 para obtener las clasificaciones en cualquier caso (normal o > > no normal). > > > > Pero me surgen varias dudas: > > -La principal de todas es la metodologia (y paquetes/funciones de R > > asociados) para llevar a cabo tarea de clasificacion.Actualmente estoy > > valorando hacer la clasificacion mediante intervalos de confianza (en > > caso de poder transformar a "normales" las dos ultimas variables), > > percentiles o directamente aplicando la desigualdad Chebychev. > > > > - Que paquetes me ofrece R para obtener la distribucion de probabilidad > > subyacente en una determinada muestra?. > > > > > > - Que test, de los que se ofrecen en R, considerais como los mas > > potentes > > para comprobar si una muestra de estas caracteristicassigue una > > determinada distribucion?.Yo utilizo ks.test y shapiro.test pero igual > > hay > > otros mejores en algun paquete que conozcais.Por la construccion de las > > variables habia supuesto que las variables debian de seguir una > > distribucion U(0,1) pero el test ks solo concluye uniformidad en la > > primera variable. > > > > > > Muchas gracias a tod en s por leer hasta el final del ladrillo > > > > > > Saludos > > > > > > > > > > > > > > > > > > > > > > -- AVISO LEGAL -- > > > > Los datos personales que en esta comunicaci n aparecen, as como los > > que nuestra > > empresa mantiene de Vd. y de su empresa, son tratados con la finalidad > > de mantener > > el contacto as como realizar las gestiones que en esta aparecen (Ley > > Org nica > > 15/1999, de 13 de diciembre, de Protecci n de Datos de Car cter > > Personal). > > Puede ejercer sus derechos de acceso, rectificaci n, cancelaci n y > > oposici n > > dirigi ndose a atencion.clientes en tasacionesh.com > > La utilizaci n de su direcci n de correo electr nico por parte de > > nuestra empresa > > queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la > > Sociedad de > > la Informaci n y el Comercio Electr nico. Si Vd. recibe comunicaci n > > comercial por > > nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por > > v a electr nica > > a trav s de la direcci n atencion.clientes en tasacionesh.com > > > > [[alternative HTML version deleted]] > > > > > > > > -- AVISO LEGAL -- > > Los datos personales que en esta comunicación aparecen, así como los que > nuestra > empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de > mantener > el contacto así como realizar las gestiones que en esta aparecen (Ley > Orgánica > 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal). > Puede ejercer sus derechos de acceso, rectificación, cancelación y > oposición > dirigiéndose a atencion.clientes en tasacionesh.com > La utilización de su dirección de correo electrónico por parte de nuestra > empresa > queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la > Sociedad de > la Información y el Comercio Electrónico. Si Vd. recibe comunicación > comercial por > nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía > electrónica > a través de la dirección atencion.clientes en tasacionesh.com > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]
El estudio consiste en una evaluación de proveedores. Una variable mide el plazo de entrega de la mercancía (V1), la otra justificación o no por parte del proveedor (V2) (cuando no se puede entregar la mercancía en plazo) y la ultima la aceptación o rechazo de la mercancía (V3). Las evaluaciones han de ser independientes puesto que el diseño de la evaluación se concibió para que así fueran, no interesa a priori las posibles interrelaciones que tengan las variables entre si. A posteriori si que se toman en consideración la "acumulación" de las calificaciones pero mas que nada para determinar si al proveedor se le da una "colleja", "capón" o "bofetón" según sea el conteo de notas malas en una variable, dos o las tres. Experimentare con la sugerencia de Olivier con vistas a ver si la encuentro consistente y congruente, porque es cierto que era un escenario que no me habia planteado. Muchas gracias a ambos {In Archive} RE: [R-es] Clasificacion de individuos (Internet) ihidalgo To: onunez, Jluis GILSANZ Cc: r-help-es 30/09/2014 15:33 Archive: This message is being viewed in an archive. En cualquier caso, para nada necesitas normalidad en las variables. De las distribuciones que presentas, y abundando en lo que te indica Olivier, ¿sería interesante considerar sólo 2 grupos (?normal? y ?enhorabuena?) en las variables 2 y 3? Todo esto sin saber de lo que estamos tratando, claro? XD Un saludo, Isidro De: Olivier Nuñez [mailto:onunez en unex.es] Enviado el: martes, 30 de septiembre de 2014 15:23 Para: jluis gilsanz CC: ihidalgo en jccm.es; r-help-es en r-project.org Asunto: Re: [R-es] Clasificacion de individuos Me parece que tu ordenación es esencialmente unidimensional. Por lo tanto, en algún momento tendrás que considerar una combinación de tus tres variables. Ignoro el contexto, pero la ponderación de cada una debería ser conforme a los criterios de la empresa que evalúa al personal. Una vez tengas tu variable podrás definir los tres grupos con la función cut. Ejemplo:> z=rnorm(100) > y=exp(z)/(1+exp(z)) > C=c("Regular","Normal","Enhorabuena") > grupos=cut(y,quantile(y,c(0,.1,.9,1)),include.lowest=TRUE,labels=C) > table(grupos)grupos Regular Normal Enhorabuena 10 80 10 Un saludo. Olivier De: "jluis gilsanz" <jluis.gilsanz en tasacionesh.com> Para: ihidalgo en jccm.es CC: r-help-es en r-project.org Enviados: Martes, 30 de Septiembre 2014 12:51:56 Asunto: Re: [R-es] Clasificacion de individuos Hola Isidro: También había sopesado esa posibilidad pero por una parte me parecía "complicar" el proceso y por otra tengo mis dudas acerca de que en que el análisis cluster pueda prescindir de la hipótesis de Normalidad en las dos variables "raras" que tengo. De cualquier forma muchas gracias por tu idea. Un saludo {In Archive} RE: [R-es] Clasificacion de individuos (Internet) ihidalgo To: Jluis GILSANZ, r-help-es 30/09/2014 12:40 Archive: This message is being viewed in an archive. ¿Has probado a hacer directamente una clasificación de los individuos con 3 clusters? Es muy sencillo y quizá te funcione. En un espacio tridimensional un cluster se hace más rápido que un disparo. Un saludo. Isidro> -----Mensaje original----- > De: r-help-es-bounces en r-project.org [mailto:r-help-es-bounces en r- > project.org] En nombre de jluis.gilsanz en tasacionesh.com > Enviado el: martes, 30 de septiembre de 2014 12:24 > Para: r-help-es en r-project.org > Asunto: [R-es] Clasificacion de individuos > > Estimados apa eRos: > > La duda o propuesta que os voy a plantear es a la vez metodol gica y > relacionada con R. > > Me encuentro trabajando con tres variables que son el resultado de un > computo de porcentajes. > Me explico, se toma una muestra de n casos (unos 6.500 aprox) > pertenecientes a i individuos (unos 230 aprox) en la que se comprueba > si un determinado evento ha ocurrido o no, anot ndose 1 en caso de > dicha ocurrencia y 0 en caso de no ocurrencia. > Algo as como: > indiv ocurrencia > -------- ----------------- > 1 0 > 1 0 > 1 1 > 2 0 > 2 1 > 3 0 > 3 0 > 3 0 > 4 1 > 4 1 > . . > . . > . . > n > > Tras ello se computa el porcentaje de ocurrencias para cada individuo > obteniendo las variables que ser n estudiadas, obteniendo algo as : > > indiv % > ----- ------ > 1 0.333 > 2 0.5 > 3 0 > 4 1 > . . > . . > i > > Este mismo proceso se repite en cada una de las tres variables objeto > de estudio. > > Lo que se pretende es clasificar los i individuos en tres grupos seg n > sus resultados en cuanto a los porcentajes calculados (%): > -Por debajo de la media: Individuos que forman parte de la cola con > peores porcentajes. Aprox 10% -Por encima de la media: Individuos que > forman parte de la cola con peores porcentajes. Aprox 10% -Acordes a > la media: El 80% de individuos resultantes. > > Se trata b sicamente de "rega ar" a los del primer grupo y "felicitar" > los del segundo grupo ;-) > > La cuesti n es que de las tres variables en estudio, las dos ultimas no > son normales: > > >stem(v1) > > The decimal point is 1 digit(s) to the left of the | > > 0 | 0000000000466899 > 1 | 0133347777778999 > 2 | 0000011233344555667778889999 > 3 | 0001233333333334444567778888889999999999 > 4 | 000001122233333344444566788889999 > 5 | 000000000000011234444566667777889 > 6 | 00122233345555777777788899 > 7 | 00011222334455567779 > 8 | 1333336668 > 9 | > 10 | 0000000000000 > > >quantile(v1,c(0.1,0.9)) > 10% 90% > 0.1670 0.7834 > > > > >stem(v2) > > The decimal point is 1 digit(s) to the left of the | > > 0 | > 00000000000000000000000000000000000000000000000000000000000000000000+75 > 1 | 00000000111122233333444445677788888999 > 2 | 0000122444557899 > 3 | 0001123378999 > 4 | 266 > 5 | 0000 > 6 | 57 > 7 | > 8 | 3 > 9 | > 10 | 000 > > >quantile(v2,c(0.1,0.9)) > 10% 90% > 0.000 0.304 > > > > stem(V3) > > The decimal point is 1 digit(s) to the left of the | > > 0 | > 00000000000000000000000000000000011111111122222222222222222222222222+12 > 8 > 1 | 000001133333477 > 2 | 000 > 3 | 3 > 4 | > 5 | 000 > 6 | > 7 | > 8 | > 9 | > 10 | 00000 > > >quantile(V3,c(0.1,0.9)) > 10% 90% > 0.0 0.1 > > > > La primera variable V1 aparece como Normal segun los test de Kolmogorv- > Smirnov, Jarque-Bera (simetria), Agostino (simetria) y Anscombe > (curtosis) pero como No Normal segun el test de Shapiro-Wilks. > Las otras dos no aparecen como Normales en ninguno de los test, > logicamente al tener una asimetria tan fuerte. > He probado transformando mediante Box-Cox pero la ni la raiz > cuadadrada, ni 1/Variable me solucionan el problema y al haber muchos > casos con 0 la logaritmica tampoco me vale. > > > > Asumiendo Normalidad puedo emplear los intervalos de confianza para > "rega ar" o "felicitar" a los individuos y Puedo utilizar los > percentiles > 0.1 y 0,9 para obtener las clasificaciones en cualquier caso (normal o > no normal). > > Pero me surgen varias dudas: > -La principal de todas es la metodologia (y paquetes/funciones de R > asociados) para llevar a cabo tarea de clasificacion.Actualmente estoy > valorando hacer la clasificacion mediante intervalos de confianza (en > caso de poder transformar a "normales" las dos ultimas variables), > percentiles o directamente aplicando la desigualdad Chebychev. > > - Que paquetes me ofrece R para obtener la distribucion de probabilidad > subyacente en una determinada muestra?. > > > - Que test, de los que se ofrecen en R, considerais como los mas > potentes > para comprobar si una muestra de estas caracteristicassigue una > determinada distribucion?.Yo utilizo ks.test y shapiro.test pero igual > hay > otros mejores en algun paquete que conozcais.Por la construccion de las > variables habia supuesto que las variables debian de seguir una > distribucion U(0,1) pero el test ks solo concluye uniformidad en la > primera variable. > > > Muchas gracias a tod en s por leer hasta el final del ladrillo > > > Saludos > > > > > > > > > > > -- AVISO LEGAL -- > > Los datos personales que en esta comunicaci n aparecen, as como los > que nuestra > empresa mantiene de Vd. y de su empresa, son tratados con la finalidad > de mantener > el contacto as como realizar las gestiones que en esta aparecen (Ley > Org nica > 15/1999, de 13 de diciembre, de Protecci n de Datos de Car cter > Personal). > Puede ejercer sus derechos de acceso, rectificaci n, cancelaci n y > oposici n > dirigi ndose a atencion.clientes en tasacionesh.com > La utilizaci n de su direcci n de correo electr nico por parte de > nuestra empresa > queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la > Sociedad de > la Informaci n y el Comercio Electr nico. Si Vd. recibe comunicaci n > comercial por > nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por > v a electr nica > a trav s de la direcci n atencion.clientes en tasacionesh.com > > [[alternative HTML version deleted]]-- AVISO LEGAL -- Los datos personales que en esta comunicación aparecen, así como los que nuestra empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de mantener el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal). Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición dirigiéndose a atencion.clientes en tasacionesh.com La utilización de su dirección de correo electrónico por parte de nuestra empresa queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la Sociedad de la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial por nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía electrónica a través de la dirección atencion.clientes en tasacionesh.com _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es -- AVISO LEGAL -- Los datos personales que en esta comunicación aparecen, así como los que nuestra empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de mantener el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal). Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición dirigiéndose a atencion.clientes en tasacionesh.com La utilización de su dirección de correo electrónico por parte de nuestra empresa queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la Sociedad de la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial por nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía electrónica a través de la dirección atencion.clientes en tasacionesh.com ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20140930/b88c457a/attachment-0001.html>
Ahí le has dado Carlos¡¡¡¡ Eso es justamente lo que me ocurre, los valores extremos de probabilidad 0 y 1 se dan fundamentalmente debido a eso que comentas. De hecho, inicialmente la muestra se reducía a solo aquellos proveedores que hubiesen registrado un determinado numero mínimo pedidos para evitar llegar al 0 y 1 y trabajar con escalas de porcentajes relativas (siendo el mínimo el peor porcentaje de la muestra y el máximo el mejor) y no absolutas. Ahora bien la solución que me proporcionas me suena a chino así que ¿podría rogarte que me pusieras un ejemplo sencillo en R de como hacerlo? . Muchas gracias de nuevo {In Archive} Re: [R-es] Clasificacion de individuos (Internet) cgb To: r-help-es, Jluis GILSANZ Cc: onunez, ihidalgo 30/09/2014 15:39 Sent by : gilbellosta en gmail.com Archive: This message is being viewed in an archive. Hola, ¿qué tal? Y te vas a encontrar un caso muy corriente: un sujeto con un solo caso que acierta (y tiene un 100%) tal vez de casualidad o falla (y obtiene un 0%) igual inmerecidamente. ¿Por qué no utilizar una beta como priori por individuo y estimar su posteriori? Evitarás todos los casos extremos y, probablemente, tu evaluación será más justa. Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com El 30 de septiembre de 2014, 15:29, Isidro Hidalgo <ihidalgo en jccm.es> escribió: En cualquier caso, para nada necesitas normalidad en las variables. De las distribuciones que presentas, y abundando en lo que te indica Olivier, ¿sería interesante considerar sólo 2 grupos (?normal? y ?enhorabuena?) en las variables 2 y 3? Todo esto sin saber de lo que estamos tratando, claro? XD Un saludo, Isidro De: Olivier Nuñez [mailto:onunez en unex.es] Enviado el: martes, 30 de septiembre de 2014 15:23 Para: jluis gilsanz CC: ihidalgo en jccm.es; r-help-es en r-project.org Asunto: Re: [R-es] Clasificacion de individuos Me parece que tu ordenación es esencialmente unidimensional. Por lo tanto, en algún momento tendrás que considerar una combinación de tus tres variables. Ignoro el contexto, pero la ponderación de cada una debería ser conforme a los criterios de la empresa que evalúa al personal. Una vez tengas tu variable podrás definir los tres grupos con la función cut. Ejemplo:> z=rnorm(100) > y=exp(z)/(1+exp(z)) > C=c("Regular","Normal","Enhorabuena") > grupos=cut(y,quantile(y,c(0,.1,.9,1)),include.lowest=TRUE,labels=C) > table(grupos)grupos Regular Normal Enhorabuena 10 80 10 Un saludo. Olivier _____ De: "jluis gilsanz" <jluis.gilsanz en tasacionesh.com> Para: ihidalgo en jccm.es CC: r-help-es en r-project.org Enviados: Martes, 30 de Septiembre 2014 12:51:56 Asunto: Re: [R-es] Clasificacion de individuos Hola Isidro: También había sopesado esa posibilidad pero por una parte me parecía "complicar" el proceso y por otra tengo mis dudas acerca de que en que el análisis cluster pueda prescindir de la hipótesis de Normalidad en las dos variables "raras" que tengo. De cualquier forma muchas gracias por tu idea. Un saludo {In Archive} RE: [R-es] Clasificacion de individuos (Internet) ihidalgo To: Jluis GILSANZ, r-help-es 30/09/2014 12:40 Archive: This message is being viewed in an archive. _____ ¿Has probado a hacer directamente una clasificación de los individuos con 3 clusters? Es muy sencillo y quizá te funcione. En un espacio tridimensional un cluster se hace más rápido que un disparo. Un saludo. Isidro> -----Mensaje original----- > De: r-help-es-bounces en r-project.org [ <mailto:r-help-es-bounces en r->mailto:r-help-es-bounces en r-> project.org] En nombre de jluis.gilsanz en tasacionesh.com > Enviado el: martes, 30 de septiembre de 2014 12:24 > Para: r-help-es en r-project.org > Asunto: [R-es] Clasificacion de individuos > > Estimados apa eRos: > > La duda o propuesta que os voy a plantear es a la vez metodol gica y > relacionada con R. > > Me encuentro trabajando con tres variables que son el resultado de un > computo de porcentajes. > Me explico, se toma una muestra de n casos (unos 6.500 aprox) > pertenecientes a i individuos (unos 230 aprox) en la que se comprueba > si un determinado evento ha ocurrido o no, anot ndose 1 en caso de > dicha ocurrencia y 0 en caso de no ocurrencia. > Algo as como: > indiv ocurrencia > -------- ----------------- > 1 0 > 1 0 > 1 1 > 2 0 > 2 1 > 3 0 > 3 0 > 3 0 > 4 1 > 4 1 > . . > . . > . . > n > > Tras ello se computa el porcentaje de ocurrencias para cada individuo > obteniendo las variables que ser n estudiadas, obteniendo algo as : > > indiv % > ----- ------ > 1 0.333 > 2 0.5 > 3 0 > 4 1 > . . > . . > i > > Este mismo proceso se repite en cada una de las tres variables objeto > de estudio. > > Lo que se pretende es clasificar los i individuos en tres grupos seg n > sus resultados en cuanto a los porcentajes calculados (%): > -Por debajo de la media: Individuos que forman parte de la cola con > peores porcentajes. Aprox 10% -Por encima de la media: Individuos que > forman parte de la cola con peores porcentajes. Aprox 10% -Acordes a > la media: El 80% de individuos resultantes. > > Se trata b sicamente de "rega ar" a los del primer grupo y "felicitar" > los del segundo grupo ;-) > > La cuesti n es que de las tres variables en estudio, las dos ultimas no > son normales: > > >stem(v1) > > The decimal point is 1 digit(s) to the left of the | > > 0 | 0000000000466899 > 1 | 0133347777778999 > 2 | 0000011233344555667778889999 > 3 | 0001233333333334444567778888889999999999 > 4 | 000001122233333344444566788889999 > 5 | 000000000000011234444566667777889 > 6 | 00122233345555777777788899 > 7 | 00011222334455567779 > 8 | 1333336668 > 9 | > 10 | 0000000000000 > > >quantile(v1,c(0.1,0.9)) > 10% 90% > 0.1670 0.7834 > > > > >stem(v2) > > The decimal point is 1 digit(s) to the left of the | > > 0 | > 00000000000000000000000000000000000000000000000000000000000000000000+75 > 1 | 00000000111122233333444445677788888999 > 2 | 0000122444557899 > 3 | 0001123378999 > 4 | 266 > 5 | 0000 > 6 | 57 > 7 | > 8 | 3 > 9 | > 10 | 000 > > >quantile(v2,c(0.1,0.9)) > 10% 90% > 0.000 0.304 > > > > stem(V3) > > The decimal point is 1 digit(s) to the left of the | > > 0 | > 00000000000000000000000000000000011111111122222222222222222222222222+12 > 8 > 1 | 000001133333477 > 2 | 000 > 3 | 3 > 4 | > 5 | 000 > 6 | > 7 | > 8 | > 9 | > 10 | 00000 > > >quantile(V3,c(0.1,0.9)) > 10% 90% > 0.0 0.1 > > > > La primera variable V1 aparece como Normal segun los test de Kolmogorv- > Smirnov, Jarque-Bera (simetria), Agostino (simetria) y Anscombe > (curtosis) pero como No Normal segun el test de Shapiro-Wilks. > Las otras dos no aparecen como Normales en ninguno de los test, > logicamente al tener una asimetria tan fuerte. > He probado transformando mediante Box-Cox pero la ni la raiz > cuadadrada, ni 1/Variable me solucionan el problema y al haber muchos > casos con 0 la logaritmica tampoco me vale. > > > > Asumiendo Normalidad puedo emplear los intervalos de confianza para > "rega ar" o "felicitar" a los individuos y Puedo utilizar los > percentiles > 0.1 y 0,9 para obtener las clasificaciones en cualquier caso (normal o > no normal). > > Pero me surgen varias dudas: > -La principal de todas es la metodologia (y paquetes/funciones de R > asociados) para llevar a cabo tarea de clasificacion.Actualmente estoy > valorando hacer la clasificacion mediante intervalos de confianza (en > caso de poder transformar a "normales" las dos ultimas variables), > percentiles o directamente aplicando la desigualdad Chebychev. > > - Que paquetes me ofrece R para obtener la distribucion de probabilidad > subyacente en una determinada muestra?. > > > - Que test, de los que se ofrecen en R, considerais como los mas > potentes > para comprobar si una muestra de estas caracteristicassigue una > determinada distribucion?.Yo utilizo ks.test y shapiro.test pero igual > hay > otros mejores en algun paquete que conozcais.Por la construccion de las > variables habia supuesto que las variables debian de seguir una > distribucion U(0,1) pero el test ks solo concluye uniformidad en la > primera variable. > > > Muchas gracias a tod en s por leer hasta el final del ladrillo > > > Saludos > > > > > > > > > > > -- AVISO LEGAL -- > > Los datos personales que en esta comunicaci n aparecen, as como los > que nuestra > empresa mantiene de Vd. y de su empresa, son tratados con la finalidad > de mantener > el contacto as como realizar las gestiones que en esta aparecen (Ley > Org nica > 15/1999, de 13 de diciembre, de Protecci n de Datos de Car cter > Personal). > Puede ejercer sus derechos de acceso, rectificaci n, cancelaci n y > oposici n > dirigi ndose a atencion.clientes en tasacionesh.com > La utilizaci n de su direcci n de correo electr nico por parte de > nuestra empresa > queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la > Sociedad de > la Informaci n y el Comercio Electr nico. Si Vd. recibe comunicaci n > comercial por > nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por > v a electr nica > a trav s de la direcci n atencion.clientes en tasacionesh.com > > [[alternative HTML version deleted]]-- AVISO LEGAL -- Los datos personales que en esta comunicación aparecen, así como los que nuestra empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de mantener el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal). Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición dirigiéndose a atencion.clientes en tasacionesh.com La utilización de su dirección de correo electrónico por parte de nuestra empresa queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la Sociedad de la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial por nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía electrónica a través de la dirección atencion.clientes en tasacionesh.com _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es -- AVISO LEGAL -- Los datos personales que en esta comunicación aparecen, así como los que nuestra empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de mantener el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal). Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición dirigiéndose a atencion.clientes en tasacionesh.com La utilización de su dirección de correo electrónico por parte de nuestra empresa queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la Sociedad de la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial por nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía electrónica a través de la dirección atencion.clientes en tasacionesh.com ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20140930/f9dc1f19/attachment-0001.html>