Junto con saludar, Quer?a saber si los que han usado boxplot.stats, saben como ubicar los resultados que arroja como "out" (outliers) directamente en la base de datos, ya que, muestra los resultados en valor de cada dato at?pico. Por ejemplo, estoy usando una base de datos con 300 datos y 10 columnas, en este caso estoy buscando los datos at?picos de la columna del precio de x producto, me arroja los out, pero no el n?mero de fila, sino que el valor: $out [1] 2039333000 8990717000 1965476000 2014958000 3609685000 4679092000 [7] 3276474000 1561967000 3898798000 4290957000 2140644000 1784590000 [13] 2266295000 2540774000 1656117000 3762612000 Quiero ver una forma que me identifique estos valores en la base de datos. Agradecer? sus orientaciones, saludos! [[alternative HTML version deleted]]
Estimada Dayana Muñoz Si no entendí mal, usted ya está en el resultado, corra al siguiente ejemplo, solo falta el último tramo, que creo que es lo que usted debería realizar, pero eso no es en boxplot, se trata de buscar datos dentro de un data.frame o alguna estructura de datos semejante. datos <- c(1,4,5,6,5,4,6,7,8,7,5,4,5,6,10) grafico <- boxplot(datos) grafico str(grafico) ver <-grafico$out ver # seleccionar o filtrar en los datos cuándo aparecen los que están en "ver" Javier Rubén Marcuzzi El mar., 12 jun. 2018 a las 13:19, Dayana Muñoz (<dayanaa.mg en hotmail.com>) escribió:> Junto con saludar, > > Quería saber si los que han usado boxplot.stats, saben como ubicar los > resultados que arroja como "out" (outliers) directamente en la base de > datos, ya que, muestra los resultados en valor de cada dato atípico. > > Por ejemplo, estoy usando una base de datos con 300 datos y 10 columnas, > en este caso estoy buscando los datos atípicos de la columna del precio de > x producto, me arroja los out, pero no el número de fila, sino que el valor: > > $out > [1] 2039333000 8990717000 1965476000 2014958000 3609685000 4679092000 > [7] 3276474000 1561967000 3898798000 4290957000 2140644000 1784590000 > [13] 2266295000 2540774000 1656117000 3762612000 > > Quiero ver una forma que me identifique estos valores en la base de datos. > > Agradeceré sus orientaciones, saludos! > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]
Hola, Mira el ejemplo de la ayuda: #------------------------------> rb <- boxplot(decrease ~ treatment, data = OrchardSprays, col = "bisque") > title("Comparing boxplot()s and non-robust mean +/- SD") > rb$stats [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 2.0 4.0 9.0 20.0 39 20.0 60.0 69.0 [2,] 2.5 5.0 14.0 24.5 45 50.5 65.5 74.0 [3,] 4.0 7.5 16.5 32.0 53 70.0 72.0 81.0 [4,] 5.0 9.0 24.0 45.0 78 88.5 78.5 106.5 [5,] 5.0 14.0 29.0 57.0 114 114.0 92.0 130.0 $n [1] 8 8 8 8 8 8 8 8 $conf [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 2.603464 5.265543 10.91386 20.54841 34.56573 48.77265 64.73801 62.84503 [2,] 5.396536 9.734457 22.08614 43.45159 71.43427 91.22735 79.26199 99.15497 *$out[1] 12 84 24$group[1] 1 3 7* $names [1] "A" "B" "C" "D" "E" "F" "G" "H" #------------------------------ Y luego en la ayuda lo que dice: out the values of any data points which lie beyond the extremes of the whiskers. group a vector of the same length as out whose elements indicate to which group the outlier belongs. Entonces la forma de encontrar usando esta alternativa que propones es primero generar los diferentes grupos (que los marca la variable "treatment" ) y en el primer grupo el valor 12 es un outlier, en el grupo 3 el 84 es otro outlier y en el grupo "7" el valor 24 es otro outlier. De todas formas, tienes formas más fáciles de encontrar estos outliers utilizando la función "IQR()" y aplicándola a cada uno de los grupos, esto es lo que hace la función boxplot. Saludos, Carlos Ortega www.qualityexcellence.es El 12 de junio de 2018, 18:19, Dayana Muñoz <dayanaa.mg en hotmail.com> escribió:> Junto con saludar, > > Quería saber si los que han usado boxplot.stats, saben como ubicar los > resultados que arroja como "out" (outliers) directamente en la base de > datos, ya que, muestra los resultados en valor de cada dato atípico. > > Por ejemplo, estoy usando una base de datos con 300 datos y 10 columnas, > en este caso estoy buscando los datos atípicos de la columna del precio de > x producto, me arroja los out, pero no el número de fila, sino que el valor: > > $out > [1] 2039333000 8990717000 1965476000 2014958000 3609685000 4679092000 > [7] 3276474000 1561967000 3898798000 4290957000 2140644000 1784590000 > [13] 2266295000 2540774000 1656117000 3762612000 > > Quiero ver una forma que me identifique estos valores en la base de datos. > > Agradeceré sus orientaciones, saludos! > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Gracias por las respuestas, pero mi pregunta no era como obtener los outliers, sino como puedo encontrar los outliers directamente en mi base,dado que si tuviese una base de datos de 2000 datos sería tedioso buscar uno a uno los valores atípicos encontrados. Gracias de todos modos por sus respuestas ? ________________________________ De: Carlos Ortega <cof en qualityexcellence.es> Enviado: martes, 12 de junio de 2018 19:01 Para: Dayana Muñoz Cc: r-help-es en r-project.org Asunto: Re: [R-es] Boxplot.stats Hola, Mira el ejemplo de la ayuda: #------------------------------> rb <- boxplot(decrease ~ treatment, data = OrchardSprays, col = "bisque") > title("Comparing boxplot()s and non-robust mean +/- SD") > rb$stats [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 2.0 4.0 9.0 20.0 39 20.0 60.0 69.0 [2,] 2.5 5.0 14.0 24.5 45 50.5 65.5 74.0 [3,] 4.0 7.5 16.5 32.0 53 70.0 72.0 81.0 [4,] 5.0 9.0 24.0 45.0 78 88.5 78.5 106.5 [5,] 5.0 14.0 29.0 57.0 114 114.0 92.0 130.0 $n [1] 8 8 8 8 8 8 8 8 $conf [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 2.603464 5.265543 10.91386 20.54841 34.56573 48.77265 64.73801 62.84503 [2,] 5.396536 9.734457 22.08614 43.45159 71.43427 91.22735 79.26199 99.15497 $out [1] 12 84 24 $group [1] 1 3 7 $names [1] "A" "B" "C" "D" "E" "F" "G" "H" #------------------------------ Y luego en la ayuda lo que dice: out the values of any data points which lie beyond the extremes of the whiskers. group a vector of the same length as out whose elements indicate to which group the outlier belongs. Entonces la forma de encontrar usando esta alternativa que propones es primero generar los diferentes grupos (que los marca la variable "treatment" ) y en el primer grupo el valor 12 es un outlier, en el grupo 3 el 84 es otro outlier y en el grupo "7" el valor 24 es otro outlier. De todas formas, tienes formas más fáciles de encontrar estos outliers utilizando la función "IQR()" y aplicándola a cada uno de los grupos, esto es lo que hace la función boxplot. Saludos, Carlos Ortega www.qualityexcellence.es<http://www.qualityexcellence.es> El 12 de junio de 2018, 18:19, Dayana Muñoz <dayanaa.mg en hotmail.com<mailto:dayanaa.mg en hotmail.com>> escribió: Junto con saludar, Quería saber si los que han usado boxplot.stats, saben como ubicar los resultados que arroja como "out" (outliers) directamente en la base de datos, ya que, muestra los resultados en valor de cada dato atípico. Por ejemplo, estoy usando una base de datos con 300 datos y 10 columnas, en este caso estoy buscando los datos atípicos de la columna del precio de x producto, me arroja los out, pero no el número de fila, sino que el valor: $out [1] 2039333000 8990717000 1965476000 2014958000 3609685000 4679092000 [7] 3276474000 1561967000 3898798000 4290957000 2140644000 1784590000 [13] 2266295000 2540774000 1656117000 3762612000 Quiero ver una forma que me identifique estos valores en la base de datos. Agradeceré sus orientaciones, saludos! [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org<mailto:R-help-es en r-project.org> https://stat.ethz.ch/mailman/listinfo/r-help-es -- Saludos, Carlos Ortega www.qualityexcellence.es<http://www.qualityexcellence.es> [[alternative HTML version deleted]]