Estimados compañeros estoy haciendo análisis de contenido y quería saber si alguno de vosotros habeís trabajado con el módulo tm y con textos en español porque a mi aunque en el corpus ponga spanish no coge ni acentos ni ñ y luego no puedo sacar los términos y su frecuencia. Un cordial saludo, Juan
Hola Manuel el juego de caracteres que indica el manual es un ISO 639-2 pero no encuentro la forma de pasar el texto a este juego de caracteres. Además ignoro si con esto solucionaré el problema. Un saludo, Juan El 17/11/2010 10:36, r-uca escribió:> El mié, 17-11-2010 a las 10:31 +0100, Juan Antonio Gil Pascual escribió: >> Estimados compañeros estoy haciendo análisis de contenido y quería saber >> si alguno de vosotros habeís trabajado con el módulo tm y con textos en >> español porque a mi aunque en el corpus ponga spanish no coge ni acentos >> ni ñ y luego no puedo sacar los términos y su frecuencia. >> > Puede tener que ver con el juego de caracteres que estés usando para > entrar los textos. Mira la documentación del paquete al respecto. > > Saludos. >
Cuidado, ISO 639-2 es un código para determinar nombres de lenguajes. Mira a ver en qué código tienes los ficheros de los documentos que quieres analizar (usa el comando file en un unix o linux). Posiblemente no sea el que admite tm por defecto. Hay comandos tm que permite fijar la codificación (encoding). Saludos, Jorge. El 17/11/10 11:45, Juan Antonio Gil Pascual escribió:> Hola Manuel el juego de caracteres que indica el manual es un ISO 639-2 > pero no encuentro la forma de pasar el texto a este juego de caracteres. > Además ignoro si con esto solucionaré el problema. > > Un saludo, > > Juan > > El 17/11/2010 10:36, r-uca escribió: >> El mié, 17-11-2010 a las 10:31 +0100, Juan Antonio Gil Pascual escribió: >>> Estimados compañeros estoy haciendo análisis de contenido y quería saber >>> si alguno de vosotros habeís trabajado con el módulo tm y con textos en >>> español porque a mi aunque en el corpus ponga spanish no coge ni acentos >>> ni ñ y luego no puedo sacar los términos y su frecuencia. >>> >> Puede tener que ver con el juego de caracteres que estés usando para >> entrar los textos. Mira la documentación del paquete al respecto. >> >> Saludos. >> > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >
Beatriz Lacruz
2010-Nov-18 11:10 UTC
[R-es] Diagramas de caja (box plot) según los valores de un factor
Hola, Estoy intentando dibujar un diagrama de caja según los valores de una variable de tipo factor para un subconjuntos de los datos de un archivo. Uso esta orden boxplot(var1~factor1, ylab="var1", xlab="factor1", data=FicheroDatos, subset=factor2=="Categoria1") donde var1 es una variable numerica factor1 es una variable categorica (tipo caracter) que tiene muchas categorias distintas (pero solo 8 en el subconjunto de datos que cumple la condicion factor2=="Categoria1") factor2 es una variable categorica (tipo caracter) con 13 categorias distintas y a mi solo me interesa analizar los datos de la categoria1. El problema es que en el diagrama de caja resultante aparece la variable factor1 con todas sus categorías posibles que son muchas (mas de 30) en vez de dejarme solo las 8 que tienen los datos del subconjunto subset=factor2=="Categoria1". ¿Alguien sabe como decirle a R que se olvide del resto de las categorias? Gracias anticipadas, Beatriz Lacruz Casaucau ______________________________________________________ Universidad de Zaragoza Departamento de Métodos Estadísticos Edificio de Matemáticas, 3ª planta Pedro Cerbuna, 12 50009 Zaragoza (Spain) Tel. 976 76 10 00 Ext. 3245 Fax. 976 76 11 15 http://metodosestadisticos.unizar.es/personales/lacruz/
Carlos Ortega
2010-Nov-18 11:18 UTC
[R-es] Diagramas de caja (box plot) según los valores de un factor
Hola, La sintaxis que usas para la función boxplot es correcta. Por lo que seguramente el problema lo tengas en la estructura de tus datos. Como opción, prueba a seleccionar el conjunto de datos a analizar antes de procesarlos con boxplot. Algo del tipo: FicheroDatos.new<-FicheroDatos[, factor2=="Categoria1"] Y luego utilizar este nuevo data.frame en boxplot: boxplot(var1 ~ factor1, data=FicheroDatos.new) Saludos, Carlos Ortega. www.qualityexcellence.es 2010/11/18 Beatriz Lacruz <lacruz@unizar.es>> Hola, > > Estoy intentando dibujar un diagrama de caja según los valores de una > variable de tipo factor para un subconjuntos de los datos de un archivo. Uso > esta orden > > boxplot(var1~factor1, ylab="var1", xlab="factor1", data=FicheroDatos, > subset=factor2=="Categoria1") > > donde > var1 es una variable numerica > factor1 es una variable categorica (tipo caracter) que tiene muchas > categorias distintas (pero solo 8 en el subconjunto de datos que cumple la > condicion factor2=="Categoria1") > factor2 es una variable categorica (tipo caracter) con 13 categorias > distintas y a mi solo me interesa analizar los datos de la categoria1. > > El problema es que en el diagrama de caja resultante aparece la variable > factor1 con todas sus categorías posibles que son muchas (mas de 30) en vez > de dejarme solo las 8 que tienen los datos del subconjunto > subset=factor2=="Categoria1". > > ¿Alguien sabe como decirle a R que se olvide del resto de las categorias? > > Gracias anticipadas, > > Beatriz Lacruz Casaucau > ______________________________________________________ > > Universidad de Zaragoza > Departamento de Métodos Estadísticos > Edificio de Matemáticas, 3ª planta > Pedro Cerbuna, 12 > 50009 Zaragoza (Spain) > > Tel. 976 76 10 00 Ext. 3245 > Fax. 976 76 11 15 > > http://metodosestadisticos.unizar.es/personales/lacruz/ > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]
Carlos Ortega
2010-Nov-18 11:26 UTC
[R-es] Diagramas de caja (box plot) según los valores de un factor
Hola, Cometí un error en la extracción. La forma debe de ser esta: FicheroDatos.new<-FicheroDatos[ FicheroDatos$factor2=="Categoria1",] Saludos, Carlos Ortega. www.qualityexcellence.es 2010/11/18 Carlos Ortega <coforfe@gmail.com>> Hola, > > La sintaxis que usas para la función boxplot es correcta. > Por lo que seguramente el problema lo tengas en la estructura de tus datos. > > Como opción, prueba a seleccionar el conjunto de datos a analizar antes de > procesarlos con boxplot. > Algo del tipo: > > FicheroDatos.new<-FicheroDatos[, factor2=="Categoria1"] > > Y luego utilizar este nuevo data.frame en boxplot: > > boxplot(var1 ~ factor1, data=FicheroDatos.new) > > Saludos, > Carlos Ortega. > www.qualityexcellence.es > > 2010/11/18 Beatriz Lacruz <lacruz@unizar.es> > > Hola, >> >> Estoy intentando dibujar un diagrama de caja según los valores de una >> variable de tipo factor para un subconjuntos de los datos de un archivo. Uso >> esta orden >> >> boxplot(var1~factor1, ylab="var1", xlab="factor1", data=FicheroDatos, >> subset=factor2=="Categoria1") >> >> donde >> var1 es una variable numerica >> factor1 es una variable categorica (tipo caracter) que tiene muchas >> categorias distintas (pero solo 8 en el subconjunto de datos que cumple la >> condicion factor2=="Categoria1") >> factor2 es una variable categorica (tipo caracter) con 13 categorias >> distintas y a mi solo me interesa analizar los datos de la categoria1. >> >> El problema es que en el diagrama de caja resultante aparece la variable >> factor1 con todas sus categorías posibles que son muchas (mas de 30) en vez >> de dejarme solo las 8 que tienen los datos del subconjunto >> subset=factor2=="Categoria1". >> >> ¿Alguien sabe como decirle a R que se olvide del resto de las categorias? >> >> Gracias anticipadas, >> >> Beatriz Lacruz Casaucau >> ______________________________________________________ >> >> Universidad de Zaragoza >> Departamento de Métodos Estadísticos >> Edificio de Matemáticas, 3ª planta >> Pedro Cerbuna, 12 >> 50009 Zaragoza (Spain) >> >> Tel. 976 76 10 00 Ext. 3245 >> Fax. 976 76 11 15 >> >> http://metodosestadisticos.unizar.es/personales/lacruz/ >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es@r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > >[[alternative HTML version deleted]]
Jorge Ivan Velez
2010-Nov-18 13:36 UTC
[R-es] Diagramas de caja (box plot) según los valores de un factor
Buenos dias Beatriz, El comportamiento que observa tiene que ver con que la variables es un factor y aun cuando selecciones un subconjunto de el, sus niveles se mantienen: # nota que Species tiene 3 niveles with(iris, levels(Species)) # esto ilustra tu problema with(iris, boxplot(Sepal.Length ~ Species, data = iris, subset = Species =''virginica'')) # una posible solucion boxplot(iris[iris$Species == ''virginica'',]$Sepal.Length) Un saludo, Jorge Ivan Velez 2010/11/18 Beatriz Lacruz <>> Hola, > > Estoy intentando dibujar un diagrama de caja según los valores de una > variable de tipo factor para un subconjuntos de los datos de un archivo. Uso > esta orden > > boxplot(var1~factor1, ylab="var1", xlab="factor1", data=FicheroDatos, > subset=factor2=="Categoria1") > > donde > var1 es una variable numerica > factor1 es una variable categorica (tipo caracter) que tiene muchas > categorias distintas (pero solo 8 en el subconjunto de datos que cumple la > condicion factor2=="Categoria1") > factor2 es una variable categorica (tipo caracter) con 13 categorias > distintas y a mi solo me interesa analizar los datos de la categoria1. > > El problema es que en el diagrama de caja resultante aparece la variable > factor1 con todas sus categorías posibles que son muchas (mas de 30) en vez > de dejarme solo las 8 que tienen los datos del subconjunto > subset=factor2=="Categoria1". > > ¿Alguien sabe como decirle a R que se olvide del resto de las categorias? > > Gracias anticipadas, > > Beatriz Lacruz Casaucau > ______________________________________________________ > > Universidad de Zaragoza > Departamento de Métodos Estadísticos > Edificio de Matemáticas, 3ª planta > Pedro Cerbuna, 12 > 50009 Zaragoza (Spain) > > Tel. 976 76 10 00 Ext. 3245 > Fax. 976 76 11 15 > > http://metodosestadisticos.unizar.es/personales/lacruz/ > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]