thr3ads.net - R help es - [R-es] data

If this information is useful, please help other people find it:
Share via:

Marcuzzi, Javier Rubén

2013-Jan-11 15:33 UTC

[R-es] data - R es

Hola a todos.

Creo que la idea de redactar algo de R por nosotros no es nada nueva,
pero ¿como se puede hacer para extraer de nuestra lista los problemas
que aparecieron y necesitaron la colaboración de todos?
¿como encontrar las preguntas por ejemplo de lme4 relacionadas a xx?
¿se puede hacer algo medio automatizado de acuerdo a la cantidad de
palabras que se repiten o sus relaciones en esta lista?

Se podrá documentar nuestras dudas y errores para aprender y compartir
soluciones.

Javier Marcuzzi

Carlos Ortega

2013-Jan-14 13:28 UTC

head link

[R-es] data - R es

Hola Javier,


Para buscar temas específicos sobre los correos del R-Help-es veo varias
opciones:

   - Está el propio Google que filtrando por las palabras o buscando sobre
   un site concreto (de los varios donde están alojados los correos) puedes
   centrar mucho las búsquedas y encontrar lo que buscas de un temas
   específico, algo así como:
      - "r-help-es lme4 2012" (para buscar correos en r-help-es del
2012
      asociados a lme4
   - En vez de ir directamente  Google, buscar a través de los buscadores
   específicos que atacan las listas de correo de R. Dentro de la sección
   "Search" de www.r-project.org encuntras esos sitios y ahí
repetirías esa
   misma búsqueda anterior.
   - Y hay una tercera mucho más elaborada que es directamente bajarte de
   la red todos los correos del R-Help-es y en local atacar con "R"
haciendo
   algo de "text mining", en este caso la búsqueda sin duda será más
precisa y
   a la medida.

Saludos,
Carlos Ortega
www.qualityexcellence.es


El 11 de enero de 2013 16:33, Marcuzzi, Javier <
javier.ruben.marcuzzi@gmail.com> escribió:
> Hola a todos.
>
> Creo que la idea de redactar algo de R por nosotros no es nada nueva,
> pero ¿como se puede hacer para extraer de nuestra lista los problemas
> que aparecieron y necesitaron la colaboración de todos?
> ¿como encontrar las preguntas por ejemplo de lme4 relacionadas a xx?
> ¿se puede hacer algo medio automatizado de acuerdo a la cantidad de
> palabras que se repiten o sus relaciones en esta lista?
>
> Se podrá documentar nuestras dudas y errores para aprender y compartir
> soluciones.
>
> Javier Marcuzzi
>
> _______________________________________________
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

Marcuzzi, Javier Rubén

2013-Jan-14 18:40 UTC

head link

[R-es] data - R es

Gracias Carloss (por los dos)

La ayuda del Carlos sobre como descargar correos, me fue bien, tengo
todo en un archivo txt. Con nano lo puedo leer sin problemas, con
gedit(creo, el de textos de gnome) y libreoffice hay inconvenientes (se
cierran). Tendré que ver de automatizar la lectura, sobre python y su
función para leer correos ..., hace tanto que no hago ni una tabla de
multiplicar con esa víbora que tengo que comenzar desde cero.

Sobre el comentario del otro Carlos nunca realicé "text mining",
tendré
que leer algo e intentarlo (con algo se aprende).

Así que ambas colaboraciones son buenas y tengo que estudiar al
respecto. 

Javier Marcuzzi

El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega
escribió:> Hola Javier,
> 
> 
> 
> 
> Para buscar temas específicos sobre los correos del R-Help-es veo
> varias opciones:
>       * Está el propio Google que filtrando por las palabras o
>         buscando sobre un site concreto (de los varios donde están
>         alojados los correos) puedes centrar mucho las búsquedas y
>         encontrar lo que buscas de un temas específico, algo así como:
>               * "r-help-es lme4 2012" (para buscar correos en
>                 r-help-es del 2012 asociados a lme4
>       * En vez de ir directamente  Google, buscar a través de los
>         buscadores específicos que atacan las listas de correo de R.
>         Dentro de la sección "Search" de www.r-project.org
encuntras
>         esos sitios y ahí repetirías esa misma búsqueda anterior.
>       * Y hay una tercera mucho más elaborada que es directamente
>         bajarte de la red todos los correos del R-Help-es y en local
>         atacar con "R" haciendo algo de "text mining",
en este caso la
>         búsqueda sin duda será más precisa y a la medida.
> Saludos,
> 
> Carlos Ortega
> www.qualityexcellence.es
> 
> 
> El 11 de enero de 2013 16:33, Marcuzzi, Javier
> <javier.ruben.marcuzzi en gmail.com> escribió:
>         Hola a todos.
>         
>         Creo que la idea de redactar algo de R por nosotros no es nada
>         nueva,
>         pero ¿como se puede hacer para extraer de nuestra lista los
>         problemas
>         que aparecieron y necesitaron la colaboración de todos?
>         ¿como encontrar las preguntas por ejemplo de lme4 relacionadas
>         a xx?
>         ¿se puede hacer algo medio automatizado de acuerdo a la
>         cantidad de
>         palabras que se repiten o sus relaciones en esta lista?
>         
>         Se podrá documentar nuestras dudas y errores para aprender y
>         compartir
>         soluciones.
>         
>         Javier Marcuzzi
>         
>         _______________________________________________
>         R-help-es mailing list
>         R-help-es en r-project.org
>         https://stat.ethz.ch/mailman/listinfo/r-help-es
> 
> 
> 
> 
> -- 
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es

Marcuzzi, Javier Rubén

2013-Jan-16 03:16 UTC

head link

[R-es] data - R es

Estimados

Mirando un poco sus comentarios, el siguiente paquete  ?tm.plugin.mail?
puede ser útil para procesar los correos de R, realizar un text -
mining, y conocer algunas cosas que pueden ser buenas para nosotros.

Pero antes de intentar algo sin saber, y pensar que porque se abre un
archivo se soluciona el problema, les consulto respecto al formato de
correos y codificación de texto. Siguiendo la sugerencia de Carlos J.
Gil Bellosta descargue todos los correos de esa lista de distribución,
gedit en linux suse no alcanza para leer todos los correos (si nano
desde la terminal), pero gedit informa que en un sector hay codificación
que no es UTF-8 (creo). Es probable que en esta lista de correos por ser
en español, aparezcan distintas codificaciónes.

No lo realice aún, pero intentare descargar todos los correos de esta
lista y pasarlos a un solo archivo txt (imitando a Carlos J. Gil
Bellosta), luego abrilo con R y como son correos utilizar el paquete que
nombre al inicio (tm.plugin.mail)según la idea de (Carlos Ortega).

Ustedes que tienen mucha mas experiencia y conocimientos, ¿tomarían
algún recaudo antes de importar o procesar incorrectamente un montón de
palabras?

Me pareció interesante la herramienta en R, su manual son solo 6
páginas, pero no tengo claro el pasar de mbox a eml. ¿Intento según mi
intuición o hay algún cuidado especial para no procesar palabras
inútiles (aparte de la lista necesaria)?

Javier Marcuzzi


Javier Marcuzzi

El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega
escribió:> Hola Javier,
> 
> 
> 
> 
> Para buscar temas específicos sobre los correos del R-Help-es veo
> varias opciones:
>       * Está el propio Google que filtrando por las palabras o
>         buscando sobre un site concreto (de los varios donde están
>         alojados los correos) puedes centrar mucho las búsquedas y
>         encontrar lo que buscas de un temas específico, algo así como:
>               * "r-help-es lme4 2012" (para buscar correos en
>                 r-help-es del 2012 asociados a lme4
>       * En vez de ir directamente  Google, buscar a través de los
>         buscadores específicos que atacan las listas de correo de R.
>         Dentro de la sección "Search" de www.r-project.org
encuntras
>         esos sitios y ahí repetirías esa misma búsqueda anterior.
>       * Y hay una tercera mucho más elaborada que es directamente
>         bajarte de la red todos los correos del R-Help-es y en local
>         atacar con "R" haciendo algo de "text mining",
en este caso la
>         búsqueda sin duda será más precisa y a la medida.
> Saludos,
> 
> Carlos Ortega
> www.qualityexcellence.es
> 
> 
> El 11 de enero de 2013 16:33, Marcuzzi, Javier
> <javier.ruben.marcuzzi en gmail.com> escribió:
>         Hola a todos.
>         
>         Creo que la idea de redactar algo de R por nosotros no es nada
>         nueva,
>         pero ¿como se puede hacer para extraer de nuestra lista los
>         problemas
>         que aparecieron y necesitaron la colaboración de todos?
>         ¿como encontrar las preguntas por ejemplo de lme4 relacionadas
>         a xx?
>         ¿se puede hacer algo medio automatizado de acuerdo a la
>         cantidad de
>         palabras que se repiten o sus relaciones en esta lista?
>         
>         Se podrá documentar nuestras dudas y errores para aprender y
>         compartir
>         soluciones.
>         
>         Javier Marcuzzi
>         
>         _______________________________________________
>         R-help-es mailing list
>         R-help-es en r-project.org
>         https://stat.ethz.ch/mailman/listinfo/r-help-es
> 
> 
> 
> 
> -- 
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es

Carlos Ortega

2013-Jan-16 15:27 UTC

head link

[R-es] data - R es

Hola Javier,

Si ya has conseguido importar todos los correos a tu máquina unas formas de
seguir avanzando:

   - Puedes búsquedas directamente sobre los correos con comandos de la
   shell y así ver cuánto, cuándo y por quién se repite cierto término. Con
   estos comandos (grep, find, etc) puedes encontrar todas es información, sin
   pasar por R. Bueno, también los puedes invocar desde "R" con
"system()" y
   manipular los resultados desde R.
   - Otra alternativa es procesar los correos desde R con el paquete
"tm".
   Si el plugin "tm.plugn.mail" te exige convertir tus correos a eml,
no lo
   hagas. Puedes procesar previamente los correos para quitarle cabeceras y
   firmas (esto lo puedes hacer igualmente en R con funciones de expresiones
   regulares o con el paquete "stringr" y el procesar el cuerpo del
mensaje
   con "tm" directamente.
      - El paquete "tm" permite especificar el idioma e indicar
igualmente
      que para los resultados y estadísticas te elimine palabras comunes o
      incluso palabras prohibidas que tú indiques. El resultado de
"tm" es un
      data.frame con palabras y su frecuencia de aparición en cada
correo (si es
      que quieres procesar cada correo).


Un ejemplo sencillo de uso de "tm" y de una representación muy común
que
son las "nubes de palabras" lo puedes encontrar aquí:

http://wiekvoet.blogspot.com.es/2012/12/the-eye-of-world-as-word-cloud.html


Saludos,
Carlos Ortega
www.qualityexcellence.es


El 16 de enero de 2013 04:16, Marcuzzi, Javier <
javier.ruben.marcuzzi@gmail.com> escribió:
> Estimados
>
> Mirando un poco sus comentarios, el siguiente paquete  ‘tm.plugin.mail’
> puede ser útil para procesar los correos de R, realizar un text -
> mining, y conocer algunas cosas que pueden ser buenas para nosotros.
>
> Pero antes de intentar algo sin saber, y pensar que porque se abre un
> archivo se soluciona el problema, les consulto respecto al formato de
> correos y codificación de texto. Siguiendo la sugerencia de Carlos J.
> Gil Bellosta descargue todos los correos de esa lista de distribución,
> gedit en linux suse no alcanza para leer todos los correos (si nano
> desde la terminal), pero gedit informa que en un sector hay codificación
> que no es UTF-8 (creo). Es probable que en esta lista de correos por ser
> en español, aparezcan distintas codificaciónes.
>
> No lo realice aún, pero intentare descargar todos los correos de esta
> lista y pasarlos a un solo archivo txt (imitando a Carlos J. Gil
> Bellosta), luego abrilo con R y como son correos utilizar el paquete que
> nombre al inicio (tm.plugin.mail)según la idea de (Carlos Ortega).
>
> Ustedes que tienen mucha mas experiencia y conocimientos, ¿tomarían
> algún recaudo antes de importar o procesar incorrectamente un montón de
> palabras?
>
> Me pareció interesante la herramienta en R, su manual son solo 6
> páginas, pero no tengo claro el pasar de mbox a eml. ¿Intento según mi
> intuición o hay algún cuidado especial para no procesar palabras
> inútiles (aparte de la lista necesaria)?
>
> Javier Marcuzzi
>
>
> Javier Marcuzzi
>
> El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega escribió:
> > Hola Javier,
> >
> >
> >
> >
> > Para buscar temas específicos sobre los correos del R-Help-es veo
> > varias opciones:
> >       * Está el propio Google que filtrando por las palabras o
> >         buscando sobre un site concreto (de los varios donde están
> >         alojados los correos) puedes centrar mucho las búsquedas y
> >         encontrar lo que buscas de un temas específico, algo así como:
> >               * "r-help-es lme4 2012" (para buscar correos
en
> >                 r-help-es del 2012 asociados a lme4
> >       * En vez de ir directamente  Google, buscar a través de los
> >         buscadores específicos que atacan las listas de correo de R.
> >         Dentro de la sección "Search" de www.r-project.org
encuntras
> >         esos sitios y ahí repetirías esa misma búsqueda anterior.
> >       * Y hay una tercera mucho más elaborada que es directamente
> >         bajarte de la red todos los correos del R-Help-es y en local
> >         atacar con "R" haciendo algo de "text
mining", en este caso la
> >         búsqueda sin duda será más precisa y a la medida.
> > Saludos,
> >
> > Carlos Ortega
> > www.qualityexcellence.es
> >
> >
> > El 11 de enero de 2013 16:33, Marcuzzi, Javier
> > <javier.ruben.marcuzzi@gmail.com> escribió:
> >         Hola a todos.
> >
> >         Creo que la idea de redactar algo de R por nosotros no es nada
> >         nueva,
> >         pero ¿como se puede hacer para extraer de nuestra lista los
> >         problemas
> >         que aparecieron y necesitaron la colaboración de todos?
> >         ¿como encontrar las preguntas por ejemplo de lme4 relacionadas
> >         a xx?
> >         ¿se puede hacer algo medio automatizado de acuerdo a la
> >         cantidad de
> >         palabras que se repiten o sus relaciones en esta lista?
> >
> >         Se podrá documentar nuestras dudas y errores para aprender y
> >         compartir
> >         soluciones.
> >
> >         Javier Marcuzzi
> >
> >         _______________________________________________
> >         R-help-es mailing list
> >         R-help-es@r-project.org
> >         https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
> >
> >
> >
> > --
> > Saludos,
> > Carlos Ortega
> > www.qualityexcellence.es
>
>
>

-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

Marcuzzi, Javier Rubén

2013-Jan-16 17:32 UTC

head link

[R-es] data - R es

Gracias Carlos

Para no usar o ahorrar con grep, find...., instale el paquete "tau",
tiene como ¿algo? que traduce esas letras incorrectas a la correctas,
como un conversor, lo realiza en un data.frame, aunque no me funciona
bien, buscaré la forma, si funciona leo el archivo de texto desde R, lo
almaceno en un data.frame, lo proceso con "tau", luego tm.plugin.mail,
y
puede ser un gráfico como el que sugiere, en realidad tengo otro casi
igual pero más sencillo, o menos por descartar datos o posibilidades.

Creo que lograre algo con nuestros correos.

Javier 

El mié, 16-01-2013 a las 16:27 +0100, Carlos Ortega
escribió:> Hola Javier,
> 
> 
> Si ya has conseguido importar todos los correos a tu máquina unas
> formas de seguir avanzando:
>       * Puedes búsquedas directamente sobre los correos con comandos
>         de la shell y así ver cuánto, cuándo y por quién se repite
>         cierto término. Con estos comandos (grep, find, etc) puedes
>         encontrar todas es información, sin pasar por R. Bueno,
>         también los puedes invocar desde "R" con
"system()" y
>         manipular los resultados desde R.
>       * Otra alternativa es procesar los correos desde R con el
>         paquete "tm". Si el plugin "tm.plugn.mail" te
exige convertir
>         tus correos a eml, no lo hagas. Puedes procesar previamente
>         los correos para quitarle cabeceras y firmas (esto lo puedes
>         hacer igualmente en R con funciones de expresiones regulares o
>         con el paquete "stringr" y el procesar el cuerpo del
mensaje
>         con "tm" directamente. 
>               * El paquete "tm" permite especificar el idioma e
>                 indicar igualmente que para los resultados y
>                 estadísticas te elimine palabras comunes o incluso
>                 palabras prohibidas que tú indiques. El resultado de
>                 "tm" es un data.frame con palabras y su
frecuencia de
>                 aparición en cada correo (si es que quieres procesar
>                 cada correo).
> 
> 
> Un ejemplo sencillo de uso de "tm" y de una representación muy
común
> que son las "nubes de palabras" lo puedes encontrar aquí:
> 
> 
> http://wiekvoet.blogspot.com.es/2012/12/the-eye-of-world-as-word-cloud.html
> 
> 
> 
> 
> 
> Saludos,
> 
> Carlos Ortega
> www.qualityexcellence.es
> 
> 
> El 16 de enero de 2013 04:16, Marcuzzi, Javier
> <javier.ruben.marcuzzi en gmail.com> escribió:
>         Estimados
>         
>         Mirando un poco sus comentarios, el siguiente paquete
>          ?tm.plugin.mail?
>         puede ser útil para procesar los correos de R, realizar un
>         text -
>         mining, y conocer algunas cosas que pueden ser buenas para
>         nosotros.
>         
>         Pero antes de intentar algo sin saber, y pensar que porque se
>         abre un
>         archivo se soluciona el problema, les consulto respecto al
>         formato de
>         correos y codificación de texto. Siguiendo la sugerencia de
>         Carlos J.
>         Gil Bellosta descargue todos los correos de esa lista de
>         distribución,
>         gedit en linux suse no alcanza para leer todos los correos (si
>         nano
>         desde la terminal), pero gedit informa que en un sector hay
>         codificación
>         que no es UTF-8 (creo). Es probable que en esta lista de
>         correos por ser
>         en español, aparezcan distintas codificaciónes.
>         
>         No lo realice aún, pero intentare descargar todos los correos
>         de esta
>         lista y pasarlos a un solo archivo txt (imitando a Carlos J.
>         Gil
>         Bellosta), luego abrilo con R y como son correos utilizar el
>         paquete que
>         nombre al inicio (tm.plugin.mail)según la idea de (Carlos
>         Ortega).
>         
>         Ustedes que tienen mucha mas experiencia y conocimientos,
>         ¿tomarían
>         algún recaudo antes de importar o procesar incorrectamente un
>         montón de
>         palabras?
>         
>         Me pareció interesante la herramienta en R, su manual son solo
>         6
>         páginas, pero no tengo claro el pasar de mbox a eml. ¿Intento
>         según mi
>         intuición o hay algún cuidado especial para no procesar
>         palabras
>         inútiles (aparte de la lista necesaria)?
>         
>         Javier Marcuzzi
>         
>         
>         Javier Marcuzzi
>         
>         El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega escribió:
>         
>         > Hola Javier,
>         >
>         >
>         >
>         >
>         > Para buscar temas específicos sobre los correos del
>         R-Help-es veo
>         > varias opciones:
>         
>         >       * Está el propio Google que filtrando por las palabras
>         o
>         >         buscando sobre un site concreto (de los varios donde
>         están
>         >         alojados los correos) puedes centrar mucho las
>         búsquedas y
>         >         encontrar lo que buscas de un temas específico, algo
>         así como:
>         
>         >               * "r-help-es lme4 2012" (para buscar
correos
>         en
>         >                 r-help-es del 2012 asociados a lme4
>         
>         >       * En vez de ir directamente  Google, buscar a través
>         de los
>         >         buscadores específicos que atacan las listas de
>         correo de R.
>         >         Dentro de la sección "Search" de
www.r-project.org
>         encuntras
>         >         esos sitios y ahí repetirías esa misma búsqueda
>         anterior.
>         
>         >       * Y hay una tercera mucho más elaborada que es
>         directamente
>         >         bajarte de la red todos los correos del R-Help-es y
>         en local
>         >         atacar con "R" haciendo algo de "text
mining", en
>         este caso la
>         >         búsqueda sin duda será más precisa y a la medida.
>         > Saludos,
>         >
>         > Carlos Ortega
>         > www.qualityexcellence.es
>         >
>         >
>         > El 11 de enero de 2013 16:33, Marcuzzi, Javier
>         > <javier.ruben.marcuzzi en gmail.com> escribió:
>         >         Hola a todos.
>         >
>         >         Creo que la idea de redactar algo de R por nosotros
>         no es nada
>         >         nueva,
>         >         pero ¿como se puede hacer para extraer de nuestra
>         lista los
>         >         problemas
>         >         que aparecieron y necesitaron la colaboración de
>         todos?
>         >         ¿como encontrar las preguntas por ejemplo de lme4
>         relacionadas
>         >         a xx?
>         >         ¿se puede hacer algo medio automatizado de acuerdo a
>         la
>         >         cantidad de
>         >         palabras que se repiten o sus relaciones en esta
>         lista?
>         >
>         >         Se podrá documentar nuestras dudas y errores para
>         aprender y
>         >         compartir
>         >         soluciones.
>         >
>         >         Javier Marcuzzi
>         >
>         >         _______________________________________________
>         >         R-help-es mailing list
>         >         R-help-es en r-project.org
>         >         https://stat.ethz.ch/mailman/listinfo/r-help-es
>         >
>         >
>         >
>         >
>         > --
>         > Saludos,
>         > Carlos Ortega
>         > www.qualityexcellence.es
>         
>         
>         
> 
> 
> 
> 
> -- 
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es

Seemingly Similar Threads

Search for more possibly parallel threads

R help es - Jan 2013 - data - R es

[R-es] data - R es

[R-es] data - R es

[R-es] data - R es

[R-es] data - R es

[R-es] data - R es

[R-es] data - R es

Seemingly Similar Threads