Hola a todos. Creo que la idea de redactar algo de R por nosotros no es nada nueva, pero ¿como se puede hacer para extraer de nuestra lista los problemas que aparecieron y necesitaron la colaboración de todos? ¿como encontrar las preguntas por ejemplo de lme4 relacionadas a xx? ¿se puede hacer algo medio automatizado de acuerdo a la cantidad de palabras que se repiten o sus relaciones en esta lista? Se podrá documentar nuestras dudas y errores para aprender y compartir soluciones. Javier Marcuzzi
Hola Javier, Para buscar temas específicos sobre los correos del R-Help-es veo varias opciones: - Está el propio Google que filtrando por las palabras o buscando sobre un site concreto (de los varios donde están alojados los correos) puedes centrar mucho las búsquedas y encontrar lo que buscas de un temas específico, algo así como: - "r-help-es lme4 2012" (para buscar correos en r-help-es del 2012 asociados a lme4 - En vez de ir directamente Google, buscar a través de los buscadores específicos que atacan las listas de correo de R. Dentro de la sección "Search" de www.r-project.org encuntras esos sitios y ahí repetirías esa misma búsqueda anterior. - Y hay una tercera mucho más elaborada que es directamente bajarte de la red todos los correos del R-Help-es y en local atacar con "R" haciendo algo de "text mining", en este caso la búsqueda sin duda será más precisa y a la medida. Saludos, Carlos Ortega www.qualityexcellence.es El 11 de enero de 2013 16:33, Marcuzzi, Javier < javier.ruben.marcuzzi@gmail.com> escribió:> Hola a todos. > > Creo que la idea de redactar algo de R por nosotros no es nada nueva, > pero ¿como se puede hacer para extraer de nuestra lista los problemas > que aparecieron y necesitaron la colaboración de todos? > ¿como encontrar las preguntas por ejemplo de lme4 relacionadas a xx? > ¿se puede hacer algo medio automatizado de acuerdo a la cantidad de > palabras que se repiten o sus relaciones en esta lista? > > Se podrá documentar nuestras dudas y errores para aprender y compartir > soluciones. > > Javier Marcuzzi > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Gracias Carloss (por los dos) La ayuda del Carlos sobre como descargar correos, me fue bien, tengo todo en un archivo txt. Con nano lo puedo leer sin problemas, con gedit(creo, el de textos de gnome) y libreoffice hay inconvenientes (se cierran). Tendré que ver de automatizar la lectura, sobre python y su función para leer correos ..., hace tanto que no hago ni una tabla de multiplicar con esa víbora que tengo que comenzar desde cero. Sobre el comentario del otro Carlos nunca realicé "text mining", tendré que leer algo e intentarlo (con algo se aprende). Así que ambas colaboraciones son buenas y tengo que estudiar al respecto. Javier Marcuzzi El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega escribió:> Hola Javier, > > > > > Para buscar temas específicos sobre los correos del R-Help-es veo > varias opciones: > * Está el propio Google que filtrando por las palabras o > buscando sobre un site concreto (de los varios donde están > alojados los correos) puedes centrar mucho las búsquedas y > encontrar lo que buscas de un temas específico, algo así como: > * "r-help-es lme4 2012" (para buscar correos en > r-help-es del 2012 asociados a lme4 > * En vez de ir directamente Google, buscar a través de los > buscadores específicos que atacan las listas de correo de R. > Dentro de la sección "Search" de www.r-project.org encuntras > esos sitios y ahí repetirías esa misma búsqueda anterior. > * Y hay una tercera mucho más elaborada que es directamente > bajarte de la red todos los correos del R-Help-es y en local > atacar con "R" haciendo algo de "text mining", en este caso la > búsqueda sin duda será más precisa y a la medida. > Saludos, > > Carlos Ortega > www.qualityexcellence.es > > > El 11 de enero de 2013 16:33, Marcuzzi, Javier > <javier.ruben.marcuzzi en gmail.com> escribió: > Hola a todos. > > Creo que la idea de redactar algo de R por nosotros no es nada > nueva, > pero ¿como se puede hacer para extraer de nuestra lista los > problemas > que aparecieron y necesitaron la colaboración de todos? > ¿como encontrar las preguntas por ejemplo de lme4 relacionadas > a xx? > ¿se puede hacer algo medio automatizado de acuerdo a la > cantidad de > palabras que se repiten o sus relaciones en esta lista? > > Se podrá documentar nuestras dudas y errores para aprender y > compartir > soluciones. > > Javier Marcuzzi > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es
Estimados Mirando un poco sus comentarios, el siguiente paquete ?tm.plugin.mail? puede ser útil para procesar los correos de R, realizar un text - mining, y conocer algunas cosas que pueden ser buenas para nosotros. Pero antes de intentar algo sin saber, y pensar que porque se abre un archivo se soluciona el problema, les consulto respecto al formato de correos y codificación de texto. Siguiendo la sugerencia de Carlos J. Gil Bellosta descargue todos los correos de esa lista de distribución, gedit en linux suse no alcanza para leer todos los correos (si nano desde la terminal), pero gedit informa que en un sector hay codificación que no es UTF-8 (creo). Es probable que en esta lista de correos por ser en español, aparezcan distintas codificaciónes. No lo realice aún, pero intentare descargar todos los correos de esta lista y pasarlos a un solo archivo txt (imitando a Carlos J. Gil Bellosta), luego abrilo con R y como son correos utilizar el paquete que nombre al inicio (tm.plugin.mail)según la idea de (Carlos Ortega). Ustedes que tienen mucha mas experiencia y conocimientos, ¿tomarían algún recaudo antes de importar o procesar incorrectamente un montón de palabras? Me pareció interesante la herramienta en R, su manual son solo 6 páginas, pero no tengo claro el pasar de mbox a eml. ¿Intento según mi intuición o hay algún cuidado especial para no procesar palabras inútiles (aparte de la lista necesaria)? Javier Marcuzzi Javier Marcuzzi El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega escribió:> Hola Javier, > > > > > Para buscar temas específicos sobre los correos del R-Help-es veo > varias opciones: > * Está el propio Google que filtrando por las palabras o > buscando sobre un site concreto (de los varios donde están > alojados los correos) puedes centrar mucho las búsquedas y > encontrar lo que buscas de un temas específico, algo así como: > * "r-help-es lme4 2012" (para buscar correos en > r-help-es del 2012 asociados a lme4 > * En vez de ir directamente Google, buscar a través de los > buscadores específicos que atacan las listas de correo de R. > Dentro de la sección "Search" de www.r-project.org encuntras > esos sitios y ahí repetirías esa misma búsqueda anterior. > * Y hay una tercera mucho más elaborada que es directamente > bajarte de la red todos los correos del R-Help-es y en local > atacar con "R" haciendo algo de "text mining", en este caso la > búsqueda sin duda será más precisa y a la medida. > Saludos, > > Carlos Ortega > www.qualityexcellence.es > > > El 11 de enero de 2013 16:33, Marcuzzi, Javier > <javier.ruben.marcuzzi en gmail.com> escribió: > Hola a todos. > > Creo que la idea de redactar algo de R por nosotros no es nada > nueva, > pero ¿como se puede hacer para extraer de nuestra lista los > problemas > que aparecieron y necesitaron la colaboración de todos? > ¿como encontrar las preguntas por ejemplo de lme4 relacionadas > a xx? > ¿se puede hacer algo medio automatizado de acuerdo a la > cantidad de > palabras que se repiten o sus relaciones en esta lista? > > Se podrá documentar nuestras dudas y errores para aprender y > compartir > soluciones. > > Javier Marcuzzi > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es
Hola Javier, Si ya has conseguido importar todos los correos a tu máquina unas formas de seguir avanzando: - Puedes búsquedas directamente sobre los correos con comandos de la shell y así ver cuánto, cuándo y por quién se repite cierto término. Con estos comandos (grep, find, etc) puedes encontrar todas es información, sin pasar por R. Bueno, también los puedes invocar desde "R" con "system()" y manipular los resultados desde R. - Otra alternativa es procesar los correos desde R con el paquete "tm". Si el plugin "tm.plugn.mail" te exige convertir tus correos a eml, no lo hagas. Puedes procesar previamente los correos para quitarle cabeceras y firmas (esto lo puedes hacer igualmente en R con funciones de expresiones regulares o con el paquete "stringr" y el procesar el cuerpo del mensaje con "tm" directamente. - El paquete "tm" permite especificar el idioma e indicar igualmente que para los resultados y estadísticas te elimine palabras comunes o incluso palabras prohibidas que tú indiques. El resultado de "tm" es un data.frame con palabras y su frecuencia de aparición en cada correo (si es que quieres procesar cada correo). Un ejemplo sencillo de uso de "tm" y de una representación muy común que son las "nubes de palabras" lo puedes encontrar aquí: http://wiekvoet.blogspot.com.es/2012/12/the-eye-of-world-as-word-cloud.html Saludos, Carlos Ortega www.qualityexcellence.es El 16 de enero de 2013 04:16, Marcuzzi, Javier < javier.ruben.marcuzzi@gmail.com> escribió:> Estimados > > Mirando un poco sus comentarios, el siguiente paquete ‘tm.plugin.mail’ > puede ser útil para procesar los correos de R, realizar un text - > mining, y conocer algunas cosas que pueden ser buenas para nosotros. > > Pero antes de intentar algo sin saber, y pensar que porque se abre un > archivo se soluciona el problema, les consulto respecto al formato de > correos y codificación de texto. Siguiendo la sugerencia de Carlos J. > Gil Bellosta descargue todos los correos de esa lista de distribución, > gedit en linux suse no alcanza para leer todos los correos (si nano > desde la terminal), pero gedit informa que en un sector hay codificación > que no es UTF-8 (creo). Es probable que en esta lista de correos por ser > en español, aparezcan distintas codificaciónes. > > No lo realice aún, pero intentare descargar todos los correos de esta > lista y pasarlos a un solo archivo txt (imitando a Carlos J. Gil > Bellosta), luego abrilo con R y como son correos utilizar el paquete que > nombre al inicio (tm.plugin.mail)según la idea de (Carlos Ortega). > > Ustedes que tienen mucha mas experiencia y conocimientos, ¿tomarían > algún recaudo antes de importar o procesar incorrectamente un montón de > palabras? > > Me pareció interesante la herramienta en R, su manual son solo 6 > páginas, pero no tengo claro el pasar de mbox a eml. ¿Intento según mi > intuición o hay algún cuidado especial para no procesar palabras > inútiles (aparte de la lista necesaria)? > > Javier Marcuzzi > > > Javier Marcuzzi > > El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega escribió: > > Hola Javier, > > > > > > > > > > Para buscar temas específicos sobre los correos del R-Help-es veo > > varias opciones: > > * Está el propio Google que filtrando por las palabras o > > buscando sobre un site concreto (de los varios donde están > > alojados los correos) puedes centrar mucho las búsquedas y > > encontrar lo que buscas de un temas específico, algo así como: > > * "r-help-es lme4 2012" (para buscar correos en > > r-help-es del 2012 asociados a lme4 > > * En vez de ir directamente Google, buscar a través de los > > buscadores específicos que atacan las listas de correo de R. > > Dentro de la sección "Search" de www.r-project.org encuntras > > esos sitios y ahí repetirías esa misma búsqueda anterior. > > * Y hay una tercera mucho más elaborada que es directamente > > bajarte de la red todos los correos del R-Help-es y en local > > atacar con "R" haciendo algo de "text mining", en este caso la > > búsqueda sin duda será más precisa y a la medida. > > Saludos, > > > > Carlos Ortega > > www.qualityexcellence.es > > > > > > El 11 de enero de 2013 16:33, Marcuzzi, Javier > > <javier.ruben.marcuzzi@gmail.com> escribió: > > Hola a todos. > > > > Creo que la idea de redactar algo de R por nosotros no es nada > > nueva, > > pero ¿como se puede hacer para extraer de nuestra lista los > > problemas > > que aparecieron y necesitaron la colaboración de todos? > > ¿como encontrar las preguntas por ejemplo de lme4 relacionadas > > a xx? > > ¿se puede hacer algo medio automatizado de acuerdo a la > > cantidad de > > palabras que se repiten o sus relaciones en esta lista? > > > > Se podrá documentar nuestras dudas y errores para aprender y > > compartir > > soluciones. > > > > Javier Marcuzzi > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > > > > > > -- > > Saludos, > > Carlos Ortega > > www.qualityexcellence.es > > >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Gracias Carlos Para no usar o ahorrar con grep, find...., instale el paquete "tau", tiene como ¿algo? que traduce esas letras incorrectas a la correctas, como un conversor, lo realiza en un data.frame, aunque no me funciona bien, buscaré la forma, si funciona leo el archivo de texto desde R, lo almaceno en un data.frame, lo proceso con "tau", luego tm.plugin.mail, y puede ser un gráfico como el que sugiere, en realidad tengo otro casi igual pero más sencillo, o menos por descartar datos o posibilidades. Creo que lograre algo con nuestros correos. Javier El mié, 16-01-2013 a las 16:27 +0100, Carlos Ortega escribió:> Hola Javier, > > > Si ya has conseguido importar todos los correos a tu máquina unas > formas de seguir avanzando: > * Puedes búsquedas directamente sobre los correos con comandos > de la shell y así ver cuánto, cuándo y por quién se repite > cierto término. Con estos comandos (grep, find, etc) puedes > encontrar todas es información, sin pasar por R. Bueno, > también los puedes invocar desde "R" con "system()" y > manipular los resultados desde R. > * Otra alternativa es procesar los correos desde R con el > paquete "tm". Si el plugin "tm.plugn.mail" te exige convertir > tus correos a eml, no lo hagas. Puedes procesar previamente > los correos para quitarle cabeceras y firmas (esto lo puedes > hacer igualmente en R con funciones de expresiones regulares o > con el paquete "stringr" y el procesar el cuerpo del mensaje > con "tm" directamente. > * El paquete "tm" permite especificar el idioma e > indicar igualmente que para los resultados y > estadísticas te elimine palabras comunes o incluso > palabras prohibidas que tú indiques. El resultado de > "tm" es un data.frame con palabras y su frecuencia de > aparición en cada correo (si es que quieres procesar > cada correo). > > > Un ejemplo sencillo de uso de "tm" y de una representación muy común > que son las "nubes de palabras" lo puedes encontrar aquí: > > > http://wiekvoet.blogspot.com.es/2012/12/the-eye-of-world-as-word-cloud.html > > > > > > Saludos, > > Carlos Ortega > www.qualityexcellence.es > > > El 16 de enero de 2013 04:16, Marcuzzi, Javier > <javier.ruben.marcuzzi en gmail.com> escribió: > Estimados > > Mirando un poco sus comentarios, el siguiente paquete > ?tm.plugin.mail? > puede ser útil para procesar los correos de R, realizar un > text - > mining, y conocer algunas cosas que pueden ser buenas para > nosotros. > > Pero antes de intentar algo sin saber, y pensar que porque se > abre un > archivo se soluciona el problema, les consulto respecto al > formato de > correos y codificación de texto. Siguiendo la sugerencia de > Carlos J. > Gil Bellosta descargue todos los correos de esa lista de > distribución, > gedit en linux suse no alcanza para leer todos los correos (si > nano > desde la terminal), pero gedit informa que en un sector hay > codificación > que no es UTF-8 (creo). Es probable que en esta lista de > correos por ser > en español, aparezcan distintas codificaciónes. > > No lo realice aún, pero intentare descargar todos los correos > de esta > lista y pasarlos a un solo archivo txt (imitando a Carlos J. > Gil > Bellosta), luego abrilo con R y como son correos utilizar el > paquete que > nombre al inicio (tm.plugin.mail)según la idea de (Carlos > Ortega). > > Ustedes que tienen mucha mas experiencia y conocimientos, > ¿tomarían > algún recaudo antes de importar o procesar incorrectamente un > montón de > palabras? > > Me pareció interesante la herramienta en R, su manual son solo > 6 > páginas, pero no tengo claro el pasar de mbox a eml. ¿Intento > según mi > intuición o hay algún cuidado especial para no procesar > palabras > inútiles (aparte de la lista necesaria)? > > Javier Marcuzzi > > > Javier Marcuzzi > > El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega escribió: > > > Hola Javier, > > > > > > > > > > Para buscar temas específicos sobre los correos del > R-Help-es veo > > varias opciones: > > > * Está el propio Google que filtrando por las palabras > o > > buscando sobre un site concreto (de los varios donde > están > > alojados los correos) puedes centrar mucho las > búsquedas y > > encontrar lo que buscas de un temas específico, algo > así como: > > > * "r-help-es lme4 2012" (para buscar correos > en > > r-help-es del 2012 asociados a lme4 > > > * En vez de ir directamente Google, buscar a través > de los > > buscadores específicos que atacan las listas de > correo de R. > > Dentro de la sección "Search" de www.r-project.org > encuntras > > esos sitios y ahí repetirías esa misma búsqueda > anterior. > > > * Y hay una tercera mucho más elaborada que es > directamente > > bajarte de la red todos los correos del R-Help-es y > en local > > atacar con "R" haciendo algo de "text mining", en > este caso la > > búsqueda sin duda será más precisa y a la medida. > > Saludos, > > > > Carlos Ortega > > www.qualityexcellence.es > > > > > > El 11 de enero de 2013 16:33, Marcuzzi, Javier > > <javier.ruben.marcuzzi en gmail.com> escribió: > > Hola a todos. > > > > Creo que la idea de redactar algo de R por nosotros > no es nada > > nueva, > > pero ¿como se puede hacer para extraer de nuestra > lista los > > problemas > > que aparecieron y necesitaron la colaboración de > todos? > > ¿como encontrar las preguntas por ejemplo de lme4 > relacionadas > > a xx? > > ¿se puede hacer algo medio automatizado de acuerdo a > la > > cantidad de > > palabras que se repiten o sus relaciones en esta > lista? > > > > Se podrá documentar nuestras dudas y errores para > aprender y > > compartir > > soluciones. > > > > Javier Marcuzzi > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es en r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > > > > > > -- > > Saludos, > > Carlos Ortega > > www.qualityexcellence.es > > > > > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es