Buenas noches a todos, Estoy descarganado tweets a través del paquete twitteR en dos sistemas diferentes. La configuración del primero, un MacBook Pro, es R version 3.0.2 Patched (2013-12-11 r64449) Platform: x86_64-apple-darwin10.8.0 (64-bit) locale: [1] en_AU.UTF-8/en_AU.UTF-8/en_AU.UTF-8/C/en_AU.UTF-8/en_AU.UTF-8 attached base packages: [1] compiler stats graphics grDevices utils datasets methods base other attached packages: [1] SnowballC_0.5 wordcloud_2.4 RColorBrewer_1.0-5 Rcpp_0.10.6 [5] tm_0.5-9.1 lubridate_1.3.2 twitteR_1.1.7 rjson_0.2.13 [9] ROAuth_0.9.3 digest_0.6.4 RCurl_1.95-4.1 bitops_1.0-6 loaded via a namespace (and not attached): [1] memoise_0.1 parallel_3.0.2 plyr_1.8 slam_0.1-30 stringr_0.6.2 [6] tools_3.0.2 La configuración del segundo, un PC con Windows 8, es R version 3.0.2 (2013-09-25) Platform: x86_64-w64-mingw32/x64 (64-bit) locale: [1] LC_COLLATE=Spanish_Colombia.1252 LC_CTYPE=Spanish_Colombia.1252 [3] LC_MONETARY=Spanish_Colombia.1252 LC_NUMERIC=C [5] LC_TIME=Spanish_Colombia.1252 attached base packages: [1] compiler splines grid stats graphics grDevices utils [8] datasets methods base other attached packages: [1] SnowballC_0.5 wordcloud_2.4 RColorBrewer_1.0-5 Rcpp_0.10.6 [5] tm_0.5-9.1 lubridate_1.3.2 twitteR_1.1.7 rjson_0.2.13 [9] ROAuth_0.9.3 digest_0.6.4 RCurl_1.95-4.1 bitops_1.0-6 [13] TinnRcom_1.0-14 Hmisc_3.13-0 Formula_1.1-1 survival_2.37-4 [17] lattice_0.20-23 cluster_1.14.4 R2HTML_2.2.1 formatR_0.10 [21] svSocket_0.9-55 loaded via a namespace (and not attached): [1] memoise_0.1 parallel_3.0.2 plyr_1.8 slam_0.1-30 stringr_0.6.2 [6] svMisc_0.9-69 tcltk_3.0.2 tools_3.0.2 Utilizando las mismas funciones para descargar los tweets (userTimeline y searchTwitter, especificamente), en el primer sistema uno de los mensajes se observa como "cuánto espera que suba el salario mínimo para el próximo año" mientras en el segundo sistema, este es "‚cu„nto espera que suba el salario m„nimo para el pr„ximo a„o" Nota: a veces los simbolos , y ,, aparecen de manera aun mas extraña. Lo que ocurre tiene que ver con "encoding", pero desafortunadamente no hallo como resolverlo. Agradezco cualquier ayuda, referencia o manual que pueda guiarme en la direccion correcta. Muchas gracias. Felicidades, Jorge.- [[alternative HTML version deleted]]
Hola, No sé si esas funciones cuando te proporcionan los strings utilizan algún parámetro de configuración sobre el enconding. Si no lo tienen (en español, es conveniente utilizar UTF-8). Pero una vez en tu workspace, mira la función "iconv()" que te ayudará tanto a conocer el encoding que tienen las cadenas como a transformarlas. En un caso reciente, para poder tener en cuenta los acentos (un caso parecido al tuyo) tuve que transformarlos de UTF-8 a "latin1". Saludos, Carlos Ortega www.qualityexcellence.es El 21 de diciembre de 2013, 0:16, Jorge I Velez <jorgeivanvelez@gmail.com>escribió:> Buenas noches a todos, > > Estoy descarganado tweets a través del paquete twitteR en dos sistemas > diferentes. La configuración del primero, un MacBook Pro, es > > R version 3.0.2 Patched (2013-12-11 r64449) > Platform: x86_64-apple-darwin10.8.0 (64-bit) > > locale: > [1] en_AU.UTF-8/en_AU.UTF-8/en_AU.UTF-8/C/en_AU.UTF-8/en_AU.UTF-8 > > attached base packages: > [1] compiler stats graphics grDevices utils datasets methods > base > > other attached packages: > [1] SnowballC_0.5 wordcloud_2.4 RColorBrewer_1.0-5 Rcpp_0.10.6 > > [5] tm_0.5-9.1 lubridate_1.3.2 twitteR_1.1.7 rjson_0.2.13 > > [9] ROAuth_0.9.3 digest_0.6.4 RCurl_1.95-4.1 bitops_1.0-6 > > > loaded via a namespace (and not attached): > [1] memoise_0.1 parallel_3.0.2 plyr_1.8 slam_0.1-30 > stringr_0.6.2 > [6] tools_3.0.2 > > > La configuración del segundo, un PC con Windows 8, es > > R version 3.0.2 (2013-09-25) > Platform: x86_64-w64-mingw32/x64 (64-bit) > > locale: > [1] LC_COLLATE=Spanish_Colombia.1252 LC_CTYPE=Spanish_Colombia.1252 > [3] LC_MONETARY=Spanish_Colombia.1252 LC_NUMERIC=C > [5] LC_TIME=Spanish_Colombia.1252 > > attached base packages: > [1] compiler splines grid stats graphics grDevices utils > [8] datasets methods base > > other attached packages: > [1] SnowballC_0.5 wordcloud_2.4 RColorBrewer_1.0-5 Rcpp_0.10.6 > > [5] tm_0.5-9.1 lubridate_1.3.2 twitteR_1.1.7 rjson_0.2.13 > > [9] ROAuth_0.9.3 digest_0.6.4 RCurl_1.95-4.1 bitops_1.0-6 > > [13] TinnRcom_1.0-14 Hmisc_3.13-0 Formula_1.1-1 > survival_2.37-4 > [17] lattice_0.20-23 cluster_1.14.4 R2HTML_2.2.1 formatR_0.10 > > [21] svSocket_0.9-55 > > loaded via a namespace (and not attached): > [1] memoise_0.1 parallel_3.0.2 plyr_1.8 slam_0.1-30 > stringr_0.6.2 > [6] svMisc_0.9-69 tcltk_3.0.2 tools_3.0.2 > > > Utilizando las mismas funciones para descargar los tweets (userTimeline y > searchTwitter, especificamente), en el primer sistema uno de los mensajes > se observa como > > "cuánto espera que suba el salario mínimo para el próximo año" > > mientras en el segundo sistema, este es > > "‚cu„nto espera que suba el salario m„nimo para el pr„ximo a„o" > > Nota: a veces los simbolos , y ,, aparecen de manera aun mas extraña. > > Lo que ocurre tiene que ver con "encoding", pero desafortunadamente no > hallo como resolverlo. > > Agradezco cualquier ayuda, referencia o manual que pueda guiarme en la > direccion correcta. > > Muchas gracias. > > Felicidades, > Jorge.- > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Hola La codificación con uft-8 y etc., es un poco complicada, tendría que ser sencillo, pero siempre aparecen problemas. Por las dudas le comento que un inconveniente que tuve, es que al tener archivos en R, guardados como Rnw (aprovecho a colocar comentarios y cosas en latex), y cambiar la ubicación o la carpeta, la codificación de texto se rompía, es decir donde decía alguna palabra con acento parecía una pababra con errores ortográficos (aparte de los normales de uno mismo). Nunca supe el porqué de este problema, incluso intente guardando el archivo en internet y descargarlo, eso también crea un (el) error. Rstudio tiene una referencia al encoding en archivo, intenté por ese lado, pero no siempre es lo que esperaba. Javier Marcuzzi El 20/12/2013 11:26 p.m., Carlos Ortega escribió:> Hola, > > No sé si esas funciones cuando te proporcionan los strings utilizan algún > parámetro de configuración sobre el enconding. > Si no lo tienen (en español, es conveniente utilizar UTF-8). > > Pero una vez en tu workspace, mira la función "iconv()" que te ayudará > tanto a conocer el encoding que tienen las cadenas como a transformarlas. > En un caso reciente, para poder tener en cuenta los acentos (un caso > parecido al tuyo) tuve que transformarlos de UTF-8 a "latin1". > > Saludos, > Carlos Ortega > www.qualityexcellence.es > > > > El 21 de diciembre de 2013, 0:16, Jorge I Velez > <jorgeivanvelez@gmail.com>escribió: > >> Buenas noches a todos, >> >> Estoy descarganado tweets a través del paquete twitteR en dos sistemas >> diferentes. La configuración del primero, un MacBook Pro, es >> >> R version 3.0.2 Patched (2013-12-11 r64449) >> Platform: x86_64-apple-darwin10.8.0 (64-bit) >> >> locale: >> [1] en_AU.UTF-8/en_AU.UTF-8/en_AU.UTF-8/C/en_AU.UTF-8/en_AU.UTF-8 >> >> attached base packages: >> [1] compiler stats graphics grDevices utils datasets methods >> base >> >> other attached packages: >> [1] SnowballC_0.5 wordcloud_2.4 RColorBrewer_1.0-5 Rcpp_0.10.6 >> >> [5] tm_0.5-9.1 lubridate_1.3.2 twitteR_1.1.7 rjson_0.2.13 >> >> [9] ROAuth_0.9.3 digest_0.6.4 RCurl_1.95-4.1 bitops_1.0-6 >> >> >> loaded via a namespace (and not attached): >> [1] memoise_0.1 parallel_3.0.2 plyr_1.8 slam_0.1-30 >> stringr_0.6.2 >> [6] tools_3.0.2 >> >> >> La configuración del segundo, un PC con Windows 8, es >> >> R version 3.0.2 (2013-09-25) >> Platform: x86_64-w64-mingw32/x64 (64-bit) >> >> locale: >> [1] LC_COLLATE=Spanish_Colombia.1252 LC_CTYPE=Spanish_Colombia.1252 >> [3] LC_MONETARY=Spanish_Colombia.1252 LC_NUMERIC=C >> [5] LC_TIME=Spanish_Colombia.1252 >> >> attached base packages: >> [1] compiler splines grid stats graphics grDevices utils >> [8] datasets methods base >> >> other attached packages: >> [1] SnowballC_0.5 wordcloud_2.4 RColorBrewer_1.0-5 Rcpp_0.10.6 >> >> [5] tm_0.5-9.1 lubridate_1.3.2 twitteR_1.1.7 rjson_0.2.13 >> >> [9] ROAuth_0.9.3 digest_0.6.4 RCurl_1.95-4.1 bitops_1.0-6 >> >> [13] TinnRcom_1.0-14 Hmisc_3.13-0 Formula_1.1-1 >> survival_2.37-4 >> [17] lattice_0.20-23 cluster_1.14.4 R2HTML_2.2.1 formatR_0.10 >> >> [21] svSocket_0.9-55 >> >> loaded via a namespace (and not attached): >> [1] memoise_0.1 parallel_3.0.2 plyr_1.8 slam_0.1-30 >> stringr_0.6.2 >> [6] svMisc_0.9-69 tcltk_3.0.2 tools_3.0.2 >> >> >> Utilizando las mismas funciones para descargar los tweets (userTimeline y >> searchTwitter, especificamente), en el primer sistema uno de los mensajes >> se observa como >> >> "cuánto espera que suba el salario mínimo para el próximo año" >> >> mientras en el segundo sistema, este es >> >> ",cu"nto espera que suba el salario m"nimo para el pr"ximo a"o" >> >> Nota: a veces los simbolos , y ,, aparecen de manera aun mas extraña. >> >> Lo que ocurre tiene que ver con "encoding", pero desafortunadamente no >> hallo como resolverlo. >> >> Agradezco cualquier ayuda, referencia o manual que pueda guiarme en la >> direccion correcta. >> >> Muchas gracias. >> >> Felicidades, >> Jorge.- >> >> [[alternative HTML version deleted]] >> >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es@r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> >> > > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es[[alternative HTML version deleted]]