Cordial Saludo Actualmente estoy realizando una función para gráficar una nube de palabras el código que tengo es el siguiente: library(twitteR)library(tm)library(wordcloud)library(RXKCD)library(RColorBrewer) tweets=searchTwitter(''@afflorezr'', n=1500) generateCorpus= function(tweets,my.stopwords=c(),min.freq){ #Install the textmining library require(tm) require(wordcloud) tw.df=twListToDF(tweets) RemoveAtPeople <- function(x){gsub("@\\w+", "",x)} df<- as.vector(sapply(tw.df$text, RemoveAtPeople)) #The following is cribbed and seems to do what it says on the can tw.corpus = Corpus(VectorSource(df)) tw.corpus = tm_map(tw.corpus, function(x) iconv(enc2utf8(x), sub = "byte")) tw.corpus = tm_map(tw.corpus, tolower) tw.corpus = tm_map(tw.corpus, removePunctuation) tw.corpus = tm_map(tw.corpus, function(x) removeWords(x, c(stopwords("spanish"),"rt"))) tw.corpus = tm_map(tw.corpus, removeWords, my.stopwords) tw.corpus = tm_map(tw.corpus, stripWhitespace) sw <- readLines("stopwords.es.txt",encoding="UTF-8") sw = iconv(sw, to="ASCII//TRANSLIT") tw.corpus = tm_map(tw.corpus, removeWords, sw) doc.m = TermDocumentMatrix(tw.corpus, control = list(minWordLength = 2)) dm = as.matrix(doc.m) # calculate the frequency of words v = sort(rowSums(dm), decreasing=TRUE) d = data.frame(word=names(v), freq=v) #Generate the wordcloud pal2 <- brewer.pal(8,"Dark2") wc=wordcloud(d$word, d$freq, min.freq=min.freq, scale=c(8,.2), max.words=Inf, random.order=FALSE, rot.per=.15, colors=pal2) wc}##Generate an image file of the wordcloudpng("gráfico.png", width=1280,height=1600)generateCorpus(tweets,''afflorezr'',7)dev.off() El problema que tengo es que las palabras acentuadas, es decir, que la que llevan tildes como "más" me salen diferentes algo como "â", agradezco la ayuda que me puedan brindar para que las palabras salgan correctamente en español. Saludos, ANDRÉS FELIPE FLÓREZ RIVERA [[alternative HTML version deleted]]
Hola Andres, Desafortunadamente el codigo es muy dificil de leer y eso hace aun mas dificil ayudarte. Es posible que lo envies de nuevo (utilizando espacio entre lineas y entre palabras?) o que lo alojes en algun sitio de internet, i.e., Dropbox? Saludos, Jorge.- On Fri, Oct 26, 2012 at 10:41 AM, ANDRÉS FELIPE FLÓREZ RIVERA <> wrote:> > Cordial Saludo > Actualmente estoy realizando una función para gráficar una nube de > palabras el código que tengo es el siguiente: > > library(twitteR)library(tm)library(wordcloud)library(RXKCD)library(RColorBrewer) > tweets=searchTwitter(''@afflorezr'', n=1500) > > generateCorpus= function(tweets,my.stopwords=c(),min.freq){ #Install the > textmining library require(tm) require(wordcloud) > tw.df=twListToDF(tweets) RemoveAtPeople <- function(x){gsub("@\\w+", > "",x)} df<- as.vector(sapply(tw.df$text, RemoveAtPeople)) #The following > is cribbed and seems to do what it says on the can tw.corpus > Corpus(VectorSource(df)) tw.corpus = tm_map(tw.corpus, function(x) > iconv(enc2utf8(x), sub = "byte")) tw.corpus = tm_map(tw.corpus, tolower) > tw.corpus = tm_map(tw.corpus, removePunctuation) tw.corpus > tm_map(tw.corpus, function(x) removeWords(x, c(stopwords("spanish"),"rt"))) > tw.corpus = tm_map(tw.corpus, removeWords, my.stopwords) tw.corpus > tm_map(tw.corpus, stripWhitespace) sw <- > readLines("stopwords.es.txt",encoding="UTF-8") sw = iconv(sw, > to="ASCII//TRANSLIT") tw.corpus = tm_map(tw.corpus, removeWords, sw) > doc.m = TermDocumentMatrix(tw.corpus, control = list(minWordLength = 2)) > dm = as.matrix(doc.m) # calculate the frequency of words v > sort(rowSums(dm), decreasing=TRUE) d = data.frame(word=names(v), freq=v) > #Generate the wordcloud pal2 <- brewer.pal(8,"Dark2") > wc=wordcloud(d$word, d$freq, min.freq=min.freq, scale=c(8,.2), > max.words=Inf, random.order=FALSE, rot.per=.15, colors=pal2) > wc}##Generate an image file of the wordcloudpng("gráfico.png", > width=1280,height=1600)generateCorpus(tweets,''afflorezr'',7)dev.off() > El problema que tengo es que las palabras acentuadas, es decir, que la que > llevan tildes como "más" me salen diferentes algo como "â", agradezco la > ayuda que me puedan brindar para que las palabras salgan correctamente en > español. > > Saludos, > > ANDRÉS FELIPE FLÓREZ RIVERA > > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >[[alternative HTML version deleted]]
Hola a todos. Por si a alguien le sirviera y, entendiendo que no es off-topic, os paso a comentar un pequeño trabajo que hemos hecho... Hemos procedido a recopilar una serie de software, para Windows, especialmente indicado a la hora de realizar trabajos en el campo de la bioestadística y la epidemiología (en general, se puede utilizar para la realización de estudios estadísticos). El trabajo ha consistido en la recopilación de dicho software (como supondréis, el programa "estrella" es R), en portabilizarlo -si no existía ya una versión portable- (que no necesite instalación) y crear un "lanzador" (entorno) común desde donde se puedan llamar a todos esos programas (adjunto una captura del mismo). Este lanzador está programado en Lazarus (Free Pascal) y, en breve, liberaremos el código fuente. La recopilación de software la hemos categorizado de la siguiente manera: - R: R, RCommander, RStudio, Deducer, Red-R y Tinn-R (como editor) - Bioestadística: Octave, PSPP, SOFA Statistics, SciLab, WinBUGS y FreeMat - Epidemiología: Epidat 4, Epi Info 7 y OpenEpi - Ofimática: LibreOffice, Firefox y Sunbird La idea es conseguir que cualquiera pueda utilizar este tipo de programas en cualquier entorno bajo Windows. Al no necesitar instalación (simplemente se descarga el fichero, se descomprime y ya está listo para usar) está indicado para entornos "hostiles" (que necesitan permisos de administrador para instalar software), aulas de formación (se puede descomprimir y ejecutar desde un pendrive, por ejemplo), etc, etc. Otro ejemplo, que viene al caso en esta lista, es su utilidad a la hora de realizar cursos (como por ejemplo el de "Introducción a la Estadística Moderna con R" http://goo.gl/pDnq7) para personas que no hayan instalado nunca R (y paquetes complementarios). Obviamente no se han incluido todas las librerías de R disponibles en el CRAN, simplemente se ha hecho una (amplia) selección (sobre todo de paquetes bioestadísticos y epidemiológicos). A ese trabajo le hemos llamado BioStasFLOSS. NOTA(1): Sabiendo que FLOSS son las siglas de "Free/Libre Open Source Software" creo que el nombre es autoexplicativo. NOTA(2): Todo el software incluido es de libre distribución y prácticamente todo es Open Source. La URL de referencia de BioStatFLOSS es http://www.sergas.es/MostrarContidos_N3_T01.aspx?IdPaxina=62658&idioma=es desde donde podéis descargarlo (es un fichero ZIP de algo más de 1Gb). También hay un email de contacto en el que serán bienvenidos los comentarios, sugerencias, ... que tengáis a bien realizar. Esperamos que, aparte de a nosotros, le resulte a alguien de utilidad. Un Saludo, _____________________________ Miguel Ángel Rodríguez Muíños Dirección Xeral de Innovación e Xestión da Saúde Pública Consellería de Sanidade Xunta de Galicia http://dxsp.sergas.es Nota: A información contida nesta mensaxe e os seus posibles documentos adxuntos é privada e confidencial e está dirixida únicamente ó seu destinatario/a. Se vostede non é o/a destinatario/a orixinal desta mensaxe, por favor elimínea. A distribución ou copia desta mensaxe non está autorizada. Nota: La información contenida en este mensaje y sus posibles documentos adjuntos es privada y confidencial y está dirigida únicamente a su destinatario/a. Si usted no es el/la destinatario/a original de este mensaje, por favor elimínelo. La distribución o copia de este mensaje no está autorizada. See more languages: http://www.sergas.es/aviso_confidencialidad.htm ------------ próxima parte ------------ A non-text attachment was scrubbed... Name: Captura.JPG Type: image/jpeg Size: 73041 bytes Desc: Captura.JPG URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20121026/91f403a1/attachment-0001.jpe>