Buenos días, estoy realizando análisis de texto con Twitter y tengo un problema con unos carácteres que no logro quitar. Són cadenas de letras con forma similar a *xaexdfxdeaxoa*. Creo que surgen de la códificación de los emojis. Yo suelo utilizar, más o menos el siguiente codigo con gsub para limpiar texto, pero no me sirve # remove rt x = gsub("rt", "", x) # remove at x = gsub("@\\w+", "", x) # remove punctuation x = gsub("[[:punct:]]", "", x) # remove numbers x = gsub("[[:digit:]]", "", x) # remove links http x = gsub("http\\w+", "", x) # remove tabs x = gsub("[ |\t]{2,}", "", x) # remove blank spaces at the beginning x = gsub("^ ", "", x) # remove blank spaces at the end x = gsub(" $", "", x) ¿Alguna forma de eliminarlos? Muchas gracias!!! -- Rubén. [[alternative HTML version deleted]]
javier.ruben.marcuzzi en gmail.com
2016-Sep-12 20:37 UTC
[R-es] Borrar carácteres extraños /xax
Estimado Rubén Tobalina Ramirez Puede ser un problema el tener como regla el buscar un parámetro, porque de pronto una palabra contiene justo esa secuencia de letras, por lo cuál yo buscaría las letras en forma que no queden dudas, me tomaría el trabajo de hacer o buscar un diccionario emojis a eliminar o traducir. De: Ruben Tobalina Ramirez [[alternative HTML version deleted]]
Buenos dias, Muchas gracias Rubén, tocayo. Ya me temía que la solución fuera esa. Estube mirando por los foros y vi que todas las soluciones eran crear un diccionario de palabras que se identificaran con los códigos de los emoji. Lo más fácil será crear un archivo con los códigos y borrarlos con removeWords del paquete tm. Un saludo! El 12 de septiembre de 2016, 22:37, <javier.ruben.marcuzzi en gmail.com> escribió:> > > Estimado Rubén Tobalina Ramirez > > > > Puede ser un problema el tener como regla el buscar un parámetro, porque > de pronto una palabra contiene justo esa secuencia de letras, por lo cuál > yo buscaría las letras en forma que no queden dudas, me tomaría el trabajo > de hacer o buscar un diccionario emojis a eliminar o traducir. > > > > *De: *Ruben Tobalina Ramirez <lagrimaescrita en gmail.com> > *Enviado: *viernes, 9 de septiembre de 2016 4:16 > *Para: *r-help-es <r-help-es en r-project.org> > *Asunto: *[R-es] Borrar carácteres extraños /xax > > > > Buenos días, > > > > estoy realizando análisis de texto con Twitter y tengo un problema con unos > > carácteres que no logro quitar. Són cadenas de letras con forma similar a > > *xaexdfxdeaxoa*. Creo que surgen de la códificación de los emojis. > > > > Yo suelo utilizar, más o menos el siguiente codigo con gsub para limpiar > > texto, pero no me sirve > > > > # remove rt > > x = gsub("rt", "", x) > > # remove at > > x = gsub("@\\w+", "", x) > > # remove punctuation > > x = gsub("[[:punct:]]", "", x) > > # remove numbers > > x = gsub("[[:digit:]]", "", x) > > # remove links http > > x = gsub("http\\w+", "", x) > > # remove tabs > > x = gsub("[ |\t]{2,}", "", x) > > # remove blank spaces at the beginning > > x = gsub("^ ", "", x) > > # remove blank spaces at the end > > x = gsub(" $", "", x) > > > > ¿Alguna forma de eliminarlos? > > > > Muchas gracias!!! > > > > -- > > Rubén. > > > > [[alternative HTML version deleted]] > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es en r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > >-- Rubén. [[alternative HTML version deleted]]