Displaying 20 results from an estimated 2000 matches similar to: "Question on Stopword Removal from a Cyrillic (Bulgarian)Text"
2008 Apr 30
2
Multilingual application on Mac OS X
I have installed wine package from http://thisismyinter.net/?p=29 on Mac OS X v10.5 Leopard. It works, except this http://www.thediction.com/ program don't accept Bulgarian input.
I have successfully use it on Linux with "LANG=bg_BG.CP1251 wine Diction.exe", when that locale is installed. I don't know how to achieve this on Mac. "LANG=bg_BG.UTF8 wine Diction.exe" dos
2009 Nov 12
2
package "tm" fails to remove "the" with remove stopwords
I am using code that previously worked to remove stopwords using package
"tm". Even manually adding "the" to the list does not work to remove "the".
This package has undergone extensive redevelopment with changes to the
function syntax, so perhaps I am just missing something.
Please see my simple example, output, and sessionInfo() below.
Thanks!
Mark
require(tm)
2009 Dec 20
1
utf8 postscript cyrillic
Dear R users,
I am running R version 2.10.0 (2009-10-26). I need to prepare an eps
graphic with a legend with cyrillic words. I tried setting the encoding
parameter of the postscript command, but in vain, nothing seems to work. I
tried with CP1251, KOI8-R, UTF-8 and Cyrillic (UTF-8 turned out to not be
available under /usr/lib/R/library/grDevices/enc). All I get is ????????
in the final
2006 Oct 29
3
rsync+iconv
Wayne Davison wrote:
> On Fri, Oct 27, 2006 at 04:19:06PM +0600, Yakov Hrebtov wrote:
>> This test compiles and executes without "failed" message. Hence
>> iconv_open("UTF-8","CP1251") succeeded.
>
> Check to see if the two programs are linking differently. Perhaps
> configure decided that it needed -liconv when that that library
>
2012 Oct 25
2
Minería de texto
Cordial Saludo
Actualmente estoy realizando una función para gráficar una nube de palabras el código que tengo es el siguiente:
library(twitteR)library(tm)library(wordcloud)library(RXKCD)library(RColorBrewer)
tweets=searchTwitter(''@afflorezr'', n=1500)
generateCorpus= function(tweets,my.stopwords=c(),min.freq){ #Install the textmining library require(tm) require(wordcloud)
2015 Apr 10
5
Loop sobre muchos data frames
Jorge
Gracias por el consejo. Aparentemente no lo estoy aplicando bien, pues el
objeto que obtengo no contiene lo que quiero.
Me explico, al ejecutar
txt <- vector('list', length = length(names)) #names el el vector donde ya
tenía almacenada la lista de txt's
for(i in seq_along(txt)){
txt[[i]] <- Corpus(VectorSource(names[i]))
}
obtengo el objeto txt:
> class(txt)
[1]
2017 Aug 28
3
[bug report] Cyrillic letter "я" interrupts script execution via R source function
Hello,
I do not have an account on R Bugzilla, so I will post my bug report here.
I want to report a very old bug in base R *source()* function. It relates
to sourcing some R scripts in UTF-8 encoding on Windows machines. For some
reason if the UTF-8 script is containing cyrillic letter *"?"*, the script
execution is interrupted directly on this letter (btw the same scripts are
sourcing
2012 Dec 13
2
Tamaño de la matriz de términos y memoria. Paquete TM
Hola a todos!
Tengo algunos problemas con el tamaño de la matriz de términos que obtengo. Los comandos que utilizo son los siguientes:
# carga librerias
library(tm)
library(wordcloud)
library(Rstem)
library(Snowball)
# lee el documento UTF-8 y lo convierte a ASCII
txt <-
2015 Apr 10
3
Loop sobre muchos data frames
Hola a todos!
Estoy en un proyecto de text mining y por razones de los recursos con que
cuento tuve que separar los archivos de texto de input del proyecto en
muchos archivos pequeños.
Luego de transformar cada uno de estos archivos en un corpus separado,
puedo aplicar limpieza sobre cada corpus, buscar n-gramas, construir cada
termDocumentMatrix y finalmente reunir todo en una sola TDM.
Pero
2015 Apr 12
2
Loop sobre muchos data frames
Jorge, estimados colaboradores de R-help
Estuve tratando de utilizar un script para uno de los pasos en mi análisis,
que es transformar cada uno de los corpus en mi espacio de trabajo en un
objeto TermDocumentMatrix
Tengo un vector llamado bNames que lista todos los corpus que quiero pasar
a TDM, y construí los siguientes comandos:
tdm.n1 <- vector('list', length = length(bNames))
2009 Mar 26
1
ideas on picking stopwords
I'm looking at adding some stopwords to my indexing procedure, and was
wondering if anyone had any good rules of thumb on how to pick which
words to blacklist. It all seems a little... well... vague. Although I
guess it kind of depends on the sort of documents you're wanting to index.
My current idea is to write a little script to output the terms with the
highest frequency in my
2014 Jun 17
2
No es un problema de tm tienes doc.corpus vacío
No es un problema de tm ni de SnowfallC ni de mcapply (por el path
utilizas linux, en windows mcapply según el manual no va bien)
No defines bien los objetos que pasas. Pasas doc.corpus en lugar de
corpus ( o asignas a corpus en lugar de a doc.corpus) .
Depura los programas cuando salga un error de objeto, como te pone en el
Error que pasas .
Temporalmente lo tienes arreglado en
2014 Jul 22
2
Ayuda Error in `colnames<-`(`*tmp*`, value = c(
Buenas tardes, grupo.
Estoy tratando de hacer la comparación de dos archivos de una misma
organización para encontrar las diferencias entre su informe del tema
edl año 2005 y el del año 2013:
Todos los comandos van bien, a exepción del último "colnames", como se
ve en la siguiente secuencia:
> pdf1<-"./PLAN de INSPECCIONES/05_seguridad_ciudadana.pdf"
>
2014 Jun 18
2
No es un problema de tm tienes doc.corpus vacío
Creo que lo que quieres hacer necesita esta línea de código justo después de
cargar el paquete tm:
inmortal = unlist(strsplit(inmortal, " ", fixed = T))
De esta forma, trabajas con palabras, y NO con las frases enteras...
Un saludo
Isidro Hidalgo Arellano
Observatorio Regional de Empleo
Consejería de Empleo y Economía
http://www.jccm.es
> -----Mensaje original-----
> De:
2013 Feb 21
4
Getting htmlParse to work with Hebrew? (on windows)
Hello dear R-help mailing list.
Looks like the same issue in Russian:
library(RCurl)
library(XML)
u = " http://www.cian.ru/cat.php?deal_type=2&obl_id=1&room1=1"
a = getURL(u)
a # Here - the Russian is fine.
a2 <- htmlParse(a)
a2 # Here it is a mess...
None of these seem to fix it:
htmlParse(a, encoding = "windows-1251")
htmlParse(a, encoding =
2007 Jan 19
9
Double-quoted query with "and" fails.
Hi,
We''re using Ferret 0.9.4 and we''ve observed the following behavior.
Searching for ''fieldname: foo and bar'' works fine while ''fieldname:
"foo and bar"'' doesn''t return any results. Is there a way to make
ferret recognize the ''and'' inside the query as a search term and not
an operator? (I hope I got the
2014 Jun 18
3
No es un problema de tm tienes doc.corpus vacío
Muchas gracias isidro,
a la noche reinstalo R y os digo si me ha funcionado. Perdona mi ignorancia
de novato pero no he entendido muy bien eso de avisar al desarrollador.
Entiendo que es a los de los paquetes, no?
un saludo!
ruben
El 18 de junio de 2014, 13:10, Isidro Hidalgo <ihidalgo@jccm.es> escribió:
> Ya he visto que tampoco así funciona.
> Sí te puedo decir que me ha dejado
2012 Jan 27
2
tm package: handling contractions
I tried making a wordcloud of Obama's State of the Union address using
the tm package to process the text
sotu <- scan(file="c:/R/data/sotu2012.txt", what="character")
sotu <- tolower(sotu)
corp <-Corpus(VectorSource(paste(sotu, collapse=" ")))
corp <- tm_map(corp, removePunctuation)
corp <- tm_map(corp, stemDocument)
corp <- tm_map(corp,
2015 Aug 15
2
New desktop oriented Linux distribution based on CentOS 6
Hi,
for those interested we are working on a CentOS 6 based Linux
distribution for Bulgarian users called StotinkaOS.
Te project ships with own repository containing many useful desktop and
system applications also other third-party software repositories enabled
by default, including RPMFusion and Fedora's EPEL repository.
You can read more about it here (in bulgarian) :
2014 Jul 29
2
wordcloud y tabla de palabras [Avanzando]
Buenas tardes grupo. Saludos cordiales Carlos J., muchas gracias por
tu orientación. Efectivamente, me había dado cuenta que la razón por
la que no se aplicaba colnames era porque no tenía columnas. La
cuestión es que no logro visualizar completamente/claramente en qué
parte del proceso de creación del corpus se puede hacer.
Sin embargo, siguiendo el ejemplo de