Pedro Concejero Cerezo
2024-Nov-26 12:23 UTC
[R-es] Resumen de R-help-es, Vol 187, Envío 10
Ayer mandé esta respuesta pero parece que no llegó, parece mentira que no recuerde utilizar la lista. Disculpas si sale repetida. Javier, el paquete textreuse lo que hace es añadir metadatos de pre-proceso a la lectura de ficheros de texto, y por tanto parte de fichero. No lo conocía, pero leyendo https://cran.r-project.org/web/packages/textreuse/vignettes/textreuse-introduction.html verás que tanto TextReuseTextDocument como TextReuseTextCorpus tienen como input rutas de sistema (a fichero -solo .txt? no sé, habría que mirar; o a directorio, respectivamente). En cambio el código que adjuntas lo que hace es generar dos objetos (text1 y text2) y concatenar las palabras con paste. Ese paquete menciona que permite manejar "corpora" del paquete tm. En text mining, el proceso suele ser 1. generar un corpus 2. generar tokens (pueden ser bi-tri-n-gramas) 3. generar matrices dfm 4. hacer cálculos sobre ellas. tm es quizás un poco engorroso, por lo que yo siempre recomiendo quanteda. https://quanteda.io/articles/quickstart.html Y en concreto para lo de medir distancias: https://quanteda.io/reference/textstat_simil.html Pero, oye, a lo mejor lo que te ha calculado te vale. No sé, como te digo no aclaras el objeto de tu trabajo. El 25/11/24 a las 12:00, r-help-es-request en r-project.org escribió:> Envíe los mensajes para la lista R-help-es a > r-help-es en r-project.org > > Para subscribirse o anular su subscripción a través de la WEB > https://stat.ethz.ch/mailman/listinfo/r-help-es > > O por correo electrónico, enviando un mensaje con el texto "help" en > el asunto (subject) o en el cuerpo a: > r-help-es-request en r-project.org > > Puede contactar con el responsable de la lista escribiendo a: > r-help-es-owner en r-project.org > > Si responde a algún contenido de este mensaje, por favor, edite la > linea del asunto (subject) para que el texto sea mas especifico que: > "Re: Contents of R-help-es digest...". Además, por favor, incluya en > la respuesta sólo aquellas partes del mensaje a las que está > respondiendo. > > > Asuntos del día: > > 1. Problemas usando paquete textreuse (Javier Gómez Gonzalez) > > ---------------------------------------------------------------------- > > Message: 1 > Date: Mon, 25 Nov 2024 05:38:59 +0100 > From: Javier Gómez Gonzalez<zaragatan en gmail.com> > To: r-help-es<r-help-es en r-project.org> > Subject: [R-es] Problemas usando paquete textreuse > Message-ID: > <CANVm79mAiM42PHRSPPrwbwj2UbTC97zHu0ks616Os+EHHh3VAg en mail.gmail.com> > Content-Type: text/plain; charset="utf-8" > > Muy buenas: > > He encontrado el paquete textreuse y lo quiero utilizar para comparar dos > archivos pdf. > > Me ha sido imposible cargar los archivos para utilizar las funciones > TextReuseCorpus() o TextReuseTextDocument(). > > En la documentación del paquete los archivos los cargan desde > > ¿Alguien sabe cómo se hace? > > He conseguido calcular la similitud de jaccard utilizando este paquete, > pero para ello he empleado el siguiente código. > > library(pdftools) > > library(textreuse) > > text1 <- pdf_text("uno.pdf") > > text2 <- pdf_text("dos.pdf") > > full_text1 <- paste(text1, collapse = " ") > > full_text2 <- paste(text2, collapse = " ") > > a <- tokenize_words(full_text1) > > b <- tokenize_words(full_text2) > > jaccard_similarity(a, b) > > > Gracias > > [[alternative HTML version deleted]] > > > > > ------------------------------ > > Subject: Pié de página del digest > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > ------------------------------ > > Fin de Resumen de R-help-es, Vol 187, Envío 10 > **********************************************-- *Pedro Concejero E-mail: pedro.concejerocerezo en gmail.com skype: pedro.concejero twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro> linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es> eRReRo feliz, me puedes encontrar en gRupo R madRid <http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13> * [[alternative HTML version deleted]]