Buenas tardes
¿Te refieres a leer el archivo del disco para que R trabaje sobre estos?
Esto dependerá del sistema operativo y la localización en la computadora.
Hay un paquete pdftools, podría ser útil para su caso.
Javier
> El 25 nov 2024, a las 1:38?a. m., Javier Gómez Gonzalez <zaragatan en
gmail.com> escribió:
>
> Muy buenas:
>
> He encontrado el paquete textreuse y lo quiero utilizar para comparar dos
> archivos pdf.
>
> Me ha sido imposible cargar los archivos para utilizar las funciones
> TextReuseCorpus() o TextReuseTextDocument().
>
> En la documentación del paquete los archivos los cargan desde
>
> ¿Alguien sabe cómo se hace?
>
> He conseguido calcular la similitud de jaccard utilizando este paquete,
> pero para ello he empleado el siguiente código.
>
> library(pdftools)
>
> library(textreuse)
>
> text1 <- pdf_text("uno.pdf")
>
> text2 <- pdf_text("dos.pdf")
>
> full_text1 <- paste(text1, collapse = " ")
>
> full_text2 <- paste(text2, collapse = " ")
>
> a <- tokenize_words(full_text1)
>
> b <- tokenize_words(full_text2)
>
> jaccard_similarity(a, b)
>
>
> Gracias
>
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es