thr3ads.net - R help es - [R-es] Minería de testo en R [Oct 2017]

If this information is useful, please help other people find it:
Share via:

Manuel Spínola

2017-Sep-29 14:47 UTC

[R-es] Minería de testo en R

Estimados miembros del grupo,

Estoy buscando paquetes de R que permitan hacer minería de textos de
archivos PDF o Word que tengan una estructura tabular (cuadros) de
resultado de talleres de trabajo donde se tratan diferentes ejes temáticos.

Especifico esto porque he visto que algunos paquetes analizan directamente
texto de libros, tweets u otras fuentes donde no hay una estructura como
cuadros en el texto que se quiere analizar.

Desde ya muchas gracias por la ayuda.

Saludos,

Manuel

-- 
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional
Apartado 1350-3000
Heredia
COSTA RICA
mspinola en una.cr <mspinola en una.ac.cr>
mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río
<https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>

	[[alternative HTML version deleted]]

Isidro Hidalgo Arellano

2017-Oct-02 07:22 UTC

head link

[R-es] Minería de testo en R

Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que
tener
mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
(visualmente ves todos los documentos igual), resulta que no lo es, y te
encuentras "saltos" de página, códigos de cabeceras de tabla, etc.
Colocados
de forma diferente según el ejemplar de PDF.
Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar
margen de error (contemplando toda la casuística que puedas encontrar por el
camino). En fin, perdona el rollo...
Suerte.


Isidro Hidalgo Arellano
Observatorio del Mercado de Trabajo
Consejería de Economía, Empresas y Empleo
http://www.castillalamancha.es/



-----Mensaje original-----
De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Manuel
Spínola
Enviado el: viernes, 29 de septiembre de 2017 16:47
Para: R <r-help-es en r-project.org>
Asunto: [R-es] Minería de testo en R

Estimados miembros del grupo,

Estoy buscando paquetes de R que permitan hacer minería de textos de
archivos PDF o Word que tengan una estructura tabular (cuadros) de resultado
de talleres de trabajo donde se tratan diferentes ejes temáticos.

Especifico esto porque he visto que algunos paquetes analizan directamente
texto de libros, tweets u otras fuentes donde no hay una estructura como
cuadros en el texto que se quiere analizar.

Desde ya muchas gracias por la ayuda.

Saludos,

Manuel

--
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr
<mspinola en una.ac.cr> mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río
<https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>

	[[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Carlos Ortega

2017-Oct-02 07:42 UTC

head link

[R-es] Minería de testo en R

Hola,

Hay una adaptación específica a R de una solución comercial, pero que se
puede usar hasta cierto número de llamdas: pdftools

https://cloud.r-project.org/web/packages/pdftools/index.html

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en
jccm.es>
escribió:
> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay
que tener
> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
> (visualmente ves todos los documentos igual), resulta que no lo es, y te
> encuentras "saltos" de página, códigos de cabeceras de tabla,
etc.
> Colocados
> de forma diferente según el ejemplar de PDF.
> Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar
> margen de error (contemplando toda la casuística que puedas encontrar por
> el
> camino). En fin, perdona el rollo...
> Suerte.
>
>
> Isidro Hidalgo Arellano
> Observatorio del Mercado de Trabajo
> Consejería de Economía, Empresas y Empleo
> http://www.castillalamancha.es/
>
>
>
> -----Mensaje original-----
> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de
Manuel
> Spínola
> Enviado el: viernes, 29 de septiembre de 2017 16:47
> Para: R <r-help-es en r-project.org>
> Asunto: [R-es] Minería de testo en R
>
> Estimados miembros del grupo,
>
> Estoy buscando paquetes de R que permitan hacer minería de textos de
> archivos PDF o Word que tengan una estructura tabular (cuadros) de
> resultado
> de talleres de trabajo donde se tratan diferentes ejes temáticos.
>
> Especifico esto porque he visto que algunos paquetes analizan directamente
> texto de libros, tweets u otras fuentes donde no hay una estructura como
> cuadros en el texto que se quiere analizar.
>
> Desde ya muchas gracias por la ayuda.
>
> Saludos,
>
> Manuel
>
> --
> *Manuel Spínola, Ph.D.*
> Instituto Internacional en Conservación y Manejo de Vida Silvestre
> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en
una.cr
> <mspinola en una.ac.cr> mspinola10 en gmail.com
> Teléfono: (506) 8706 - 4662
> Personal website: Lobito de río <https://sites.google.com/
> site/lobitoderio/>
> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

Manuel Spínola

2017-Oct-02 11:45 UTC

head link

[R-es] Minería de testo en R

Muchas gracias Isidro.  Recién me doy cuenta del error ortográfico en el
subject, test en lugar de texto.

Manuel

El 2 de octubre de 2017, 1:22, Isidro Hidalgo Arellano <ihidalgo en
jccm.es>
escribió:
> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay
que tener
> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
> (visualmente ves todos los documentos igual), resulta que no lo es, y te
> encuentras "saltos" de página, códigos de cabeceras de tabla,
etc.
> Colocados
> de forma diferente según el ejemplar de PDF.
> Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar
> margen de error (contemplando toda la casuística que puedas encontrar por
> el
> camino). En fin, perdona el rollo...
> Suerte.
>
>
> Isidro Hidalgo Arellano
> Observatorio del Mercado de Trabajo
> Consejería de Economía, Empresas y Empleo
> http://www.castillalamancha.es/
>
>
>
> -----Mensaje original-----
> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de
Manuel
> Spínola
> Enviado el: viernes, 29 de septiembre de 2017 16:47
> Para: R <r-help-es en r-project.org>
> Asunto: [R-es] Minería de testo en R
>
> Estimados miembros del grupo,
>
> Estoy buscando paquetes de R que permitan hacer minería de textos de
> archivos PDF o Word que tengan una estructura tabular (cuadros) de
> resultado
> de talleres de trabajo donde se tratan diferentes ejes temáticos.
>
> Especifico esto porque he visto que algunos paquetes analizan directamente
> texto de libros, tweets u otras fuentes donde no hay una estructura como
> cuadros en el texto que se quiere analizar.
>
> Desde ya muchas gracias por la ayuda.
>
> Saludos,
>
> Manuel
>
> --
> *Manuel Spínola, Ph.D.*
> Instituto Internacional en Conservación y Manejo de Vida Silvestre
> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en
una.cr
> <mspinola en una.ac.cr> mspinola10 en gmail.com
> Teléfono: (506) 8706 - 4662
> Personal website: Lobito de río <https://sites.google.com/
> site/lobitoderio/>
> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>

-- 
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional
Apartado 1350-3000
Heredia
COSTA RICA
mspinola en una.cr <mspinola en una.ac.cr>
mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río
<https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>

	[[alternative HTML version deleted]]

Possibly Parallel Threads

Search for more reasonably related threads

R help es - Oct 2017 - Minería de testo en R

[R-es] Minería de testo en R

[R-es] Minería de testo en R

[R-es] Minería de testo en R

[R-es] Minería de testo en R

Possibly Parallel Threads