---------- Mensaje reenviado ----------
De: Manuel Spínola <mspinola10 en gmail.com>
Fecha: 2 de octubre de 2017, 5:47
Asunto: Re: [R-es] Minería de testo en R
Para: Carlos Ortega <cof en qualityexcellence.es>
Cc: Isidro Hidalgo Arellano <ihidalgo en jccm.es>, R <r-help-es en
r-project.org>
Pido disculpas por el error ortográfico en el subject, no me di cuenta.
Manuel
El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinola10 en gmail.com>
escribió:
> Muchas gracias Carlos.
>
> Manuel
>
> El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en
qualityexcellence.es>
> escribió:
>
>> Hola,
>>
>> Hay una adaptación específica a R de una solución comercial, pero que
se
>> puede usar hasta cierto número de llamdas: pdftools
>>
>> https://cloud.r-project.org/web/packages/pdftools/index.html
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en
jccm.es>
>> escribió:
>>
>>> Yo he utilizado "tm" para tratar PDF de forma masiva,
pero hay que tener
>>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
>>> (visualmente ves todos los documentos igual), resulta que no lo es,
y te
>>> encuentras "saltos" de página, códigos de cabeceras de
tabla, etc.
>>> Colocados
>>> de forma diferente según el ejemplar de PDF.
>>> Si quieres algo que no falle, tendrás que trabajarlo bastante para
no
>>> dejar
>>> margen de error (contemplando toda la casuística que puedas
encontrar
>>> por el
>>> camino). En fin, perdona el rollo...
>>> Suerte.
>>>
>>>
>>> Isidro Hidalgo Arellano
>>> Observatorio del Mercado de Trabajo
>>> Consejería de Economía, Empresas y Empleo
>>> http://www.castillalamancha.es/
>>>
>>>
>>>
>>> -----Mensaje original-----
>>> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre
de
>>> Manuel
>>> Spínola
>>> Enviado el: viernes, 29 de septiembre de 2017 16:47
>>> Para: R <r-help-es en r-project.org>
>>> Asunto: [R-es] Minería de testo en R
>>>
>>> Estimados miembros del grupo,
>>>
>>> Estoy buscando paquetes de R que permitan hacer minería de textos
de
>>> archivos PDF o Word que tengan una estructura tabular (cuadros) de
>>> resultado
>>> de talleres de trabajo donde se tratan diferentes ejes temáticos.
>>>
>>> Especifico esto porque he visto que algunos paquetes analizan
>>> directamente
>>> texto de libros, tweets u otras fuentes donde no hay una estructura
como
>>> cuadros en el texto que se quiere analizar.
>>>
>>> Desde ya muchas gracias por la ayuda.
>>>
>>> Saludos,
>>>
>>> Manuel
>>>
>>> --
>>> *Manuel Spínola, Ph.D.*
>>> Instituto Internacional en Conservación y Manejo de Vida Silvestre
>>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA
>>> mspinola en una.cr
>>> <mspinola en una.ac.cr> mspinola10 en gmail.com
>>> Teléfono: (506) 8706 - 4662
>>> Personal website: Lobito de río <https://sites.google.com/site
>>> /lobitoderio/>
>>> Institutional website: ICOMVIS
<http://www.icomvis.una.ac.cr/>
>>>
>>> [[alternative HTML version deleted]]
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>
>
>
> --
> *Manuel Spínola, Ph.D.*
> Instituto Internacional en Conservación y Manejo de Vida Silvestre
> Universidad Nacional
> Apartado 1350-3000
> Heredia
> COSTA RICA
> mspinola en una.cr <mspinola en una.ac.cr>
> mspinola10 en gmail.com
> Teléfono: (506) 8706 - 4662
> Personal website: Lobito de río
> <https://sites.google.com/site/lobitoderio/>
> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>
--
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional
Apartado 1350-3000
Heredia
COSTA RICA
mspinola en una.cr <mspinola en una.ac.cr>
mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río
<https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
--
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional
Apartado 1350-3000
Heredia
COSTA RICA
mspinola en una.cr <mspinola en una.ac.cr>
mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río
<https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
[[alternative HTML version deleted]]