thr3ads.net - R help es - [R-es] Minería de testo en R [Oct 2017]

If this information is useful, please help other people find it:
Share via:

Carlos Ortega

2017-Oct-02 07:42 UTC

[R-es] Minería de testo en R

Hola,

Hay una adaptación específica a R de una solución comercial, pero que se
puede usar hasta cierto número de llamdas: pdftools

https://cloud.r-project.org/web/packages/pdftools/index.html

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en
jccm.es>
escribió:
> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay
que tener
> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
> (visualmente ves todos los documentos igual), resulta que no lo es, y te
> encuentras "saltos" de página, códigos de cabeceras de tabla,
etc.
> Colocados
> de forma diferente según el ejemplar de PDF.
> Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar
> margen de error (contemplando toda la casuística que puedas encontrar por
> el
> camino). En fin, perdona el rollo...
> Suerte.
>
>
> Isidro Hidalgo Arellano
> Observatorio del Mercado de Trabajo
> Consejería de Economía, Empresas y Empleo
> http://www.castillalamancha.es/
>
>
>
> -----Mensaje original-----
> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de
Manuel
> Spínola
> Enviado el: viernes, 29 de septiembre de 2017 16:47
> Para: R <r-help-es en r-project.org>
> Asunto: [R-es] Minería de testo en R
>
> Estimados miembros del grupo,
>
> Estoy buscando paquetes de R que permitan hacer minería de textos de
> archivos PDF o Word que tengan una estructura tabular (cuadros) de
> resultado
> de talleres de trabajo donde se tratan diferentes ejes temáticos.
>
> Especifico esto porque he visto que algunos paquetes analizan directamente
> texto de libros, tweets u otras fuentes donde no hay una estructura como
> cuadros en el texto que se quiere analizar.
>
> Desde ya muchas gracias por la ayuda.
>
> Saludos,
>
> Manuel
>
> --
> *Manuel Spínola, Ph.D.*
> Instituto Internacional en Conservación y Manejo de Vida Silvestre
> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en
una.cr
> <mspinola en una.ac.cr> mspinola10 en gmail.com
> Teléfono: (506) 8706 - 4662
> Personal website: Lobito de río <https://sites.google.com/
> site/lobitoderio/>
> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

Manuel Spínola

2017-Oct-02 11:46 UTC

head link

[R-es] Minería de testo en R

Muchas gracias Carlos.

Manuel

El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en qualityexcellence.es>
escribió:
> Hola,
>
> Hay una adaptación específica a R de una solución comercial, pero que se
> puede usar hasta cierto número de llamdas: pdftools
>
> https://cloud.r-project.org/web/packages/pdftools/index.html
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en
jccm.es>
> escribió:
>
>> Yo he utilizado "tm" para tratar PDF de forma masiva, pero
hay que tener
>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
>> (visualmente ves todos los documentos igual), resulta que no lo es, y
te
>> encuentras "saltos" de página, códigos de cabeceras de tabla,
etc.
>> Colocados
>> de forma diferente según el ejemplar de PDF.
>> Si quieres algo que no falle, tendrás que trabajarlo bastante para no
>> dejar
>> margen de error (contemplando toda la casuística que puedas encontrar
por
>> el
>> camino). En fin, perdona el rollo...
>> Suerte.
>>
>>
>> Isidro Hidalgo Arellano
>> Observatorio del Mercado de Trabajo
>> Consejería de Economía, Empresas y Empleo
>> http://www.castillalamancha.es/
>>
>>
>>
>> -----Mensaje original-----
>> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de
>> Manuel
>> Spínola
>> Enviado el: viernes, 29 de septiembre de 2017 16:47
>> Para: R <r-help-es en r-project.org>
>> Asunto: [R-es] Minería de testo en R
>>
>> Estimados miembros del grupo,
>>
>> Estoy buscando paquetes de R que permitan hacer minería de textos de
>> archivos PDF o Word que tengan una estructura tabular (cuadros) de
>> resultado
>> de talleres de trabajo donde se tratan diferentes ejes temáticos.
>>
>> Especifico esto porque he visto que algunos paquetes analizan
directamente
>> texto de libros, tweets u otras fuentes donde no hay una estructura
como
>> cuadros en el texto que se quiere analizar.
>>
>> Desde ya muchas gracias por la ayuda.
>>
>> Saludos,
>>
>> Manuel
>>
>> --
>> *Manuel Spínola, Ph.D.*
>> Instituto Internacional en Conservación y Manejo de Vida Silvestre
>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA
>> mspinola en una.cr
>> <mspinola en una.ac.cr> mspinola10 en gmail.com
>> Teléfono: (506) 8706 - 4662
>> Personal website: Lobito de río <https://sites.google.com/site
>> /lobitoderio/>
>> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>>
>>         [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>


-- 
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional
Apartado 1350-3000
Heredia
COSTA RICA
mspinola en una.cr <mspinola en una.ac.cr>
mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río
<https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>

	[[alternative HTML version deleted]]

Manuel Spínola

2017-Oct-02 11:47 UTC

head link

[R-es] Minería de testo en R

Pido disculpas por el error ortográfico en el subject, no me di cuenta.

Manuel

El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinola10 en gmail.com>
escribió:
> Muchas gracias Carlos.
>
> Manuel
>
> El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en
qualityexcellence.es>
> escribió:
>
>> Hola,
>>
>> Hay una adaptación específica a R de una solución comercial, pero que
se
>> puede usar hasta cierto número de llamdas: pdftools
>>
>> https://cloud.r-project.org/web/packages/pdftools/index.html
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en
jccm.es>
>> escribió:
>>
>>> Yo he utilizado "tm" para tratar PDF de forma masiva,
pero hay que tener
>>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
>>> (visualmente ves todos los documentos igual), resulta que no lo es,
y te
>>> encuentras "saltos" de página, códigos de cabeceras de
tabla, etc.
>>> Colocados
>>> de forma diferente según el ejemplar de PDF.
>>> Si quieres algo que no falle, tendrás que trabajarlo bastante para
no
>>> dejar
>>> margen de error (contemplando toda la casuística que puedas
encontrar
>>> por el
>>> camino). En fin, perdona el rollo...
>>> Suerte.
>>>
>>>
>>> Isidro Hidalgo Arellano
>>> Observatorio del Mercado de Trabajo
>>> Consejería de Economía, Empresas y Empleo
>>> http://www.castillalamancha.es/
>>>
>>>
>>>
>>> -----Mensaje original-----
>>> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre
de
>>> Manuel
>>> Spínola
>>> Enviado el: viernes, 29 de septiembre de 2017 16:47
>>> Para: R <r-help-es en r-project.org>
>>> Asunto: [R-es] Minería de testo en R
>>>
>>> Estimados miembros del grupo,
>>>
>>> Estoy buscando paquetes de R que permitan hacer minería de textos
de
>>> archivos PDF o Word que tengan una estructura tabular (cuadros) de
>>> resultado
>>> de talleres de trabajo donde se tratan diferentes ejes temáticos.
>>>
>>> Especifico esto porque he visto que algunos paquetes analizan
>>> directamente
>>> texto de libros, tweets u otras fuentes donde no hay una estructura
como
>>> cuadros en el texto que se quiere analizar.
>>>
>>> Desde ya muchas gracias por la ayuda.
>>>
>>> Saludos,
>>>
>>> Manuel
>>>
>>> --
>>> *Manuel Spínola, Ph.D.*
>>> Instituto Internacional en Conservación y Manejo de Vida Silvestre
>>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA
>>> mspinola en una.cr
>>> <mspinola en una.ac.cr> mspinola10 en gmail.com
>>> Teléfono: (506) 8706 - 4662
>>> Personal website: Lobito de río <https://sites.google.com/site
>>> /lobitoderio/>
>>> Institutional website: ICOMVIS
<http://www.icomvis.una.ac.cr/>
>>>
>>>         [[alternative HTML version deleted]]
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>
>
>
> --
> *Manuel Spínola, Ph.D.*
> Instituto Internacional en Conservación y Manejo de Vida Silvestre
> Universidad Nacional
> Apartado 1350-3000
> Heredia
> COSTA RICA
> mspinola en una.cr <mspinola en una.ac.cr>
> mspinola10 en gmail.com
> Teléfono: (506) 8706 - 4662
> Personal website: Lobito de río
> <https://sites.google.com/site/lobitoderio/>
> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>


-- 
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional
Apartado 1350-3000
Heredia
COSTA RICA
mspinola en una.cr <mspinola en una.ac.cr>
mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río
<https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>

	[[alternative HTML version deleted]]

Reasonably Related Threads

Search for more maybe matching threads

R help es - Oct 2017 - Minería de testo en R

[R-es] Minería de testo en R

[R-es] Minería de testo en R

[R-es] Minería de testo en R

Reasonably Related Threads