Hola, Hay una adaptación específica a R de una solución comercial, pero que se puede usar hasta cierto número de llamdas: pdftools https://cloud.r-project.org/web/packages/pdftools/index.html Saludos, Carlos Ortega www.qualityexcellence.es El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es> escribió:> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener > mucho cuidado con los PDF, porque lo que aparentemente es homogéneo > (visualmente ves todos los documentos igual), resulta que no lo es, y te > encuentras "saltos" de página, códigos de cabeceras de tabla, etc. > Colocados > de forma diferente según el ejemplar de PDF. > Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar > margen de error (contemplando toda la casuística que puedas encontrar por > el > camino). En fin, perdona el rollo... > Suerte. > > > Isidro Hidalgo Arellano > Observatorio del Mercado de Trabajo > Consejería de Economía, Empresas y Empleo > http://www.castillalamancha.es/ > > > > -----Mensaje original----- > De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Manuel > Spínola > Enviado el: viernes, 29 de septiembre de 2017 16:47 > Para: R <r-help-es en r-project.org> > Asunto: [R-es] Minería de testo en R > > Estimados miembros del grupo, > > Estoy buscando paquetes de R que permitan hacer minería de textos de > archivos PDF o Word que tengan una estructura tabular (cuadros) de > resultado > de talleres de trabajo donde se tratan diferentes ejes temáticos. > > Especifico esto porque he visto que algunos paquetes analizan directamente > texto de libros, tweets u otras fuentes donde no hay una estructura como > cuadros en el texto que se quiere analizar. > > Desde ya muchas gracias por la ayuda. > > Saludos, > > Manuel > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr > <mspinola en una.ac.cr> mspinola10 en gmail.com > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río <https://sites.google.com/ > site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Muchas gracias Carlos. Manuel El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en qualityexcellence.es> escribió:> Hola, > > Hay una adaptación específica a R de una solución comercial, pero que se > puede usar hasta cierto número de llamdas: pdftools > > https://cloud.r-project.org/web/packages/pdftools/index.html > > Saludos, > Carlos Ortega > www.qualityexcellence.es > > El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es> > escribió: > >> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener >> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo >> (visualmente ves todos los documentos igual), resulta que no lo es, y te >> encuentras "saltos" de página, códigos de cabeceras de tabla, etc. >> Colocados >> de forma diferente según el ejemplar de PDF. >> Si quieres algo que no falle, tendrás que trabajarlo bastante para no >> dejar >> margen de error (contemplando toda la casuística que puedas encontrar por >> el >> camino). En fin, perdona el rollo... >> Suerte. >> >> >> Isidro Hidalgo Arellano >> Observatorio del Mercado de Trabajo >> Consejería de Economía, Empresas y Empleo >> http://www.castillalamancha.es/ >> >> >> >> -----Mensaje original----- >> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de >> Manuel >> Spínola >> Enviado el: viernes, 29 de septiembre de 2017 16:47 >> Para: R <r-help-es en r-project.org> >> Asunto: [R-es] Minería de testo en R >> >> Estimados miembros del grupo, >> >> Estoy buscando paquetes de R que permitan hacer minería de textos de >> archivos PDF o Word que tengan una estructura tabular (cuadros) de >> resultado >> de talleres de trabajo donde se tratan diferentes ejes temáticos. >> >> Especifico esto porque he visto que algunos paquetes analizan directamente >> texto de libros, tweets u otras fuentes donde no hay una estructura como >> cuadros en el texto que se quiere analizar. >> >> Desde ya muchas gracias por la ayuda. >> >> Saludos, >> >> Manuel >> >> -- >> *Manuel Spínola, Ph.D.* >> Instituto Internacional en Conservación y Manejo de Vida Silvestre >> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA >> mspinola en una.cr >> <mspinola en una.ac.cr> mspinola10 en gmail.com >> Teléfono: (506) 8706 - 4662 >> Personal website: Lobito de río <https://sites.google.com/site >> /lobitoderio/> >> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> >> >> [[alternative HTML version deleted]] >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es >-- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr <mspinola en una.ac.cr> mspinola10 en gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]]
Pido disculpas por el error ortográfico en el subject, no me di cuenta. Manuel El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinola10 en gmail.com> escribió:> Muchas gracias Carlos. > > Manuel > > El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en qualityexcellence.es> > escribió: > >> Hola, >> >> Hay una adaptación específica a R de una solución comercial, pero que se >> puede usar hasta cierto número de llamdas: pdftools >> >> https://cloud.r-project.org/web/packages/pdftools/index.html >> >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> >> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es> >> escribió: >> >>> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener >>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo >>> (visualmente ves todos los documentos igual), resulta que no lo es, y te >>> encuentras "saltos" de página, códigos de cabeceras de tabla, etc. >>> Colocados >>> de forma diferente según el ejemplar de PDF. >>> Si quieres algo que no falle, tendrás que trabajarlo bastante para no >>> dejar >>> margen de error (contemplando toda la casuística que puedas encontrar >>> por el >>> camino). En fin, perdona el rollo... >>> Suerte. >>> >>> >>> Isidro Hidalgo Arellano >>> Observatorio del Mercado de Trabajo >>> Consejería de Economía, Empresas y Empleo >>> http://www.castillalamancha.es/ >>> >>> >>> >>> -----Mensaje original----- >>> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de >>> Manuel >>> Spínola >>> Enviado el: viernes, 29 de septiembre de 2017 16:47 >>> Para: R <r-help-es en r-project.org> >>> Asunto: [R-es] Minería de testo en R >>> >>> Estimados miembros del grupo, >>> >>> Estoy buscando paquetes de R que permitan hacer minería de textos de >>> archivos PDF o Word que tengan una estructura tabular (cuadros) de >>> resultado >>> de talleres de trabajo donde se tratan diferentes ejes temáticos. >>> >>> Especifico esto porque he visto que algunos paquetes analizan >>> directamente >>> texto de libros, tweets u otras fuentes donde no hay una estructura como >>> cuadros en el texto que se quiere analizar. >>> >>> Desde ya muchas gracias por la ayuda. >>> >>> Saludos, >>> >>> Manuel >>> >>> -- >>> *Manuel Spínola, Ph.D.* >>> Instituto Internacional en Conservación y Manejo de Vida Silvestre >>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA >>> mspinola en una.cr >>> <mspinola en una.ac.cr> mspinola10 en gmail.com >>> Teléfono: (506) 8706 - 4662 >>> Personal website: Lobito de río <https://sites.google.com/site >>> /lobitoderio/> >>> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> >>> >>> [[alternative HTML version deleted]] >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> > > > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional > Apartado 1350-3000 > Heredia > COSTA RICA > mspinola en una.cr <mspinola en una.ac.cr> > mspinola10 en gmail.com > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río > <https://sites.google.com/site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> >-- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr <mspinola en una.ac.cr> mspinola10 en gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]]