Estimados miembros del grupo, Estoy buscando paquetes de R que permitan hacer minería de textos de archivos PDF o Word que tengan una estructura tabular (cuadros) de resultado de talleres de trabajo donde se tratan diferentes ejes temáticos. Especifico esto porque he visto que algunos paquetes analizan directamente texto de libros, tweets u otras fuentes donde no hay una estructura como cuadros en el texto que se quiere analizar. Desde ya muchas gracias por la ayuda. Saludos, Manuel -- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr <mspinola en una.ac.cr> mspinola10 en gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]]
Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener mucho cuidado con los PDF, porque lo que aparentemente es homogéneo (visualmente ves todos los documentos igual), resulta que no lo es, y te encuentras "saltos" de página, códigos de cabeceras de tabla, etc. Colocados de forma diferente según el ejemplar de PDF. Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar margen de error (contemplando toda la casuística que puedas encontrar por el camino). En fin, perdona el rollo... Suerte. Isidro Hidalgo Arellano Observatorio del Mercado de Trabajo Consejería de Economía, Empresas y Empleo http://www.castillalamancha.es/ -----Mensaje original----- De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Manuel Spínola Enviado el: viernes, 29 de septiembre de 2017 16:47 Para: R <r-help-es en r-project.org> Asunto: [R-es] Minería de testo en R Estimados miembros del grupo, Estoy buscando paquetes de R que permitan hacer minería de textos de archivos PDF o Word que tengan una estructura tabular (cuadros) de resultado de talleres de trabajo donde se tratan diferentes ejes temáticos. Especifico esto porque he visto que algunos paquetes analizan directamente texto de libros, tweets u otras fuentes donde no hay una estructura como cuadros en el texto que se quiere analizar. Desde ya muchas gracias por la ayuda. Saludos, Manuel -- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr <mspinola en una.ac.cr> mspinola10 en gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Hola, Hay una adaptación específica a R de una solución comercial, pero que se puede usar hasta cierto número de llamdas: pdftools https://cloud.r-project.org/web/packages/pdftools/index.html Saludos, Carlos Ortega www.qualityexcellence.es El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es> escribió:> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener > mucho cuidado con los PDF, porque lo que aparentemente es homogéneo > (visualmente ves todos los documentos igual), resulta que no lo es, y te > encuentras "saltos" de página, códigos de cabeceras de tabla, etc. > Colocados > de forma diferente según el ejemplar de PDF. > Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar > margen de error (contemplando toda la casuística que puedas encontrar por > el > camino). En fin, perdona el rollo... > Suerte. > > > Isidro Hidalgo Arellano > Observatorio del Mercado de Trabajo > Consejería de Economía, Empresas y Empleo > http://www.castillalamancha.es/ > > > > -----Mensaje original----- > De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Manuel > Spínola > Enviado el: viernes, 29 de septiembre de 2017 16:47 > Para: R <r-help-es en r-project.org> > Asunto: [R-es] Minería de testo en R > > Estimados miembros del grupo, > > Estoy buscando paquetes de R que permitan hacer minería de textos de > archivos PDF o Word que tengan una estructura tabular (cuadros) de > resultado > de talleres de trabajo donde se tratan diferentes ejes temáticos. > > Especifico esto porque he visto que algunos paquetes analizan directamente > texto de libros, tweets u otras fuentes donde no hay una estructura como > cuadros en el texto que se quiere analizar. > > Desde ya muchas gracias por la ayuda. > > Saludos, > > Manuel > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr > <mspinola en una.ac.cr> mspinola10 en gmail.com > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río <https://sites.google.com/ > site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Muchas gracias Isidro. Recién me doy cuenta del error ortográfico en el subject, test en lugar de texto. Manuel El 2 de octubre de 2017, 1:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es> escribió:> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener > mucho cuidado con los PDF, porque lo que aparentemente es homogéneo > (visualmente ves todos los documentos igual), resulta que no lo es, y te > encuentras "saltos" de página, códigos de cabeceras de tabla, etc. > Colocados > de forma diferente según el ejemplar de PDF. > Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar > margen de error (contemplando toda la casuística que puedas encontrar por > el > camino). En fin, perdona el rollo... > Suerte. > > > Isidro Hidalgo Arellano > Observatorio del Mercado de Trabajo > Consejería de Economía, Empresas y Empleo > http://www.castillalamancha.es/ > > > > -----Mensaje original----- > De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Manuel > Spínola > Enviado el: viernes, 29 de septiembre de 2017 16:47 > Para: R <r-help-es en r-project.org> > Asunto: [R-es] Minería de testo en R > > Estimados miembros del grupo, > > Estoy buscando paquetes de R que permitan hacer minería de textos de > archivos PDF o Word que tengan una estructura tabular (cuadros) de > resultado > de talleres de trabajo donde se tratan diferentes ejes temáticos. > > Especifico esto porque he visto que algunos paquetes analizan directamente > texto de libros, tweets u otras fuentes donde no hay una estructura como > cuadros en el texto que se quiere analizar. > > Desde ya muchas gracias por la ayuda. > > Saludos, > > Manuel > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr > <mspinola en una.ac.cr> mspinola10 en gmail.com > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río <https://sites.google.com/ > site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >-- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr <mspinola en una.ac.cr> mspinola10 en gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]]