Estimados En ocasionas hay informaciones epidemiológicas en reportes pdf semanales como el que adjunto que quisiéramos llevar a csv o txt USANDO R para poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un script, el paquete pdftable no me resultó. Saludos José -- Este mensaje le ha llegado mediante el servicio de correo electronico que ofrece Infomed para respaldar el cumplimiento de las misiones del Sistema Nacional de Salud. La persona que envia este correo asume el compromiso de usar el servicio a tales fines y cumplir con las regulaciones establecidas Infomed: http://www.sld.cu/ ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20160910/1aa1a213/attachment-0001.html> ------------ próxima parte ------------ A non-text attachment was scrubbed... Name: 08-2016.pdf Type: application/pdf Size: 82737 bytes Desc: no disponible URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20160910/1aa1a213/attachment-0001.pdf>
Hola, ¿Has probado esto? https://cloud.r-project.org/web/packages/pdftools/index.html pdftools: Extract Text and Data from PDF Documents Utilities based on libpoppler for extracting text, fonts, attachments and metadata from a pdf file. Also implements rendering of PDF to bitmaps on supported platforms. Saludos, Carlos Ortega www.qualityexcellence.es El 11 de septiembre de 2016, 0:30, Dr. José A. Betancourt Bethencourt < josebetancourt.cmw en infomed.sld.cu> escribió:> Estimados > > > > En ocasionas hay informaciones epidemiológicas en reportes pdf semanales > como el que adjunto que quisiéramos llevar a csv o txt USANDO R para > poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un > script, el paquete pdftable no me resultó. > > Saludos > > José > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Buenos días, Otra opción es el paquete tabulizer: https://github.com/ropenscilabs/tabulizer ¡Suerte! Paco El 11/09/2016 a las 11:05, Carlos Ortega escribió:> Hola, > > ¿Has probado esto? > > https://cloud.r-project.org/web/packages/pdftools/index.html > > pdftools: Extract Text and Data from PDF Documents > > Utilities based on libpoppler for extracting text, fonts, attachments and > metadata from a pdf file. Also implements rendering of PDF to bitmaps on > supported platforms. > > Saludos, > Carlos Ortega > www.qualityexcellence.es > > El 11 de septiembre de 2016, 0:30, Dr. José A. Betancourt Bethencourt < > josebetancourt.cmw en infomed.sld.cu> escribió: > >> Estimados >> >> >> >> En ocasionas hay informaciones epidemiológicas en reportes pdf semanales >> como el que adjunto que quisiéramos llevar a csv o txt USANDO R para >> poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un >> script, el paquete pdftable no me resultó. >> >> Saludos >> >> José >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > >-- Dr Francisco Rodriguez-Sanchez Integrative Ecology Group Estacion Biologica de Doñana - CSIC Avda. Americo Vespucio s/n 41092 Sevilla (Spain) http://bit.ly/frod_san
A ver… yo he utilizado el paquete "tm", concretamente la función "readPDF". No es tarea fácil, y no por el paquete que vayas a utilizar, sino por la propia codificación interna de un documento "PDF": te bailarán columnas y filas en las tablas, así que hay que tener mucha paciencia y contemplar todos los casos. A riesgo de meterme dónde no me llaman, revisa muy bien los datos cargados desde un "PDF" antes de hacer nada con ellos… Paciencia… ¡y suerte! Isidro Hidalgo Arellano Observatorio del Mercado de Trabajo Consejería de Economía, Empresas y Empleo <http://www.castillalamancha.es/> http://www.castillalamancha.es/ De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Dr. José A. Betancourt Bethencourt Enviado el: domingo, 11 de septiembre de 2016 0:31 Para: r-help-es en r-project.org Asunto: [R-es] de pdf a csv Estimados En ocasionas hay informaciones epidemiológicas en reportes pdf semanales como el que adjunto que quisiéramos llevar a csv o txt USANDO R para poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un script, el paquete pdftable no me resultó. Saludos José [[alternative HTML version deleted]]
Hola, Otra opción comentada "offline" ha sido la de: https://cloud.r-project.org/web/packages/pdftables/index.html Que permite conectar "R" con el servicio online que ofrece https://pdftables.com. Saludos, Carlos Ortega www.qualityexcellence.es El 12 de septiembre de 2016, 14:12, Isidro Hidalgo Arellano < ihidalgo en jccm.es> escribió:> A ver? yo he utilizado el paquete "tm", concretamente la función "readPDF". > > No es tarea fácil, y no por el paquete que vayas a utilizar, sino por la > propia codificación interna de un documento "PDF": te bailarán columnas y > filas en las tablas, así que hay que tener mucha paciencia y contemplar > todos los casos. > > A riesgo de meterme dónde no me llaman, revisa muy bien los datos cargados > desde un "PDF" antes de hacer nada con ellos? > > Paciencia? ¡y suerte! > > > > > > Isidro Hidalgo Arellano > > Observatorio del Mercado de Trabajo > > Consejería de Economía, Empresas y Empleo > > <http://www.castillalamancha.es/> http://www.castillalamancha.es/ > > > > > > > > De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Dr. > José > A. Betancourt Bethencourt > Enviado el: domingo, 11 de septiembre de 2016 0:31 > Para: r-help-es en r-project.org > Asunto: [R-es] de pdf a csv > > > > Estimados > > > > En ocasionas hay informaciones epidemiológicas en reportes pdf semanales > como el que adjunto que quisiéramos llevar a csv o txt USANDO R para poder > analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un > script, el paquete pdftable no me resultó. > > Saludos > > José > > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Hola Jose, con frecuencia tengo que extraer datos de tablas en articulos en PDF tambien, lo que hago es lo siguiente, que no es todo lo automatico que uno quisiera pero al menos no tengo que copiar los datos uno a uno: 1. en linux existe la herramienta pdftotext, que cuando la usas con la opcion -layout mantiene, tanto como es posible, el layout original del texto, con las tablas me ha funcionado bastante bien 2. con lo anterior obtienes un archivo de texto plano 3. abro el archivo y borro todo excepto la tabla que necesito 4. lo importo en R con read.table() u otra funcion similar Ahora, tu tabla es bastante compleja, quiero decir que para poder usarla como un data.frame tendras que hacer algun trabajo extra como incluir algunos de los encabezados en columnas adicionales eso, ojala te sirva. Saludos, Eric. On 09/10/2016 07:30 PM, Dr. José A. Betancourt Bethencourt wrote:> Estimados > > En ocasionas hay informaciones epidemiológicas en reportes pdf semanales > como el que adjunto que quisiéramos llevar a csv o txt USANDO R para > poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen > un script, el paquete pdftable no me resultó. > > Saludos > > José > > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Forest Engineer Master in Environmental and Natural Resource Economics Ph.D. student in Sciences of Natural Resources at La Frontera University Member in AguaDeTemu2030, citizen movement for Temuco with green city standards for living Nota: Las tildes se han omitido para asegurar compatibilidad con algunos lectores de correo.
Saludos. Te iba a decir lo mismo que Eric. Esas tablas "mal formadas" donde se fusionan celdas son difíciles de manejar en "piloto automático". Casi siempre hay que hacer manualidades. De entre las soluciones que te han aportado esta última es la que suelo utilizar. Suerte. El 14 sept. 2016 18:37, "eric" <ericconchamunoz en gmail.com> escribió:> Hola Jose, con frecuencia tengo que extraer datos de tablas en articulos > en PDF tambien, lo que hago es lo siguiente, que no es todo lo automatico > que uno quisiera pero al menos no tengo que copiar los datos uno a uno: > > 1. en linux existe la herramienta pdftotext, que cuando la usas con la > opcion -layout mantiene, tanto como es posible, el layout original del > texto, con las tablas me ha funcionado bastante bien > > 2. con lo anterior obtienes un archivo de texto plano > > 3. abro el archivo y borro todo excepto la tabla que necesito > > 4. lo importo en R con read.table() u otra funcion similar > > > Ahora, tu tabla es bastante compleja, quiero decir que para poder usarla > como un data.frame tendras que hacer algun trabajo extra como incluir > algunos de los encabezados en columnas adicionales > > eso, ojala te sirva. > > > Saludos, Eric. > > > > > > On 09/10/2016 07:30 PM, Dr. José A. Betancourt Bethencourt wrote: > >> Estimados >> >> En ocasionas hay informaciones epidemiológicas en reportes pdf semanales >> como el que adjunto que quisiéramos llevar a csv o txt USANDO R para >> poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen >> un script, el paquete pdftable no me resultó. >> >> Saludos >> >> José >> >> >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> >> > -- > Forest Engineer > Master in Environmental and Natural Resource Economics > Ph.D. student in Sciences of Natural Resources at La Frontera University > Member in AguaDeTemu2030, citizen movement for Temuco with green city > standards for living > > Nota: Las tildes se han omitido para asegurar compatibilidad con algunos > lectores de correo. > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]