Pido disculpas por el error ortográfico en el subject, no me di cuenta. Manuel El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinola10 en gmail.com> escribió:> Muchas gracias Carlos. > > Manuel > > El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en qualityexcellence.es> > escribió: > >> Hola, >> >> Hay una adaptación específica a R de una solución comercial, pero que se >> puede usar hasta cierto número de llamdas: pdftools >> >> https://cloud.r-project.org/web/packages/pdftools/index.html >> >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> >> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es> >> escribió: >> >>> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener >>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo >>> (visualmente ves todos los documentos igual), resulta que no lo es, y te >>> encuentras "saltos" de página, códigos de cabeceras de tabla, etc. >>> Colocados >>> de forma diferente según el ejemplar de PDF. >>> Si quieres algo que no falle, tendrás que trabajarlo bastante para no >>> dejar >>> margen de error (contemplando toda la casuística que puedas encontrar >>> por el >>> camino). En fin, perdona el rollo... >>> Suerte. >>> >>> >>> Isidro Hidalgo Arellano >>> Observatorio del Mercado de Trabajo >>> Consejería de Economía, Empresas y Empleo >>> http://www.castillalamancha.es/ >>> >>> >>> >>> -----Mensaje original----- >>> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de >>> Manuel >>> Spínola >>> Enviado el: viernes, 29 de septiembre de 2017 16:47 >>> Para: R <r-help-es en r-project.org> >>> Asunto: [R-es] Minería de testo en R >>> >>> Estimados miembros del grupo, >>> >>> Estoy buscando paquetes de R que permitan hacer minería de textos de >>> archivos PDF o Word que tengan una estructura tabular (cuadros) de >>> resultado >>> de talleres de trabajo donde se tratan diferentes ejes temáticos. >>> >>> Especifico esto porque he visto que algunos paquetes analizan >>> directamente >>> texto de libros, tweets u otras fuentes donde no hay una estructura como >>> cuadros en el texto que se quiere analizar. >>> >>> Desde ya muchas gracias por la ayuda. >>> >>> Saludos, >>> >>> Manuel >>> >>> -- >>> *Manuel Spínola, Ph.D.* >>> Instituto Internacional en Conservación y Manejo de Vida Silvestre >>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA >>> mspinola en una.cr >>> <mspinola en una.ac.cr> mspinola10 en gmail.com >>> Teléfono: (506) 8706 - 4662 >>> Personal website: Lobito de río <https://sites.google.com/site >>> /lobitoderio/> >>> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> >>> >>> [[alternative HTML version deleted]] >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> > > > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional > Apartado 1350-3000 > Heredia > COSTA RICA > mspinola en una.cr <mspinola en una.ac.cr> > mspinola10 en gmail.com > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río > <https://sites.google.com/site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> >-- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr <mspinola en una.ac.cr> mspinola10 en gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]]
A la hoguera!!!! ? ________________________________ De: R-help-es <r-help-es-bounces en r-project.org> en nombre de Manuel Spínola <mspinola10 en gmail.com> Enviado: lunes, 2 de octubre de 2017 13:47 Para: Carlos Ortega Cc: R Asunto: Re: [R-es] Minería de testo en R Pido disculpas por el error ortográfico en el subject, no me di cuenta. Manuel El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinola10 en gmail.com> escribió:> Muchas gracias Carlos. > > Manuel > > El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en qualityexcellence.es> > escribió: > >> Hola, >> >> Hay una adaptación específica a R de una solución comercial, pero que se >> puede usar hasta cierto número de llamdas: pdftools >> >> https://cloud.r-project.org/web/packages/pdftools/index.html >> >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es<http://www.qualityexcellence.es> >> >> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es> >> escribió: >> >>> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener >>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo >>> (visualmente ves todos los documentos igual), resulta que no lo es, y te >>> encuentras "saltos" de página, códigos de cabeceras de tabla, etc. >>> Colocados >>> de forma diferente según el ejemplar de PDF. >>> Si quieres algo que no falle, tendrás que trabajarlo bastante para no >>> dejar >>> margen de error (contemplando toda la casuística que puedas encontrar >>> por el >>> camino). En fin, perdona el rollo... >>> Suerte. >>> >>> >>> Isidro Hidalgo Arellano >>> Observatorio del Mercado de Trabajo >>> Consejería de Economía, Empresas y Empleo >>> http://www.castillalamancha.es/ >>> >>> >>> >>> -----Mensaje original----- >>> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de >>> Manuel >>> Spínola >>> Enviado el: viernes, 29 de septiembre de 2017 16:47 >>> Para: R <r-help-es en r-project.org> >>> Asunto: [R-es] Minería de testo en R >>> >>> Estimados miembros del grupo, >>> >>> Estoy buscando paquetes de R que permitan hacer minería de textos de >>> archivos PDF o Word que tengan una estructura tabular (cuadros) de >>> resultado >>> de talleres de trabajo donde se tratan diferentes ejes temáticos. >>> >>> Especifico esto porque he visto que algunos paquetes analizan >>> directamente >>> texto de libros, tweets u otras fuentes donde no hay una estructura como >>> cuadros en el texto que se quiere analizar. >>> >>> Desde ya muchas gracias por la ayuda. >>> >>> Saludos, >>> >>> Manuel >>> >>> -- >>> *Manuel Spínola, Ph.D.* >>> Instituto Internacional en Conservación y Manejo de Vida Silvestre >>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA >>> mspinola en una.cr >>> <mspinola en una.ac.cr> mspinola10 en gmail.com >>> Teléfono: (506) 8706 - 4662 >>> Personal website: Lobito de río <https://sites.google.com/site >>> /lobitoderio/> >>> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> >>> >>> [[alternative HTML version deleted]] >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es<http://www.qualityexcellence.es> >> > > > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional > Apartado 1350-3000 > Heredia > COSTA RICA > mspinola en una.cr <mspinola en una.ac.cr> > mspinola10 en gmail.com > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río > <https://sites.google.com/site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> >-- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr <mspinola en una.ac.cr> mspinola10 en gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es [[alternative HTML version deleted]]
Jajajaja, por lo menos. El 3 de octubre de 2017, 3:08, Jesús Para Fernández < j.para.fernandez en hotmail.com> escribió:> A la hoguera!!!! ? > ------------------------------ > *De:* R-help-es <r-help-es-bounces en r-project.org> en nombre de Manuel > Spínola <mspinola10 en gmail.com> > *Enviado:* lunes, 2 de octubre de 2017 13:47 > *Para:* Carlos Ortega > *Cc:* R > *Asunto:* Re: [R-es] Minería de testo en R > > Pido disculpas por el error ortográfico en el subject, no me di cuenta. > > Manuel > > El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinola10 en gmail.com> > escribió: > > > Muchas gracias Carlos. > > > > Manuel > > > > El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en qualityexcellence.es> > > escribió: > > > >> Hola, > >> > >> Hay una adaptación específica a R de una solución comercial, pero que se > >> puede usar hasta cierto número de llamdas: pdftools > >> > >> https://cloud.r-project.org/web/packages/pdftools/index.html > >> > >> Saludos, > >> Carlos Ortega > >> www.qualityexcellence.es > >> > >> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano < > ihidalgo en jccm.es> > >> escribió: > >> > >>> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que > tener > >>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo > >>> (visualmente ves todos los documentos igual), resulta que no lo es, y > te > >>> encuentras "saltos" de página, códigos de cabeceras de tabla, etc. > >>> Colocados > >>> de forma diferente según el ejemplar de PDF. > >>> Si quieres algo que no falle, tendrás que trabajarlo bastante para no > >>> dejar > >>> margen de error (contemplando toda la casuística que puedas encontrar > >>> por el > >>> camino). En fin, perdona el rollo... > >>> Suerte. > >>> > >>> > >>> Isidro Hidalgo Arellano > >>> Observatorio del Mercado de Trabajo > >>> Consejería de Economía, Empresas y Empleo > >>> http://www.castillalamancha.es/ > >>> > >>> > >>> > >>> -----Mensaje original----- > >>> De: R-help-es [mailto:r-help-es-bounces en r-project.org > <r-help-es-bounces en r-project.org>] En nombre de > >>> Manuel > >>> Spínola > >>> Enviado el: viernes, 29 de septiembre de 2017 16:47 > >>> Para: R <r-help-es en r-project.org> > >>> Asunto: [R-es] Minería de testo en R > >>> > >>> Estimados miembros del grupo, > >>> > >>> Estoy buscando paquetes de R que permitan hacer minería de textos de > >>> archivos PDF o Word que tengan una estructura tabular (cuadros) de > >>> resultado > >>> de talleres de trabajo donde se tratan diferentes ejes temáticos. > >>> > >>> Especifico esto porque he visto que algunos paquetes analizan > >>> directamente > >>> texto de libros, tweets u otras fuentes donde no hay una estructura > como > >>> cuadros en el texto que se quiere analizar. > >>> > >>> Desde ya muchas gracias por la ayuda. > >>> > >>> Saludos, > >>> > >>> Manuel > >>> > >>> -- > >>> *Manuel Spínola, Ph.D.* > >>> Instituto Internacional en Conservación y Manejo de Vida Silvestre > >>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA > >>> mspinola en una.cr > >>> <mspinola en una.ac.cr> mspinola10 en gmail.com > >>> Teléfono: (506) 8706 - 4662 > >>> Personal website: Lobito de río <https://sites.google.com/site > >>> /lobitoderio/> > >>> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> > >>> > >>> [[alternative HTML version deleted]] > >>> > >>> _______________________________________________ > >>> R-help-es mailing list > >>> R-help-es en r-project.org > >>> https://stat.ethz.ch/mailman/listinfo/r-help-es > >>> > >>> _______________________________________________ > >>> R-help-es mailing list > >>> R-help-es en r-project.org > >>> https://stat.ethz.ch/mailman/listinfo/r-help-es > >>> > >> > >> > >> > >> -- > >> Saludos, > >> Carlos Ortega > >> www.qualityexcellence.es > >> > > > > > > > > -- > > *Manuel Spínola, Ph.D.* > > Instituto Internacional en Conservación y Manejo de Vida Silvestre > > Universidad Nacional > > Apartado 1350-3000 > > Heredia > > COSTA RICA > > mspinola en una.cr <mspinola en una.ac.cr> > > mspinola10 en gmail.com > > Teléfono: (506) 8706 - 4662 > > Personal website: Lobito de río > > <https://sites.google.com/site/lobitoderio/> > > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> > > > > > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional > Apartado 1350-3000 > Heredia > COSTA RICA > mspinola en una.cr <mspinola en una.ac.cr> > mspinola10 en gmail.com > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río <https://sites.google.com/ > site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr <mspinola en una.ac.cr> mspinola10 en gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]]