Buenas tardes, Estoy intentando automatizar unas tareas en la web y ando un poco perdido. Quiero descargar con un Script de R el html de varias páginas de una web. Previamente me tengo que identificar (usuario y password) en la web para poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna forma sencilla, se lo agradecería. Muchas gracias de antemano. Un saludo. [[alternative HTML version deleted]]
Estimado Sergio Castro Rvest es otra forma, puede ser curl en una forma más compleja, hay algo por citar solo un sitio https://www.analyticsvidhya.com/blog/2017/03/beginners-guide-on-web-scraping-in-r-using-rvest-with-hands-on-knowledge/ Sin embargo, Rselenium es bueno, no recuerdo exactamente como anda con la última versión, yo continuaría con lo que usted seleccionó como inicio, pero tenga en cuenta que no es tan simple, es probable que un sitio html so sea complicado, pero cuándo comienza JavaScript a tener alguna ejecución, rselenium soluciona ese problema. Javier Marcuzzi El lun., 17 sept. 2018 a las 12:47, Sergio Castro (< castro.rodriguez.sergio en gmail.com>) escribió:> Buenas tardes, > > Estoy intentando automatizar unas tareas en la web y ando un poco perdido. > Quiero descargar con un Script de R el html de varias páginas de una web. > Previamente me tengo que identificar (usuario y password) en la web para > poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por > donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna > forma sencilla, se lo agradecería. > > Muchas gracias de antemano. > > Un saludo. > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]
Hola Sergio, que tal si lo haces fuera de R ? en los entornos UNIX como linux, tienes el comando wget para descargar paginas web (https://www.linuxtotal.com.mx/?cont=info_admon_017) . Con wget tambien puedes manejar el acceso a directorios que necesitan password. wget tambien esta disponible para windows (http://gnuwin32.sourceforge.net/packages/wget.htm). Puedes poner el comando dentro de un script si necesitas bajar muchas paginas. Suerte !! Eric. On 17/09/18 12:46, Sergio Castro wrote:> Buenas tardes, > > Estoy intentando automatizar unas tareas en la web y ando un poco perdido. > Quiero descargar con un Script de R el html de varias páginas de una web. > Previamente me tengo que identificar (usuario y password) en la web para > poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por > donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna > forma sencilla, se lo agradecería. > > Muchas gracias de antemano. > > Un saludo. > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > . >
Hola Sergio, Yo descargué datos de AEMET con wget en la consola de linux, hice un .sh y funcionó bastante bien: ! /bin/bash http GET ' https://opendata.aemet.es/opendata/api/valores/climatologicos/inventarioestaciones/todasestaciones/?api_key=MiAPIKey \ cache-control:no-cache \ En este caso la identificación era poner la API key, pero se puede especificar un usuario y contraseña. Jamás lo había hecho y funcionó, así que no es complicado ;-). Jaume. El lun., 17 sept. 2018 a las 18:56, Eric (<ericconchamunoz en gmail.com>) escribió:> Hola Sergio, que tal si lo haces fuera de R ? en los entornos UNIX como > linux, tienes el comando wget para descargar paginas web > (https://www.linuxtotal.com.mx/?cont=info_admon_017) . Con wget tambien > puedes manejar el acceso a directorios que necesitan password. wget > tambien esta disponible para windows > (http://gnuwin32.sourceforge.net/packages/wget.htm). Puedes poner el > comando dentro de un script si necesitas bajar muchas paginas. > > Suerte !! > > Eric. > > > > > On 17/09/18 12:46, Sergio Castro wrote: > > Buenas tardes, > > > > Estoy intentando automatizar unas tareas en la web y ando un poco > perdido. > > Quiero descargar con un Script de R el html de varias páginas de una web. > > Previamente me tengo que identificar (usuario y password) en la web para > > poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por > > donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre > alguna > > forma sencilla, se lo agradecería. > > > > Muchas gracias de antemano. > > > > Un saludo. > > > > [[alternative HTML version deleted]] > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es en r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > . > > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Jaume Tormo. https://es.linkedin.com/in/jaumetormo https://acercad.wordpress.com/ [[alternative HTML version deleted]]
Hola, Como todavía no se ha comentado la alternativa y es perfectamente válida, la referencio. Puedes automatizar todo este acceso a la Web, auténticándote, navegando en las diferentes páginas y extrayendo la información que desees desde R. Hay un par de opciones bastante estables para hacerlo con sus dos respectivos paquetes: - RSelenium: Es uno de los paquetes desarrollados por rOpenSci.org. Mira el ejemplo que aparece aquí https://cloud.r-project.org/web/packages/RSelenium/index.html - Si buscas encontrarás múltiples entradas con ejemplos de cómo usarlo. - rvest: Es la opción desarrollada por Hadley Wickham (RStudio). https://cran.r-project.org/web/packages/rvest/index.html Saludos, Carlos Ortega www.qualityexcellence.es El lun., 17 sept. 2018 a las 17:47, Sergio Castro (< castro.rodriguez.sergio en gmail.com>) escribió:> Buenas tardes, > > Estoy intentando automatizar unas tareas en la web y ando un poco perdido. > Quiero descargar con un Script de R el html de varias páginas de una web. > Previamente me tengo que identificar (usuario y password) en la web para > poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por > donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna > forma sencilla, se lo agradecería. > > Muchas gracias de antemano. > > Un saludo. > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Muchas gracias por la ayuda a todos. Voy a seguir con RSelenium que de momento me está dando buen resultado, aunque miraré la librería rvest. Un saludo. El vie., 21 sept. 2018 a las 10:10, Carlos Ortega (<cof en qualityexcellence.es>) escribió:> Hola, > > Como todavía no se ha comentado la alternativa y es perfectamente válida, > la referencio. > Puedes automatizar todo este acceso a la Web, auténticándote, navegando en > las diferentes páginas y extrayendo la información que desees desde R. > > Hay un par de opciones bastante estables para hacerlo con sus dos > respectivos paquetes: > > > - RSelenium: Es uno de los paquetes desarrollados por rOpenSci.org. > Mira el ejemplo que aparece aquí > https://cloud.r-project.org/web/packages/RSelenium/index.html > - Si buscas encontrarás múltiples entradas con ejemplos de cómo > usarlo. > - rvest: Es la opción desarrollada por Hadley Wickham (RStudio). > https://cran.r-project.org/web/packages/rvest/index.html > > Saludos, > Carlos Ortega > www.qualityexcellence.es > > > > El lun., 17 sept. 2018 a las 17:47, Sergio Castro (< > castro.rodriguez.sergio en gmail.com>) escribió: > >> Buenas tardes, >> >> Estoy intentando automatizar unas tareas en la web y ando un poco perdido. >> Quiero descargar con un Script de R el html de varias páginas de una web. >> Previamente me tengo que identificar (usuario y password) en la web para >> poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por >> donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna >> forma sencilla, se lo agradecería. >> >> Muchas gracias de antemano. >> >> Un saludo. >> >> [[alternative HTML version deleted]] >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es >[[alternative HTML version deleted]]