Hola. Acabo de suscribirme a la lista y espero poder colaborar aunque soy nuevo en R y estoy aprendiendo. Estoy intentando hacer un raspado de páginas web (web scraping),pero con mi código solo consigo que me devuelva la primera tabla, y necesitaría al menos una decena. url <- http://www.infocif.es/ranking/ventas-empresas/espana pagina <- read_html(url, as.data.frame=T, stringsAsFactors = TRUE) pagina %>% html_nodes("table") %>% .[[1]] %>% html_table(fill=T) -> x Así, como digo, consigo los datos de la primera tabla, pero no de las siguientes. Gracias por cualquier ayuda y por aceptarme en esta comunidad. Saludos Javier [[alternative HTML version deleted]]
Hola, ¿qué tal? Tienes que bajar la tabla de http://www.infocif.es/ranking/ventas-empresas/espana?pagina=1, http://www.infocif.es/ranking/ventas-empresas/espana?pagina<http://www.infocif.es/ranking/ventas-empresas/espana?pagina=1>2, etc. Lo puedes hacer en un bucle. Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com El lun, 10 may 2021 a las 10:42, Javi Lopez (<bierzomapas en gmail.com>) escribió:> Hola. Acabo de suscribirme a la lista y espero poder colaborar aunque soy > nuevo en R y estoy aprendiendo. > > Estoy intentando hacer un raspado de páginas web (web scraping),pero con mi > código solo consigo que me devuelva la primera tabla, y necesitaría al > menos una decena. > > url <- http://www.infocif.es/ranking/ventas-empresas/espana > pagina <- read_html(url, as.data.frame=T, stringsAsFactors = TRUE) > pagina %>% > html_nodes("table") %>% > .[[1]] %>% > html_table(fill=T) -> x > > Así, como digo, consigo los datos de la primera tabla, pero no de las > siguientes. > > Gracias por cualquier ayuda y por aceptarme en esta comunidad. Saludos > > Javier > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]
Estimado López Es que debe hacer click en 1, en 2, en 3, de esta forma recorre todos los datos. Para hacer click debe analizar el código html, y luego en R crear un código para que lo automatice. Casi todas las variantes tienen como ejemplo buscar una palabra en el buscador, bueno, es click en el botón y en parámetro en lugar de la palabra va el índice de tabla. Pero, hay que hacerlo, web scraping tiene sus cosas, yo lo supe realizar con R, ahora uso c#, pero solo por la asistencia del editor para escribir el código y el mezclar lenguajes, pero, si son pocos datos lo realizo a mano, automatizarlo es mucho trabajo y esto lleva tiempo. Javier Rubén Marcuzzi El lun, 10 may 2021 a las 5:42, Javi Lopez (<bierzomapas en gmail.com>) escribió:> Hola. Acabo de suscribirme a la lista y espero poder colaborar aunque soy > nuevo en R y estoy aprendiendo. > > Estoy intentando hacer un raspado de páginas web (web scraping),pero con mi > código solo consigo que me devuelva la primera tabla, y necesitaría al > menos una decena. > > url <- http://www.infocif.es/ranking/ventas-empresas/espana > pagina <- read_html(url, as.data.frame=T, stringsAsFactors = TRUE) > pagina %>% > html_nodes("table") %>% > .[[1]] %>% > html_table(fill=T) -> x > > Así, como digo, consigo los datos de la primera tabla, pero no de las > siguientes. > > Gracias por cualquier ayuda y por aceptarme en esta comunidad. Saludos > > Javier > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]