thr3ads.net - R help es - [R-es] (sin asunto) [May 2021]

If this information is useful, please help other people find it:
Share via:

Javi Lopez

2021-May-10 08:41 UTC

[R-es] (sin asunto)

Hola. Acabo de suscribirme a la lista y espero poder colaborar aunque soy
nuevo en R y estoy aprendiendo.

Estoy intentando hacer un raspado de páginas web (web scraping),pero con mi
código solo consigo que me devuelva la primera tabla, y necesitaría al
menos una decena.

url <- http://www.infocif.es/ranking/ventas-empresas/espana
pagina <- read_html(url, as.data.frame=T, stringsAsFactors = TRUE)
pagina %>%
html_nodes("table") %>%
.[[1]] %>%
html_table(fill=T) -> x

Así, como digo, consigo los datos de la primera tabla, pero no de las
siguientes.

Gracias por cualquier ayuda y por aceptarme en esta comunidad. Saludos

Javier

	[[alternative HTML version deleted]]

Carlos J. Gil Bellosta

2021-May-10 08:51 UTC

head link

[R-es] (sin asunto)

Hola, ¿qué tal?

Tienes que bajar la tabla de

http://www.infocif.es/ranking/ventas-empresas/espana?pagina=1,
http://www.infocif.es/ranking/ventas-empresas/espana?pagina<http://www.infocif.es/ranking/ventas-empresas/espana?pagina=1>2,
etc.

Lo puedes hacer en un bucle.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El lun, 10 may 2021 a las 10:42, Javi Lopez (<bierzomapas en gmail.com>)
escribió:
> Hola. Acabo de suscribirme a la lista y espero poder colaborar aunque soy
> nuevo en R y estoy aprendiendo.
>
> Estoy intentando hacer un raspado de páginas web (web scraping),pero con mi
> código solo consigo que me devuelva la primera tabla, y necesitaría al
> menos una decena.
>
> url <- http://www.infocif.es/ranking/ventas-empresas/espana
> pagina <- read_html(url, as.data.frame=T, stringsAsFactors = TRUE)
> pagina %>%
> html_nodes("table") %>%
> .[[1]] %>%
> html_table(fill=T) -> x
>
> Así, como digo, consigo los datos de la primera tabla, pero no de las
> siguientes.
>
> Gracias por cualquier ayuda y por aceptarme en esta comunidad. Saludos
>
> Javier
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
	[[alternative HTML version deleted]]

Javier Marcuzzi

2021-May-10 12:19 UTC

head link

[R-es] (sin asunto)

Estimado López

Es que debe hacer click en 1, en 2, en 3, de esta forma recorre todos los
datos. Para hacer click debe analizar el código html, y luego en R crear un
código para que lo automatice. Casi todas las variantes tienen como ejemplo
buscar una palabra en el buscador, bueno, es click en el botón y en
parámetro en lugar de la palabra va el índice de tabla. Pero, hay que
hacerlo, web scraping tiene sus cosas, yo lo supe realizar con R, ahora uso
c#, pero solo por la asistencia del editor para escribir el código y el
mezclar lenguajes, pero, si son pocos datos lo realizo a mano,
automatizarlo es mucho trabajo y esto lleva tiempo.

Javier Rubén Marcuzzi

El lun, 10 may 2021 a las 5:42, Javi Lopez (<bierzomapas en gmail.com>)
escribió:
> Hola. Acabo de suscribirme a la lista y espero poder colaborar aunque soy
> nuevo en R y estoy aprendiendo.
>
> Estoy intentando hacer un raspado de páginas web (web scraping),pero con mi
> código solo consigo que me devuelva la primera tabla, y necesitaría al
> menos una decena.
>
> url <- http://www.infocif.es/ranking/ventas-empresas/espana
> pagina <- read_html(url, as.data.frame=T, stringsAsFactors = TRUE)
> pagina %>%
> html_nodes("table") %>%
> .[[1]] %>%
> html_table(fill=T) -> x
>
> Así, como digo, consigo los datos de la primera tabla, pero no de las
> siguientes.
>
> Gracias por cualquier ayuda y por aceptarme en esta comunidad. Saludos
>
> Javier
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
	[[alternative HTML version deleted]]

R help es - May 2021 - (sin asunto)

[R-es] (sin asunto)

[R-es] (sin asunto)

[R-es] (sin asunto)