thr3ads.net - R help es - [R-es] (sin asunto) [Jul 2025]

If this information is useful, please help other people find it:
Share via:

Ruben Tobalina Ramirez

2025-Jul-09 11:39 UTC

[R-es] (sin asunto)

Hola, buenas tardes,

Estoy usando *rvest*  para hacer webscraping y me surge una duda con el
siguiente codigo:

*x <- '<h2>Alerta Cobra <span class="title">(Alarm
für Cobra 11 - Die
Autobahnpolizei)</span>\n</h2>'*
*x %>% read_html() %>% html_nodes(xpath = "//h2")*

Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando *span*.
En este ejemplo seria solo *Alerta Cobra. *He probado usando los
típicos operadores como *!* o *:not(span)*, pero no ha resultado bien.

Una orientación de como hacerlo me vendría bien, muchas gracias de antemano.

-- 
Rubén.

	[[alternative HTML version deleted]]

Ruben Tobalina Ramirez

2025-Jul-09 14:56 UTC

head link

[R-es] rvest webscraping

Hola, buenas tardes,

Estoy usando *rvest*  para hacer webscraping y me surge una duda con el
siguiente código:

*x <- '<h2>Alerta Cobra <span class="title">(Alarm
für Cobra 11 - Die
Autobahnpolizei)</span>\n</h2>'*
*x %>% read_html() %>% html_nodes(xpath = "//h2")*

Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando *span*.
En este ejemplo seria solo *Alerta Cobra. *He probado usando los
típicos operadores como *!* o *:not(span)*, pero no ha resultado bien.

Una orientación de como hacerlo me vendría bien, muchas gracias de antemano.

PD: perdón que en els anterior mensaje se me olvidó poner un asunto.
-- 
Rubén.

	[[alternative HTML version deleted]]

Javier Marcuzzi

2025-Jul-09 20:55 UTC

head link

[R-es] (sin asunto)

Buenas tardes Rubén

Lo que usted desea no se puede, pero hay una solución. Primero, si selecciona el
h2 lo que está dentro de esta etiqueta se selecciona. Segundo, lo que está mal
es la selección, sin embargo, puede solucionar esta buscando y borrando el
código <span clas?. , supuestamente este se podría repetir en todos los
datos, por lo cuál el localizarlo y eliminarlo sería una solución.

Por lo cuál al restallado de rvest tendría que procesarlo con otro script en R
que limpie el código repetido en todos los registros.

¿Esa solución le es útil?

Javier Marcuzzi
> El 9 jul 2025, a las 8:39?a. m., Ruben Tobalina Ramirez <lagrimaescrita
en gmail.com> escribió:
> 
> Hola, buenas tardes,
> 
> Estoy usando *rvest*  para hacer webscraping y me surge una duda con el
> siguiente codigo:
> 
> *x <- '<h2>Alerta Cobra <span
class="title">(Alarm für Cobra 11 - Die
> Autobahnpolizei)</span>\n</h2>'*
> *x %>% read_html() %>% html_nodes(xpath = "//h2")*
> 
> Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando *span*.
> En este ejemplo seria solo *Alerta Cobra. *He probado usando los
> típicos operadores como *!* o *:not(span)*, pero no ha resultado bien.
> 
> Una orientación de como hacerlo me vendría bien, muchas gracias de
antemano.
> 
> -- 
> Rubén.
> 
> 	[[alternative HTML version deleted]]
> 
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es

R help es - Jul 2025 - (sin asunto)

[R-es] (sin asunto)

[R-es] rvest webscraping

[R-es] (sin asunto)