Buenas tardes a todos: No sé si alguno de vosotros sabe si con R es posible buscar una palabra en una web (por ejemplo, buscar "Alicante" en www.lasprovincias.es) y que, cada vez que lo encuentre, vaya almacenado las urls en un data.frame gracias de antemano! -- Beatriz Martínez [[alternative HTML version deleted]]
Beatriz Martínes Si, se puede, hay que escribir algo, pero es trabajo y se realiza. No quiero ser ingrato, todo lo contrario, pero creo que mejor si busca dentro de los archivos de la lista, porque ese tema fue tratado y hay un ejemplo, en este momento no recuerdo mucho como para ayudarla y no tengo tiempo como para expresar un poco más. Javier Marcuzzi -----Mensaje original----- From: Beatriz Martínez Sent: Friday, February 01, 2013 1:47 PM To: Lista R Subject: [R-es] Scrapping con R Buenas tardes a todos: No sé si alguno de vosotros sabe si con R es posible buscar una palabra en una web (por ejemplo, buscar "Alicante" en www.lasprovincias.es) y que, cada vez que lo encuentre, vaya almacenado las urls en un data.frame gracias de antemano! -- Beatriz Martínez [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Hola Beatriz, Con este código (subóptimo :-) ) tienes lo que buscas, pero solamente de la página principal. Si lo que buscas es un código que entre en cada una de las secciones de la página y busque "Alicante" en ese caso el código se complica bastante, básicamente porque se pueden extraer todas las referencias "http://" que existen en la página, pero muchas de ellas te llevan a otros periódicos... Y las de esos otros periódicos a su vez a otros por lo que la búsqueda se hace infinita... ################################################# library(stringr) u.bas<-"http://www.lasprovincias.es/" pg.url <- readLines(u.bas, n=-1) lev.dat <- pg.url[str_detect(pg.url, "Alicante")] lev.end <- lev.dat[str_detect(lev.dat,"<a href=")] mat.tmp <- str_replace_all(lev.end, "<a href=", "") mat.tmp2 <- str_replace_all(mat.tmp, "\"", "") mat.tmp3 <- unlist(str_split(mat.tmp2, ">")) mat.end <- mat.tmp3[str_detect(mat.tmp3,"html")] mat.end <- paste(u.bas,mat.end,sep="") mat.gd <- str_replace_all(mat.end, "//", "/") ################################################## Saludos, Carlos Ortega www.qualityexcellence.es El 1 de febrero de 2013 17:47, Beatriz Martínez <mtnezb@gmail.com> escribió:> Buenas tardes a todos: > > No sé si alguno de vosotros sabe si con R es posible buscar una palabra en > una web (por ejemplo, buscar "Alicante" en www.lasprovincias.es) y que, > cada vez que lo encuentre, vaya almacenado las urls en un data.frame > > > gracias de antemano! > > -- > Beatriz Martínez > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Hola, ¿qué tal? Lo que necesitas es una "araña web", http://es.wikipedia.org/wiki/Ara%C3%B1a_web para descargar contenido (siguiendo reglas: p.e., no seguir un enlace si te lleva fuera del dominio que te interesa, etc.) y luego, tal vez con R, filtrar el contenido descargado. R es bueno para hacer "scraping" (procesar contenido de una url concreta) pero para descargar contenido de un dominio completo no. Para eso hay herramientas específicas. Aunque también podrías usar Google restringiendo la búsqueda a tu dominio de interés. Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com El día 1 de febrero de 2013 17:47, Beatriz Martínez <mtnezb en gmail.com> escribió:> Buenas tardes a todos: > > No sé si alguno de vosotros sabe si con R es posible buscar una palabra en > una web (por ejemplo, buscar "Alicante" en www.lasprovincias.es) y que, > cada vez que lo encuentre, vaya almacenado las urls en un data.frame > > > gracias de antemano! > > -- > Beatriz Martínez > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >
¡Muchas gracias a lo tres! Haré algún experimento con lo que me contáis, aunque soy casi recién llegada a R, así que no sé cómo se dará! gracias de nuevo! Por cierto, para los que estéis en madrid, mañana hay unos talleres interesantes en el Matadero, que organiza el grupo de trabajo de Periodismo de Datos http://medialab-prado.es/article/periodismo_datos_mapas_interactivos Saludos, Beatriz Martínez El 2 de febrero de 2013 14:52, Carlos J. Gil Bellosta <cgb@datanalytics.com>escribió:> Hola, ¿qué tal? > > Lo que necesitas es una "araña web", > > http://es.wikipedia.org/wiki/Ara%C3%B1a_web > > para descargar contenido (siguiendo reglas: p.e., no seguir un enlace > si te lleva fuera del dominio que te interesa, etc.) y luego, tal vez > con R, filtrar el contenido descargado. > > R es bueno para hacer "scraping" (procesar contenido de una url > concreta) pero para descargar contenido de un dominio completo no. > Para eso hay herramientas específicas. > > Aunque también podrías usar Google restringiendo la búsqueda a tu > dominio de interés. > > Un saludo, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > > El día 1 de febrero de 2013 17:47, Beatriz Martínez <mtnezb@gmail.com> > escribió: > > Buenas tardes a todos: > > > > No sé si alguno de vosotros sabe si con R es posible buscar una palabra > en > > una web (por ejemplo, buscar "Alicante" en www.lasprovincias.es) y que, > > cada vez que lo encuentre, vaya almacenado las urls en un data.frame > > > > > > gracias de antemano! > > > > -- > > Beatriz Martínez > > > > [[alternative HTML version deleted]] > > > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > >[[alternative HTML version deleted]]