Milagros Camacho Bellido
2017-Jan-20 09:59 UTC
[R-es] Problema con un xml demasiado Grande
Hola, muy buenas, Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo en R el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese xml solo me interesa un campo, el referente al texto del artículo. ¿Alguiém conoce alguna forma de cargar solo ese campo del xml en R sin cargar el xml completo? La salida seria un archivo .txt, donde cada fila fuera un artículo ó muchos archivos texto donde cada archivo fuera un artículo. Un saludo, Milagros Camacho --- El software de antivirus Avast ha analizado este correo electrónico en busca de virus. https://www.avast.com/antivirus
Trocea o desiste. Nunca vas a poder procesar 10GB de XML con una máquina de las habituales. Si tienes 64GB de RAM o más, es otra historia. Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com El día 20 de enero de 2017, 10:59, Milagros Camacho Bellido <mila.camachobellido en gmail.com> escribió:> Hola, muy buenas, > > Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo en R > el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese xml solo > me interesa un campo, el referente al texto del artículo. ¿Alguiém conoce > alguna forma de cargar solo ese campo del xml en R sin cargar el xml > completo? La salida seria un archivo .txt, donde cada fila fuera un artículo > ó muchos archivos texto donde cada archivo fuera un artículo. > > > Un saludo, > > Milagros Camacho > > > --- > El software de antivirus Avast ha analizado este correo electrónico en busca > de virus. > https://www.avast.com/antivirus > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es
javier.ruben.marcuzzi en gmail.com
2017-Jan-20 12:09 UTC
[R-es] Problema con un xml demasiado Grande
Estimado Milagros Camacho Bellido Entiendo que el problema no viene por el lado de R, es relacionado a los recursos informáticos, pero como usted necesita solo un campo, podría utilizar un programa para importar el XML a una base de datos, luego elimina todo lo que no necesita (o directamente no lo guarda en la DB), para finalmente exportar o leer desde R. Javier Rubén Marcuzzi De: Milagros Camacho Bellido Enviado: viernes, 20 de enero de 2017 7:00 Para: r-help-es en r-project.org Asunto: [R-es] Problema con un xml demasiado Grande Hola, muy buenas, Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo en R el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese xml solo me interesa un campo, el referente al texto del artículo. ¿Alguiém conoce alguna forma de cargar solo ese campo del xml en R sin cargar el xml completo? La salida seria un archivo .txt, donde cada fila fuera un artículo ó muchos archivos texto donde cada archivo fuera un artículo. Un saludo, Milagros Camacho --- El software de antivirus Avast ha analizado este correo electrónico en busca de virus. https://www.avast.com/antivirus _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es [[alternative HTML version deleted]]
Hola, Siempre puedes tirar de la solución del pre-procesado sobre su SO capturando solo la parte del XML que te interese vía las muchas y buenas utilidades que hay en Linux del tipo sed, awk, grep, etc... Gracias, Carlos Ortega www.qualityexcellence.es El 20 de enero de 2017, 10:59, Milagros Camacho Bellido < mila.camachobellido en gmail.com> escribió:> Hola, muy buenas, > > Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo en > R el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese xml > solo me interesa un campo, el referente al texto del artículo. ¿Alguiém > conoce alguna forma de cargar solo ese campo del xml en R sin cargar el xml > completo? La salida seria un archivo .txt, donde cada fila fuera un > artículo ó muchos archivos texto donde cada archivo fuera un artículo. > > > Un saludo, > > Milagros Camacho > > > --- > El software de antivirus Avast ha analizado este correo electrónico en > busca de virus. > https://www.avast.com/antivirus > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Marcelino de la Cruz Rot
2017-Jan-20 13:20 UTC
[R-es] Problema con un xml demasiado Grande
Es posible que con la función xmlEventParse() del paquete XML lo puedas conseguir. A ver si tienes suerte. Un saludo, Marcelino El 20/01/2017 a las 13:04, Carlos J. Gil Bellosta escribió:> Trocea o desiste. > > Nunca vas a poder procesar 10GB de XML con una máquina de las > habituales. Si tienes 64GB de RAM o más, es otra historia. > > Un saludo, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > El día 20 de enero de 2017, 10:59, Milagros Camacho Bellido > <mila.camachobellido en gmail.com> escribió: >> Hola, muy buenas, >> >> Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo en R >> el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese xml solo >> me interesa un campo, el referente al texto del artículo. ¿Alguiém conoce >> alguna forma de cargar solo ese campo del xml en R sin cargar el xml >> completo? La salida seria un archivo .txt, donde cada fila fuera un artículo >> ó muchos archivos texto donde cada archivo fuera un artículo. >> >> >> Un saludo, >> >> Milagros Camacho >> >> >> --- >> El software de antivirus Avast ha analizado este correo electrónico en busca >> de virus. >> https://www.avast.com/antivirus >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Marcelino de la Cruz Rot Depto. de Biología y Geología Física y Química Inorgánica Universidad Rey Juan Carlos Móstoles España [[alternative HTML version deleted]]