thr3ads.net - R help es - [R-es] Problema con un xml demasiado Grande [Jan 2017]

If this information is useful, please help other people find it:
Share via:

Milagros Camacho Bellido

2017-Jan-20 09:59 UTC

[R-es] Problema con un xml demasiado Grande

Hola, muy buenas,

Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo 
en R el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese 
xml solo me interesa un campo, el referente al texto del artículo. 
¿Alguiém conoce alguna forma de cargar solo ese campo del xml en R sin 
cargar el xml completo? La salida seria un archivo .txt, donde cada fila 
fuera un artículo ó muchos archivos texto donde cada archivo fuera un 
artículo.


Un saludo,

Milagros Camacho


---
El software de antivirus Avast ha analizado este correo electrónico en busca de
virus.
https://www.avast.com/antivirus

Carlos J. Gil Bellosta

2017-Jan-20 12:04 UTC

head link

[R-es] Problema con un xml demasiado Grande

Trocea o desiste.

Nunca vas a poder procesar 10GB de XML con una máquina de las
habituales. Si tienes 64GB de RAM o más, es otra historia.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El día 20 de enero de 2017, 10:59, Milagros Camacho Bellido
<mila.camachobellido en gmail.com> escribió:> Hola, muy buenas,
>
> Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo en R
> el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese xml solo
> me interesa un campo, el referente al texto del artículo. ¿Alguiém conoce
> alguna forma de cargar solo ese campo del xml en R sin cargar el xml
> completo? La salida seria un archivo .txt, donde cada fila fuera un
artículo
> ó muchos archivos texto donde cada archivo fuera un artículo.
>
>
> Un saludo,
>
> Milagros Camacho
>
>
> ---
> El software de antivirus Avast ha analizado este correo electrónico en
busca
> de virus.
> https://www.avast.com/antivirus
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es

javier.ruben.marcuzzi en gmail.com

2017-Jan-20 12:09 UTC

head link

[R-es] Problema con un xml demasiado Grande

Estimado Milagros Camacho Bellido

Entiendo que el problema no viene por el lado de R, es relacionado a los
recursos informáticos, pero como usted necesita solo un campo, podría utilizar
un programa para importar el XML a una base de datos, luego elimina todo lo que
no necesita (o directamente no lo guarda en la DB), para finalmente exportar o
leer desde R.

Javier Rubén Marcuzzi

De: Milagros Camacho Bellido
Enviado: viernes, 20 de enero de 2017 7:00
Para: r-help-es en r-project.org
Asunto: [R-es] Problema con un xml demasiado Grande

Hola, muy buenas,

Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo 
en R el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese 
xml solo me interesa un campo, el referente al texto del artículo. 
¿Alguiém conoce alguna forma de cargar solo ese campo del xml en R sin 
cargar el xml completo? La salida seria un archivo .txt, donde cada fila 
fuera un artículo ó muchos archivos texto donde cada archivo fuera un 
artículo.


Un saludo,

Milagros Camacho


---
El software de antivirus Avast ha analizado este correo electrónico en busca de
virus.
https://www.avast.com/antivirus

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


	[[alternative HTML version deleted]]

Carlos Ortega

2017-Jan-20 12:18 UTC

head link

[R-es] Problema con un xml demasiado Grande

Hola,

Siempre puedes tirar de la solución del pre-procesado sobre su SO
capturando solo la parte del XML que te interese vía las muchas y buenas
utilidades que hay en Linux del tipo sed, awk, grep, etc...

Gracias,
Carlos Ortega
www.qualityexcellence.es

El 20 de enero de 2017, 10:59, Milagros Camacho Bellido <
mila.camachobellido en gmail.com> escribió:
> Hola, muy buenas,
>
> Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo en
> R el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese xml
> solo me interesa un campo, el referente al texto del artículo. ¿Alguiém
> conoce alguna forma de cargar solo ese campo del xml en R sin cargar el xml
> completo? La salida seria un archivo .txt, donde cada fila fuera un
> artículo ó muchos archivos texto donde cada archivo fuera un artículo.
>
>
> Un saludo,
>
> Milagros Camacho
>
>
> ---
> El software de antivirus Avast ha analizado este correo electrónico en
> busca de virus.
> https://www.avast.com/antivirus
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

Marcelino de la Cruz Rot

2017-Jan-20 13:20 UTC

head link

[R-es] Problema con un xml demasiado Grande

Es posible que con la función xmlEventParse() del paquete XML lo puedas 
conseguir.
A ver si tienes suerte.

Un saludo,

Marcelino


El 20/01/2017 a las 13:04, Carlos J. Gil Bellosta
escribió:> Trocea o desiste.
>
> Nunca vas a poder procesar 10GB de XML con una máquina de las
> habituales. Si tienes 64GB de RAM o más, es otra historia.
>
> Un saludo,
>
> Carlos J. Gil Bellosta
> http://www.datanalytics.com
>
> El día 20 de enero de 2017, 10:59, Milagros Camacho Bellido
> <mila.camachobellido en gmail.com> escribió:
>> Hola, muy buenas,
>>
>> Me bajé un archivo xml de la wikipedia en español. Al intentar abrirlo
en R
>> el ordenador no es capaz, ya que pesa descomprimido 10 GB. De ese xml
solo
>> me interesa un campo, el referente al texto del artículo. ¿Alguiém
conoce
>> alguna forma de cargar solo ese campo del xml en R sin cargar el xml
>> completo? La salida seria un archivo .txt, donde cada fila fuera un
artículo
>> ó muchos archivos texto donde cada archivo fuera un artículo.
>>
>>
>> Un saludo,
>>
>> Milagros Camacho
>>
>>
>> ---
>> El software de antivirus Avast ha analizado este correo electrónico en
busca
>> de virus.
>> https://www.avast.com/antivirus
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

-- 
Marcelino de la Cruz Rot
Depto. de Biología y Geología
Física y Química Inorgánica
Universidad Rey Juan Carlos
Móstoles España


	[[alternative HTML version deleted]]

Possibly Parallel Threads

Search for more apparently analagous threads

R help es - Jan 2017 - Problema con un xml demasiado Grande

[R-es] Problema con un xml demasiado Grande

[R-es] Problema con un xml demasiado Grande

[R-es] Problema con un xml demasiado Grande

[R-es] Problema con un xml demasiado Grande

[R-es] Problema con un xml demasiado Grande

Possibly Parallel Threads