Hola, Estoy todavía dando mis primeros pasos en R y una de las cosas que tengo que hacer es trabajar con un csv de 16 GB. Consta de 10 columnas, 7 númericas He probado varias cosas entre ellas los paquetes 'colbycol', data.table, ff , etc, pero nada, mi ordenador de queda frito. Por cierto, tiene 8GB de RAM y Windows 8 ¿Debo trocear previamente el csv,me recomendais algún paquete en especial, etc para trabajar con un fichero tan pesado, otra solución?... Muchas gracias [[alternative HTML version deleted]]
Hola, ¿qué tal? colbycol tiene un límite no explícito de 2GB, que era una barbaridad cuando se creó. Obviamente, no vas a poder leer 16GB de fichero con un ordenador de 8GB. Pero es improbable que necesites toda esa información cargada a la vez. Es posible que puedas trocear ese fichero con herramientas externas y trabajarlo por partes. Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com El día 3 de junio de 2014, 19:37, laura tomé <tomelaurita en yahoo.es> escribió:> > > > Hola, > > Estoy todavía dando mis primeros pasos en R y una de las cosas que tengo que hacer es trabajar con un csv de 16 GB. Consta de 10 columnas, 7 númericas > He probado varias cosas entre ellas los paquetes 'colbycol', data.table, ff , etc, pero nada, mi ordenador de queda frito. Por cierto, tiene 8GB de RAM y Windows 8 > > ¿Debo trocear previamente el csv,me recomendais algún paquete en especial, etc para trabajar con un fichero tan pesado, otra solución?... > > Muchas gracias > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >
laura tomé <tomelaurita en yahoo.es> writes:> Hola, > > Estoy todavía dando mis primeros pasos en R y una de las cosas que tengo que hacer es trabajar con un csv de 16 GB. Consta de 10 columnas, 7 númericas > He probado varias cosas entre ellas los paquetes 'colbycol', > data.table, ff , etc, pero nada, mi ordenador de queda frito. Por > cierto, tiene 8GB de RAM y Windows 8 > > ¿Debo trocear previamente el csv,me recomendais algún paquete en especial, etc para trabajar con un fichero tan pesado, otra solución?...yo la verdad es que no tengo experiencia con ese tipo de datos, pero la cuestión aparece una y otra vez en los foros, stackexchange, etc. Siguiendo este link: http://statcompute.wordpress.com/2014/02/11/efficiency-of-importing-large-csv-files-in-r/ hay varias opciones: bigmemory, data.table, sqldf, etc. pero la función fread de data.table parece la más rápida. Yo probaría primeramente con esa. Aquí hay también algunos consejos: http://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as-dataframes-in-r De todas formas, otros de la lista creo que tienen más experiencia con el asunto. Suerte! -- :: Igor Sosa Mayor :: joseleopoldo1792 en gmail.com :: :: GnuPG: 0x1C1E2890 :: http://www.gnupg.org/ :: :: jabberid: rogorido :: ::
Estimada Laura Tomé Si los datos son mayores a la memoria, hay un problema, pero si usted tiene 10 columnas, ¿todas son necesarias?, porque podría importar esos datos csv en una base de dados como mysql, luego como windows no permite, o se podría desde R pero complicado, exportar desde mysql (o la que prefiera) algunas comunas (no las 10), obteniendo un archivo de menos megas que puede llegar a utilizar en su computadora. Si logra importar los datos podría buscar formas de almacenar (trabajar) consumiendo menos memoria, como sparce matrix (creo que se escribe así). Aunque, para trabajar con GB se necesitan GB de memoria. Javier Marcuzzi El 3 de junio de 2014, 14:37, laura tomé <tomelaurita@yahoo.es> escribió:> > > > Hola, > > Estoy todavía dando mis primeros pasos en R y una de las cosas que tengo > que hacer es trabajar con un csv de 16 GB. Consta de 10 columnas, 7 > númericas > He probado varias cosas entre ellas los paquetes 'colbycol', data.table, > ff , etc, pero nada, mi ordenador de queda frito. Por cierto, tiene 8GB de > RAM y Windows 8 > > ¿Debo trocear previamente el csv,me recomendais algún paquete en especial, > etc para trabajar con un fichero tan pesado, otra solución?... > > Muchas gracias > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >[[alternative HTML version deleted]]
Hola Laura, Asumo que estás usando una versión de R de 64 bits, de lo contrario ya irías muy limitada por la versión, si ésta fuera de 32 bits. R puede trabajar con objetos mayores que la memoria física instalada, gracias a la memoria virtual de la máquina. Pero hay que tener en cuenta que, en Windows, R limita la memoria disponible para una sesión de R. Para cambiar este límite, mira los comandos memory.size y memory.limit Saludos, Juan Carmona -----Mensaje original----- De: r-help-es-bounces en r-project.org [mailto:r-help-es-bounces en r-project.org] En nombre de laura tomé Enviado el: martes, 03 de junio de 2014 19:37 Para: r-help-es en r-project.org Asunto: [R-es] Cargar csv de 16GB en R Hola, Estoy todavía dando mis primeros pasos en R y una de las cosas que tengo que hacer es trabajar con un csv de 16 GB. Consta de 10 columnas, 7 númericas He probado varias cosas entre ellas los paquetes 'colbycol', data.table, ff , etc, pero nada, mi ordenador de queda frito. Por cierto, tiene 8GB de RAM y Windows 8 ¿Debo trocear previamente el csv,me recomendais algún paquete en especial, etc para trabajar con un fichero tan pesado, otra solución?... Muchas gracias [[alternative HTML version deleted]]
Estoy de acuerdo con la observación de Joan, yo supe utilizar formas para trabajar con más memoria de la configurada como base, pero tengamos en cuenta que una vez importados los datos, cualquier operación estará entre la memoria física y la virtual, es todo un desafío y dependerá del análisis estadístico (me refiero a los algoritmos que ordenen al CPU). Mi experiencia cuándo trabaje con muchos datos y tocando los parámetros de memoria, en algo parecido a un modelo mixto, una variable 5 minutos de procesamiento, dos variables unos 15 minutos, ambas más una relación más de dos días de procesamiento, esa relación en solo una variable algo como una hora. Básicamente podía por separado, pero cuándo sumaba algo al modelo de tiempos razonables pasaba a dos días (medido en la pantalla de R porque pasaba datos según procesaba - verbose=TRUE). Javier Marcuzzi El 3 de junio de 2014, 18:54, Joan Carmona <jcmld@carmonarocha.com> escribió:> Hola Laura, > > Asumo que estás usando una versión de R de 64 bits, de lo contrario ya > irías > muy limitada por la versión, si ésta fuera de 32 bits. > > R puede trabajar con objetos mayores que la memoria física instalada, > gracias a la memoria virtual de la máquina. > > Pero hay que tener en cuenta que, en Windows, R limita la memoria > disponible > para una sesión de R. Para cambiar este límite, mira los comandos > memory.size y memory.limit > > Saludos, > > Juan Carmona > > -----Mensaje original----- > De: r-help-es-bounces@r-project.org [mailto: > r-help-es-bounces@r-project.org] > En nombre de laura tomé > Enviado el: martes, 03 de junio de 2014 19:37 > Para: r-help-es@r-project.org > Asunto: [R-es] Cargar csv de 16GB en R > > > > > Hola, > > Estoy todavía dando mis primeros pasos en R y una de las cosas que tengo > que > hacer es trabajar con un csv de 16 GB. Consta de 10 columnas, 7 númericas > He > probado varias cosas entre ellas los paquetes 'colbycol', data.table, ff > , > etc, pero nada, mi ordenador de queda frito. Por cierto, tiene 8GB de RAM > y > Windows 8 > > ¿Debo trocear previamente el csv,me recomendais algún paquete en especial, > etc para trabajar con un fichero tan pesado, otra solución?... > > Muchas gracias > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]