(Esto ya lo he comentado en la lista en una ocasión anterior, pero creo que es relevante insistir a propósito de esta consulta, que parece recurrente). El dataset de retrasos de líneas aéreas es aprox. 10 GB y yo lo he leído bien desde máquinas relativamente poco potentes con bigmemory https://www.google.es/search?q=airlines+bigmemory El segundo enlace de esta búsqueda es de cybaea (Allan Engelhardt) y muestra no sólo cómo cargar los datos sino lo que se puede hacer con biganalytics. A mi me han funcionado perfectamente para varios proyectos, siempre que el tipo de datos de las tablas sea homogéneo (un requisito de los objetos bigmemory, que son matrices C). Para 16 GB... no sé, sería cuestión de probar a trocear y pegar luego los objetos con bigmemory o con cualquiera de las otras alternativas. No lo he hecho nunca con bigmemory pero ahora mismo, por ejemplo, lo estoy haciendo con una conexión a base de datos. Si tienes el tiempo de montar una b.d. parece una buena manera de poder gestionar las consultas (por número de filas, por columnas). Además de los enlaces proporcionados hay algo más aquí: http://stackoverflow.com/questions/9352887/strategies-for-reading-in-csv-files-in-pieces Por cierto, R (64 bit) sí que permite manejar espacios de trabajo mayores que la memoria física haciendo swap a disco. El procesador sigue funcionando pero se hace lentísimo. Mi experiencia con diferentes versiones R (previas a la 3) es que en sistemas unix, y siempre que tengas espacio suficiente en disco -y que te puedas quedar sin usar la máquina para nada más, puede ser cuestión de esperar -aunque nunca sabes si el algoritmo se ha quedado colgado. Pero en sistemas windows (hasta windows 7) casca. De cualquier modo no es nada deseable que suceda, pero, vamos, que R puede manejar más que la memoria física de una máquina. ------------------------------ Message: 4 Date: Tue, 3 Jun 2014 18:37:20 +0100 (BST) From: laura tomé <tomelaurita@yahoo.es><mailto:tomelaurita@yahoo.es> To: "r-help-es@r-project.org"<mailto:r-help-es@r-project.org> <r-help-es@r-project.org><mailto:r-help-es@r-project.org> Subject: [R-es] Cargar csv de 16GB en R Message-ID: <1401817040.80671.YahooMailNeo@web171406.mail.ir2.yahoo.com><mailto:1401817040.80671.YahooMailNeo@web171406.mail.ir2.yahoo.com> Content-Type: text/plain Hola, Estoy todavía dando mis primeros pasos en R y una de las cosas que tengo que hacer es trabajar con un csv de 16 GB. Consta de 10 columnas, 7 númericas He probado varias cosas entre ellas los paquetes 'colbycol', data.table, ff , etc, pero nada, mi ordenador de queda frito. Por cierto, tiene 8GB de RAM y Windows 8 ¿Debo trocear previamente el csv,me recomendais algún paquete en especial, etc para trabajar con un fichero tan pesado, otra solución?... -- Pedro Concejero BigData - Analytics @ Telefónica I+D<http://www.tid.es/es/Paginas/default.aspx> E-mail: pedro.concejero@tid.es<mailto:pedro.concejero@tid.es> skype: pedro.concejero twitter: @ConcejeroPedro linkedin <http://www.linkedin.com/in/pedroconcejero/es> Únete a la lista R en español<https://stat.ethz.ch/mailman/listinfo/r-help-es#%21> y a tu gRupo local R, el mío es el gRupo R madRid <http://r-es.org/Grupo+de+Inter%C3%A9s+Local+de+Madrid+-+GIL+Madrid&structure=Comunidad> ________________________________ Este mensaje se dirige exclusivamente a su destinatario. Puede consultar nuestra política de envío y recepción de correo electrónico en el enlace situado más abajo. This message is intended exclusively for its addressee. We only send and receive email on the basis of the terms set out at: http://www.tid.es/ES/PAGINAS/disclaimer.aspx [[alternative HTML version deleted]]