http://go.cloudera.com/ml-h20-es-webinar?src=email1&elqTrackId=af5517eab2f543afbb31a0686d9ca566&elq=c68d9a8c25ba4b12944b8065d8a06e33&elqaid=4541&elqat=1&elqCampaignId El 22 de junio de 2017, 22:59, Carlos Ortega <cof en qualityexcellence.es> escribió:> Hola, > > Tendrás RStudioServer en un nodo frontera de tu clúster. Y cuando lees > algo te lo estás llevando a este nodo frontera que tiene que tener memoria > suficiente para poder leer el fichero que quieres. El que digas que tienes > 256Gb, entiendo que es repartidos en todo el clúster y no en ese nodo > frontera. > > La forma de trabajar no es esta. La idea es que proceses tus datos de > forma distribuida, desde el nodo frontera diriges/distribuyes el trabajo a > todos los nodos. Una forma que el propio Cloudera recomienda para este tipo > de procesamiento analítico es usar H2O. Con H2O al leer el fichero haces > una lectura distribuida, al igual que si realizas cualquier tipo de > análisis (modelización) lo haces de forma distribuida (en todos tus nodos). > > Otra alternativa que también recomienda Cloudera es utilizar RStudio con > "sparklyr" y realizar el procesamiento en Spark. Mira el detalles en la > página que tiene RStudio de este paquete (que están desarrollando ellos > mismos). > > Si tus datos no son "enormes" puedes perfectamente probar a trabajar sobre > una máquina con mucha RAM y te ahorras todas estas complicaciones. > > Saludos, > Carlos Ortega > www.qualityexcellence.es > > El 22 de junio de 2017, 21:33, Ursula Jacobo Arteaga via R-help-es < > r-help-es en r-project.org> escribió: > >> hola, estoy trabajando en cloudera con RStudio server y constantemente >> "muere" R por el tamaño de los archivos que lee. Supuestamente tengo 256gb >> de memoria pero con archivos de 42gb muere con sólo leerlos,Amguien tiene >> una idea de cómo trabajar con este volumen de info?saludos y gracias >> >> >> >> [[alternative HTML version deleted]] >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
En IBM tenéis esto...: https://datascience.ibm.com/ Al que también recientemente habéis incorporado H2O: https://www.hpcwire.com/off-the-wire/h2o-ai-partners-ibm-bring-enterprise-ai-ibm-power-systems/ Saludos, Carlos Ortega www.qualityexcellence.es El 22 de junio de 2017, 23:11, Carlos Ortega <cof en qualityexcellence.es> escribió:> http://go.cloudera.com/ml-h20-es-webinar?src=email1&elqTrackId> af5517eab2f543afbb31a0686d9ca566&elq=c68d9a8c25ba4b12944b8065d8a06e > 33&elqaid=4541&elqat=1&elqCampaignId> > El 22 de junio de 2017, 22:59, Carlos Ortega <cof en qualityexcellence.es> > escribió: > >> Hola, >> >> Tendrás RStudioServer en un nodo frontera de tu clúster. Y cuando lees >> algo te lo estás llevando a este nodo frontera que tiene que tener memoria >> suficiente para poder leer el fichero que quieres. El que digas que tienes >> 256Gb, entiendo que es repartidos en todo el clúster y no en ese nodo >> frontera. >> >> La forma de trabajar no es esta. La idea es que proceses tus datos de >> forma distribuida, desde el nodo frontera diriges/distribuyes el trabajo a >> todos los nodos. Una forma que el propio Cloudera recomienda para este tipo >> de procesamiento analítico es usar H2O. Con H2O al leer el fichero haces >> una lectura distribuida, al igual que si realizas cualquier tipo de >> análisis (modelización) lo haces de forma distribuida (en todos tus nodos). >> >> Otra alternativa que también recomienda Cloudera es utilizar RStudio con >> "sparklyr" y realizar el procesamiento en Spark. Mira el detalles en la >> página que tiene RStudio de este paquete (que están desarrollando ellos >> mismos). >> >> Si tus datos no son "enormes" puedes perfectamente probar a trabajar >> sobre una máquina con mucha RAM y te ahorras todas estas complicaciones. >> >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> >> El 22 de junio de 2017, 21:33, Ursula Jacobo Arteaga via R-help-es < >> r-help-es en r-project.org> escribió: >> >>> hola, estoy trabajando en cloudera con RStudio server y constantemente >>> "muere" R por el tamaño de los archivos que lee. Supuestamente tengo 256gb >>> de memoria pero con archivos de 42gb muere con sólo leerlos,Amguien tiene >>> una idea de cómo trabajar con este volumen de info?saludos y gracias >>> >>> >>> >>> [[alternative HTML version deleted]] >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Ursula Jacobo Arteaga
2017-Jun-22 22:47 UTC
[R-es] Ayuda R no puede hubicar un vector de 42gb
Te agradezco Carlos... saludos El jue., 22 de jun de 2017 a la(s) 5:02 p.m., Carlos Ortega<cof en qualityexcellence.es> escribió: En IBM tenéis esto...: https://datascience.ibm.com/ Al que también recientemente habéis incorporado H2O: https://www.hpcwire.com/off-the-wire/h2o-ai-partners-ibm-bring-enterprise-ai-ibm-power-systems/ Saludos,Carlos Ortegawww.qualityexcellence.es El 22 de junio de 2017, 23:11, Carlos Ortega <cof en qualityexcellence.es> escribió: http://go.cloudera.com/ml-h20- es-webinar?src=email1& elqTrackId= af5517eab2f543afbb31a0686d9ca5 66&elq= c68d9a8c25ba4b12944b8065d8a06e 33&elqaid=4541&elqat=1& elqCampaignId El 22 de junio de 2017, 22:59, Carlos Ortega <cof en qualityexcellence.es> escribió: Hola, Tendrás RStudioServer en un nodo frontera de tu clúster. Y cuando lees algo te lo estás llevando a este nodo frontera que tiene que tener memoria suficiente para poder leer el fichero que quieres. El que digas que tienes 256Gb, entiendo que es repartidos en todo el clúster y no en ese nodo frontera. La forma de trabajar no es esta. La idea es que proceses tus datos de forma distribuida, desde el nodo frontera diriges/distribuyes el trabajo a todos los nodos. Una forma que el propio Cloudera recomienda para este tipo de procesamiento analítico es usar H2O. Con H2O al leer el fichero haces una lectura distribuida, al igual que si realizas cualquier tipo de análisis (modelización) lo haces de forma distribuida (en todos tus nodos). Otra alternativa que también recomienda Cloudera es utilizar RStudio con "sparklyr" y realizar el procesamiento en Spark. Mira el detalles en la página que tiene RStudio de este paquete (que están desarrollando ellos mismos). Si tus datos no son "enormes" puedes perfectamente probar a trabajar sobre una máquina con mucha RAM y te ahorras todas estas complicaciones. Saludos,Carlos Ortegawww.qualityexcellence.es El 22 de junio de 2017, 21:33, Ursula Jacobo Arteaga via R-help-es <r-help-es en r-project.org> escribió: hola, estoy trabajando en cloudera con RStudio server y constantemente "muere" R por el tamaño de los archivos que lee. Supuestamente tengo 256gb de memoria pero con archivos de 42gb muere con sólo leerlos,Amguien tiene una idea de cómo trabajar con este volumen de info?saludos y gracias [[alternative HTML version deleted]] ______________________________ _________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/l istinfo/r-help-es -- Saludos, Carlos Ortega www.qualityexcellence.es -- Saludos, Carlos Ortega www.qualityexcellence.es -- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]