Jesús Para Fernández
2017-Jul-02 08:45 UTC
[R-es] Plantear problema desde el punto de vista Big Data
Buenas, Como planteairiais el siguiente problema desde el punto de vista Big DATA. Imaginad que teneis un sistema que genera un csv cada segundo de 2 megas aprox. Ese csv tiene que ser preprocesado para sacar las variables importantes y luego relacionado con la variable respuesta, la cual es dicotomica (OK,NOK) Mi idea seria, usar spark para la ingesta de ese archivo, luego preprocesarlo con H2O conectado con R, y subirlo a una base de datos sql. Una vez que la base de datos se va llenando, intentar genear algun modelo usando H2O conectado con R, y con el modelo ya validado, cada nueva instancia hacerla pasar por ese modelo. ¿Qué os parece la propuesta? ¿Lo hariais de otra manera? [[alternative HTML version deleted]]
Carlos Ortega
2017-Jul-02 12:37 UTC
[R-es] Plantear problema desde el punto de vista Big Data
Mira esto, sobre como productivizar H2O... https://github.com/h2oai/h2o-meetups/tree/master/2016_07_19_H2O_Open_Tour_NYC_Prod Saludos, Carlos Ortega www.qualityexcellence.es El 2 de julio de 2017, 10:45, Jesús Para Fernández < j.para.fernandez en hotmail.com> escribió:> Buenas, > > Como planteairiais el siguiente problema desde el punto de vista Big DATA. > > Imaginad que teneis un sistema que genera un csv cada segundo de 2 megas > aprox. Ese csv tiene que ser preprocesado para sacar las variables > importantes y luego relacionado con la variable respuesta, la cual es > dicotomica (OK,NOK) > > > Mi idea seria, usar spark para la ingesta de ese archivo, luego > preprocesarlo con H2O conectado con R, y subirlo a una base de datos sql. > > > Una vez que la base de datos se va llenando, intentar genear algun modelo > usando H2O conectado con R, y con el modelo ya validado, cada nueva > instancia hacerla pasar por ese modelo. > > ¿Qué os parece la propuesta? ¿Lo hariais de otra manera? > > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]