Hola buenas, me preguntaba si alguno usa hadoop Spark en su día día y si me podíais recomendar un buen curso para empezar. Estuve en la charla de meetup de madrid hace unos meses de Rspark y estuvo bien, ahora me preguntaba si es posible profundizar. Pero me gustaría tener recomendaciones de cualquier material que podáis recomendar, cursos de coursera que hayais hecho, libros que hayais leido, charlas de youtube que hayais visto. Los objetivo son: 1. que sea simple, un poco para tontitos y si puede ser que usen R por no meterme con una cosa más. 2. que lo hayáis mirado, la red esta llena de cosas de estas me gustaría que me dieses opinión. Estoy intentando hacer alguno a ciegas pero no es la mejor opción 3. que sea simple y con R Gracias por adelantado. -- [[alternative HTML version deleted]]
Estimado Javier Villacampa González Vi una referencia en http://www.r-bloggers.com/?s=hadoop aunque no use esa tecnología como para opinar. Hay una parte que me da dudas, por ejemplo, sql server 2016 tiene R y hadoop, en la instalación pregunta por ambos, pero hadoop entiendo que ?administra? los archivos para nunca quedar sin espacio (utiliza muchos discos y servidores), sin embargo R si no está en paralelo y pensado para procesar en cluster (no la versión libre, creo) no se beneficiaría con esta tecnología, salvo que las librerías y R tengan una escritura que permita el proceso en varios hilos, procesadores, computadoras, etc. En cambio la versión de R de Microsoft que está pensada para utilizar más procesadores, podría utilizar esta tecnología (salvo que uno compile su propia versión). Sin embargo la librería ?X?, ¿procesa con múltiples procesadores?. Hay partes que no tengo dudas que pueden procesar, otras que si no están escritas y compiladas par utilizar varios procesadores en forma asincrónica, y con el orden lógico, podrían dar problemas sin un mensaje de error, puesto que nunca fueron preparadas para eso, escribiré un ejemplo. Pido el promedio, los datos son partidos en tres, cada uno realiza el promedio, luego junta los tres y termina el cálculo (lo que dicen map reduce). Todos / 3 = A + B + C Promedio A en computadora A. Promedio B en computadora B. Promedio C en computadora C. Sumo promedio A + B + C / 3 = final Supongamos que todo es correcto. Pero si hay una resta o división, y estas tienen que ser en orden A, B, C, pero la computadora C termina antes que la B, el orden cambia a A, C, B. En este último caso si código fuente no está preparado para un cálculo entre distintos procesadores en forma asincrónica, se confunde, el resultado se procesa sin error matemático, pero tiene un error de lógica que hace un error de resultado. No se si explico correctamente mi duda. Javier Rubén Marcuzzi De: Javier Villacampa González Enviado: miércoles, 15 de junio de 2016 6:12 Para: R ayuda Asunto: [R-es] Hadoop Hola buenas, me preguntaba si alguno usa hadoop Spark en su día día y si me podíais recomendar un buen curso para empezar. Estuve en la charla de meetup de madrid hace unos meses de Rspark y estuvo bien, ahora me preguntaba si es posible profundizar. Pero me gustaría tener recomendaciones de cualquier material que podáis recomendar, cursos de coursera que hayais hecho, libros que hayais leido, charlas de youtube que hayais visto. Los objetivo son: 1. que sea simple, un poco para tontitos y si puede ser que usen R por no meterme con una cosa más. 2. que lo hayáis mirado, la red esta llena de cosas de estas me gustaría que me dieses opinión. Estoy intentando hacer alguno a ciegas pero no es la mejor opción 3. que sea simple y con R Gracias por adelantado. -- [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es [[alternative HTML version deleted]]
Hola Javier, Si te interesa está comenzando un curso de Introducción a Apache Spark en edX, también en Cursera puedes encontrar una especialización en Big Data . Ninguno de ellos utiliza R pero de cualquier forma valen la pena. Saludos, Marlene. Introduction to Apache Spark 2016-06-15 11:05 GMT+02:00 Javier Villacampa González < javier.villacampa.gonzalez en gmail.com>:> Hola buenas, > > me preguntaba si alguno usa hadoop Spark en su día día y si me podíais > recomendar un buen curso para empezar. Estuve en la charla de meetup de > madrid hace unos meses de Rspark y estuvo bien, ahora me preguntaba si es > posible profundizar. > > Pero me gustaría tener recomendaciones de cualquier material que podáis > recomendar, cursos de coursera que hayais hecho, libros que hayais leido, > charlas de youtube que hayais visto. Los objetivo son: > > 1. que sea simple, un poco para tontitos y si puede ser que usen R por > no meterme con una cosa más. > 2. que lo hayáis mirado, la red esta llena de cosas de estas me gustaría > que me dieses opinión. Estoy intentando hacer alguno a ciegas pero no > es la > mejor opción > 3. que sea simple y con R > > > Gracias por adelantado. > > -- > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]]
Estimada Marlene Muchas gracias por su sugerencia, expresando mi duda anterior y utilizando apache Spark (del cuál es el curso que usted gentilmente comenta): https://spark.apache.org/docs/latest/api/R/index.html tiene la documentación, si se abre esa documentación a la izquierda aparecen las opciones, por ejemplo glm. Pero ¿Qué pasa si yo utilizo algo que no está en esa documentación?, ¿sería procesado por el R tradicional?, en este caso no tendría (creo) el procesamiento entre muchos procesadores/computadoras, sería solo una o en todo caso se podrían ?pisar? números. Javier Rubén Marcuzzi De: marlene marchena Enviado: miércoles, 15 de junio de 2016 15:50 Para: Javier Villacampa González CC: R ayuda Asunto: Re: [R-es] Hadoop Hola Javier, Si te interesa está comenzando un curso de Introducción a Apache Spark en edX, también en Cursera puedes encontrar una especialización en Big Data . Ninguno de ellos utiliza R pero de cualquier forma valen la pena. Saludos, Marlene. Introduction to Apache Spark 2016-06-15 11:05 GMT+02:00 Javier Villacampa González < javier.villacampa.gonzalez en gmail.com>:> Hola buenas, > > me preguntaba si alguno usa hadoop Spark en su día día y si me podíais > recomendar un buen curso para empezar. Estuve en la charla de meetup de > madrid hace unos meses de Rspark y estuvo bien, ahora me preguntaba si es > posible profundizar. > > Pero me gustaría tener recomendaciones de cualquier material que podáis > recomendar, cursos de coursera que hayais hecho, libros que hayais leido, > charlas de youtube que hayais visto. Los objetivo son: > > 1. que sea simple, un poco para tontitos y si puede ser que usen R por > no meterme con una cosa más. > 2. que lo hayáis mirado, la red esta llena de cosas de estas me gustaría > que me dieses opinión. Estoy intentando hacer alguno a ciegas pero no > es la > mejor opción > 3. que sea simple y con R > > > Gracias por adelantado. > > -- > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >[[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es [[alternative HTML version deleted]]
Hola, Te recomendaría lo siguiente: - Montar un RSpark en AWS: - http://amunategui.github.io/sparkr/index.html - Y también, no descartaría el que consideraras montar un H2O, también sobre AWS: - http://amunategui.github.io/h2o-on-aws/index.html En ambos casos, en estas entradas están las capturas de pantalla y vínculos a los videos que están disponibles en YouTube. Y si no están puedes apuntarte a Udemy y comprar los cursos/videos. En su blog aparecen cupones de descuento con los que podrás tener los cursos muy baratos. Y además de esto ya hay libros que tratan el tema (para R con Hadoop): https://www.packtpub.com/big-data-and-business-intelligence/big-data-analytics-r-and-hadoop En cuanto a lo de H2O, la web de H2O tiene múltiples ayudas, documentos y guías para su instalación. Saludos, Carlos Ortega www.qualityexcellence.es El 15 de junio de 2016, 11:05, Javier Villacampa González < javier.villacampa.gonzalez en gmail.com> escribió:> Hola buenas, > > me preguntaba si alguno usa hadoop Spark en su día día y si me podíais > recomendar un buen curso para empezar. Estuve en la charla de meetup de > madrid hace unos meses de Rspark y estuvo bien, ahora me preguntaba si es > posible profundizar. > > Pero me gustaría tener recomendaciones de cualquier material que podáis > recomendar, cursos de coursera que hayais hecho, libros que hayais leido, > charlas de youtube que hayais visto. Los objetivo son: > > 1. que sea simple, un poco para tontitos y si puede ser que usen R por > no meterme con una cosa más. > 2. que lo hayáis mirado, la red esta llena de cosas de estas me gustaría > que me dieses opinión. Estoy intentando hacer alguno a ciegas pero no > es la > mejor opción > 3. que sea simple y con R > > > Gracias por adelantado. > > -- > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Muchas gracias a todos por vuestro tiempo y por el soporte a todos. Le dedicaré unas horas a ver la mejor opción. Tengan un buen fin de semana :) El 15 de junio de 2016, 21:34, Carlos Ortega <cof en qualityexcellence.es> escribió:> Hola, > > Te recomendaría lo siguiente: > > > - Montar un RSpark en AWS: > - http://amunategui.github.io/sparkr/index.html > - Y también, no descartaría el que consideraras montar un H2O, también > sobre AWS: > - http://amunategui.github.io/h2o-on-aws/index.html > > En ambos casos, en estas entradas están las capturas de pantalla y > vínculos a los videos que están disponibles en YouTube. Y si no están > puedes apuntarte a Udemy y comprar los cursos/videos. En su blog aparecen > cupones de descuento con los que podrás tener los cursos muy baratos. > > Y además de esto ya hay libros que tratan el tema (para R con Hadoop): > > > https://www.packtpub.com/big-data-and-business-intelligence/big-data-analytics-r-and-hadoop > > En cuanto a lo de H2O, la web de H2O tiene múltiples ayudas, documentos y > guías para su instalación. > > Saludos, > Carlos Ortega > www.qualityexcellence.es > > El 15 de junio de 2016, 11:05, Javier Villacampa González < > javier.villacampa.gonzalez en gmail.com> escribió: > >> Hola buenas, >> >> me preguntaba si alguno usa hadoop Spark en su día día y si me podíais >> recomendar un buen curso para empezar. Estuve en la charla de meetup de >> madrid hace unos meses de Rspark y estuvo bien, ahora me preguntaba si es >> posible profundizar. >> >> Pero me gustaría tener recomendaciones de cualquier material que podáis >> recomendar, cursos de coursera que hayais hecho, libros que hayais leido, >> charlas de youtube que hayais visto. Los objetivo son: >> >> 1. que sea simple, un poco para tontitos y si puede ser que usen R por >> no meterme con una cosa más. >> 2. que lo hayáis mirado, la red esta llena de cosas de estas me >> gustaría >> que me dieses opinión. Estoy intentando hacer alguno a ciegas pero no >> es la >> mejor opción >> 3. que sea simple y con R >> >> >> Gracias por adelantado. >> >> -- >> >> [[alternative HTML version deleted]] >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es >-- [[alternative HTML version deleted]]