Hola. Últimamente ha habido en la lista varios hilos sobre análisis de grandes volúmenes de datos con R. Las alternativas que se han mencionado son: - Usar una máquina más potente, vía Amazon Web Services, por ejemplo - Paralelización con openMp - h2o y su paquete para R, - Paquete sparklyr como wrapper de los algoritmos de spark, Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de datos, utilizar varias muestras para ajustar los modelos. A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos de spark (en la versión 2.1 de spark liberada hace menos de un mes) http://spark.apache.org/docs/latest/sparkr.html#machine-learning Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué opináis al respecto? ¿Es una tendencia pasajera? Saludos [[alternative HTML version deleted]]
Coincido contigo José Luis sobre todo en lo de muestrear, todo lo demás no está mal pero siempre que se observe un poco la naturaleza y se entienda lo más posible el cómo se genera la información. Hablar de mezclar grandes volúmenes de información de sacar relaciones entre miles de variables sin criterios claros de depuración de información y no me refiero sólo al tratamiento (que no eliminación total) de los outliers, sino a determinados datos engañosos que ensucian en ocasiones las tablas y que hay que eliminar o interpolar, ceros o números tipo 999 o 999999999 que se confunden con missing, cadenas de caracteres sin sentido, datos erróneos de transacciones que finalmente no llegaron a existir, ... y que hay que poder detectar y limpiar, además del sentido de negocio y de la interpretabilidad de las soluciones finales, cumplimiento de hipótesis de partida, etc En fin, bastantes cosas de las que no se habla y que da la sensación (y espero equivocarme) de que casi todo se reduce a aplicar un algoritmo sobre una tabla de 70 GB directamente que te habían pasado de no sé donde, y "ala", hemos encontrado la relación que establece que el Número de Nacimientos en Mozambique que explica bastante bien el Incremento de nuestras Ventas de Cepillos de Dientes Un saludo ________________________________ De: R-help-es <r-help-es-bounces en r-project.org> en nombre de José Luis Cañadas <canadasreche en gmail.com> Enviado: miércoles, 4 de enero de 2017 8:54 Para: r-help-es Asunto: [R-es] Big data con R Hola. Últimamente ha habido en la lista varios hilos sobre análisis de grandes volúmenes de datos con R. Las alternativas que se han mencionado son: - Usar una máquina más potente, vía Amazon Web Services, por ejemplo - Paralelización con openMp - h2o y su paquete para R, - Paquete sparklyr como wrapper de los algoritmos de spark, Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de datos, utilizar varias muestras para ajustar los modelos. A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos de spark (en la versión 2.1 de spark liberada hace menos de un mes) http://spark.apache.org/docs/latest/sparkr.html#machine-learning SparkR (R on Spark) - Spark 2.1.0 Documentation<http://spark.apache.org/docs/latest/sparkr.html#machine-learning> spark.apache.org SparkR (R on Spark) Overview; SparkDataFrame. Starting Up: SparkSession; Starting Up from RStudio; Creating SparkDataFrames. From local data frames; From Data Sources Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué opináis al respecto? ¿Es una tendencia pasajera? Saludos [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es Página de Información de R-help-es<https://stat.ethz.ch/mailman/listinfo/r-help-es> stat.ethz.ch Esta es una lista de correo para solicitar ayuda sobre R en español y se entiende como un complemento social a la documentación, libros, etc. disponibles sobre R ... [[alternative HTML version deleted]]
2017-01-04 13:09 GMT-03:00 Francisco Rodríguez <fjroar en hotmail.com>:> casi todo se reduce a aplicar un algoritmo sobre una tabla de 70 GB > directamenteEn muchos entornos, tristemente, esto es así. Un ejemplo muy difundido conque yo me he topado es que hay personas que al aplicar estos algoritmos directamente es que no reparan en la naturaleza de las variables (categóricas, fechas, etc.)? quedando cuestiones como que la probabilidad de éxito de la compra de un producto, depende de la marca (brand) 5.5 (¡cuando las marcas eran categóricas, pero nadie lo notó!). Sin embargo, la crossvalidación, los nodos, las cajas, todo, arrojó ese como mejor resultado. Esto ya sucedía muchos años antes de que el big data, machine learning o el data scientism estuvieran de moda, y se veía mucho cuando las personas utiliza(ba)n softwares potentísimos como SPSS, en los que se corre el riesgo de hacer clic en los botones equivocados y errar todo el trabajo. No sé a quién se pueda responsabilizar de este tipo de situaciones. ¿La ansiedad de obtener resultados rápidamente, tal vez? En clases formales en general se hace énfasis en diferenciar para qué sirven los procedimientos, cuándo y cómo aplicarlos. ?En fin, respondiendo a Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué> opináis al respecto? ¿Es una tendencia pasajera?no, no creo que sea algo pasajero, al menos pensando como un corporativo (que no lo soy ??). Es algo, en mi opinión, que ha venido para quedarse. Puede ser que hadoop y spark propiamente pasen de moda (no tan) pronto, pero, computacionalmente, el presente y futuro ya es el cálculo distribuido y los esfuerzos se irán poniendo en hallar formas de implementar lo existente y lo por descubrir en nodos, hilos, clusters, nubes... ¡En fin, esto da para mucho debate! ¡Salud! -- «Pídeles sus títulos a los que te persiguen, pregúntales cuándo nacieron, diles que te demuestren su existencia.» Rafael Cadenas [[alternative HTML version deleted]]
Hola, ¡Feliz Año! Al final estos un tanto "off-topic" son los que más atención e interés acaban generando. Sí, es un tema que da mucho de sí, ya en un hilo anterior comenté formas de poder tratar grandes conjuntos de datos con R, diferenciando cambios en el software a utilizar y en el hardware. Recogiendo algunas ideas adicionales de lo que ha comentado Francisco: - Es muy diferente el trato (ciclo de vida) que se ha plantear cuando hablamos de un entorno industrial frente al que se puede plantear cuando uno trabaja en modo "solo". - En un entorno industrial, son muchos los elementos, procesos que se han de tener en cuenta además de la fase de "descubrimiento". Hay todo un capítulo del Gobierno del Dato, Securización, Catalogación, etc. que incluyen capítulos como los de "Calidad del Dato" para evitar justamente esos casos de datos anómalos. - En el modo "solo" estas cosas más o menos te las apañas y si vas repitiendo estudios, hasta consigues plantearte un flujo de trabajo. - Sobre las tecnologías existentes: - Trabajamos en empresas parecidas y sabemos que al menos aquí en España, es muy reciente la adopción de Hadoop y mucho más reciente de Spark. Los clústeres como el que dice los acaban de estrenar, ahora toca explotarlos, así que es ahora cuando aparecerán todas esas necesidades de Gobierno del Dato para pasar a la explotación analítica. - Y en esta explotación analítica, veo a "R" cada vez más: R con SparkR, o la alternativa de R/H2O y "aterrizando" sparklyr. - Pero hay mucho que cambiar en todo esto y la transición será lenta, SAS sigue estando muy asentado. - Y sobre todo esto, se abre el debate de cómo gestionar el ciclo de desarrollo de los "salvajes" científicos de datos. - Fuera de aquí, de lo que vas viendo por ahí: - se sigue apostando por Spark, aunque ya hay alternativas (Flink, Apex). - pero cada vez se oye más de la computación en la nube, procesar y generar tus modelos (por ahora R y Python) y explotarlos de forma automática. - Y otro elemento que también comienza a tomar cuerpo es el "Self-Service Analytics": sube tus datos y de forma automática te generan modelos alternativos, análisis de tus variables, etc. Quizás en alguna de las reuniones del Grupo de Madrid, debiéramos de hablar de esto en modo mesa redonda que por cierto nunca hemos hecho ninguna... Gracias, Carlos. El 4 de enero de 2017, 9:54, José Luis Cañadas <canadasreche en gmail.com> escribió:> Hola. > > Últimamente ha habido en la lista varios hilos sobre análisis de grandes > volúmenes de datos con R. > Las alternativas que se han mencionado son: > - Usar una máquina más potente, vía Amazon Web Services, por ejemplo > - Paralelización con openMp > - h2o y su paquete para R, > - Paquete sparklyr como wrapper de los algoritmos de spark, > > Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de > datos, utilizar varias muestras para ajustar los modelos. > > A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos > de spark (en la versión 2.1 de spark liberada hace menos de un mes) > http://spark.apache.org/docs/latest/sparkr.html#machine-learning > > Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué > opináis al respecto? ¿Es una tendencia pasajera? > Saludos > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]