Hola. Últimamente ha habido en la lista varios hilos sobre análisis de grandes volúmenes de datos con R. Las alternativas que se han mencionado son: - Usar una máquina más potente, vía Amazon Web Services, por ejemplo - Paralelización con openMp - h2o y su paquete para R, - Paquete sparklyr como wrapper de los algoritmos de spark, Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de datos, utilizar varias muestras para ajustar los modelos. A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos de spark (en la versión 2.1 de spark liberada hace menos de un mes) http://spark.apache.org/docs/latest/sparkr.html#machine-learning Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué opináis al respecto? ¿Es una tendencia pasajera? Saludos [[alternative HTML version deleted]]
Coincido contigo José Luis sobre todo en lo de muestrear, todo lo demás no está
mal pero siempre que se observe un poco la naturaleza y se entienda lo más
posible el cómo se genera la información.
Hablar de mezclar grandes volúmenes de información de sacar relaciones entre
miles de variables sin criterios claros de depuración de información y no me
refiero sólo al tratamiento (que no eliminación total) de los outliers, sino a
determinados datos engañosos que ensucian en ocasiones las tablas y que hay que
eliminar o interpolar, ceros o números tipo 999 o 999999999 que se confunden con
missing, cadenas de caracteres sin sentido, datos erróneos de transacciones que
finalmente no llegaron a existir, ... y que hay que poder detectar y limpiar,
además del sentido de negocio y de la interpretabilidad de las soluciones
finales, cumplimiento de hipótesis de partida, etc
En fin, bastantes cosas de las que no se habla y que da la sensación (y espero
equivocarme) de que casi todo se reduce a aplicar un algoritmo sobre una tabla
de 70 GB directamente que te habían pasado de no sé donde, y "ala",
hemos encontrado la relación que establece que el Número de Nacimientos en
Mozambique que explica bastante bien el Incremento de nuestras Ventas de
Cepillos de Dientes
Un saludo
________________________________
De: R-help-es <r-help-es-bounces en r-project.org> en nombre de José Luis
Cañadas <canadasreche en gmail.com>
Enviado: miércoles, 4 de enero de 2017 8:54
Para: r-help-es
Asunto: [R-es] Big data con R
Hola.
Últimamente ha habido en la lista varios hilos sobre análisis de grandes
volúmenes de datos con R.
Las alternativas que se han mencionado son:
- Usar una máquina más potente, vía Amazon Web Services, por ejemplo
- Paralelización con openMp
- h2o y su paquete para R,
- Paquete sparklyr como wrapper de los algoritmos de spark,
Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
datos, utilizar varias muestras para ajustar los modelos.
A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
de spark (en la versión 2.1 de spark liberada hace menos de un mes)
http://spark.apache.org/docs/latest/sparkr.html#machine-learning
SparkR (R on Spark) - Spark 2.1.0
Documentation<http://spark.apache.org/docs/latest/sparkr.html#machine-learning>
spark.apache.org
SparkR (R on Spark) Overview; SparkDataFrame. Starting Up: SparkSession;
Starting Up from RStudio; Creating SparkDataFrames. From local data frames; From
Data Sources
Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
opináis al respecto? ¿Es una tendencia pasajera?
Saludos
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
Página de Información de
R-help-es<https://stat.ethz.ch/mailman/listinfo/r-help-es>
stat.ethz.ch
Esta es una lista de correo para solicitar ayuda sobre R en español y se
entiende como un complemento social a la documentación, libros, etc. disponibles
sobre R ...
[[alternative HTML version deleted]]
2017-01-04 13:09 GMT-03:00 Francisco Rodríguez <fjroar en hotmail.com>:> casi todo se reduce a aplicar un algoritmo sobre una tabla de 70 GB > directamenteEn muchos entornos, tristemente, esto es así. Un ejemplo muy difundido conque yo me he topado es que hay personas que al aplicar estos algoritmos directamente es que no reparan en la naturaleza de las variables (categóricas, fechas, etc.)? quedando cuestiones como que la probabilidad de éxito de la compra de un producto, depende de la marca (brand) 5.5 (¡cuando las marcas eran categóricas, pero nadie lo notó!). Sin embargo, la crossvalidación, los nodos, las cajas, todo, arrojó ese como mejor resultado. Esto ya sucedía muchos años antes de que el big data, machine learning o el data scientism estuvieran de moda, y se veía mucho cuando las personas utiliza(ba)n softwares potentísimos como SPSS, en los que se corre el riesgo de hacer clic en los botones equivocados y errar todo el trabajo. No sé a quién se pueda responsabilizar de este tipo de situaciones. ¿La ansiedad de obtener resultados rápidamente, tal vez? En clases formales en general se hace énfasis en diferenciar para qué sirven los procedimientos, cuándo y cómo aplicarlos. ?En fin, respondiendo a Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué> opináis al respecto? ¿Es una tendencia pasajera?no, no creo que sea algo pasajero, al menos pensando como un corporativo (que no lo soy ??). Es algo, en mi opinión, que ha venido para quedarse. Puede ser que hadoop y spark propiamente pasen de moda (no tan) pronto, pero, computacionalmente, el presente y futuro ya es el cálculo distribuido y los esfuerzos se irán poniendo en hallar formas de implementar lo existente y lo por descubrir en nodos, hilos, clusters, nubes... ¡En fin, esto da para mucho debate! ¡Salud! -- «Pídeles sus títulos a los que te persiguen, pregúntales cuándo nacieron, diles que te demuestren su existencia.» Rafael Cadenas [[alternative HTML version deleted]]
Hola,
¡Feliz Año!
Al final estos un tanto "off-topic" son los que más atención e interés
acaban generando.
Sí, es un tema que da mucho de sí, ya en un hilo anterior comenté formas de
poder tratar grandes conjuntos de datos con R, diferenciando cambios en el
software a utilizar y en el hardware.
Recogiendo algunas ideas adicionales de lo que ha comentado Francisco:
- Es muy diferente el trato (ciclo de vida) que se ha plantear cuando
hablamos de un entorno industrial frente al que se puede plantear cuando
uno trabaja en modo "solo".
- En un entorno industrial, son muchos los elementos, procesos que se
han de tener en cuenta además de la fase de "descubrimiento".
Hay todo un
capítulo del Gobierno del Dato, Securización, Catalogación, etc. que
incluyen capítulos como los de "Calidad del Dato" para evitar
justamente
esos casos de datos anómalos.
- En el modo "solo" estas cosas más o menos te las apañas y si
vas
repitiendo estudios, hasta consigues plantearte un flujo de trabajo.
- Sobre las tecnologías existentes:
- Trabajamos en empresas parecidas y sabemos que al menos aquí en
España, es muy reciente la adopción de Hadoop y mucho más reciente de
Spark. Los clústeres como el que dice los acaban de estrenar, ahora toca
explotarlos, así que es ahora cuando aparecerán todas esas necesidades de
Gobierno del Dato para pasar a la explotación analítica.
- Y en esta explotación analítica, veo a "R" cada vez más: R
con
SparkR, o la alternativa de R/H2O y "aterrizando" sparklyr.
- Pero hay mucho que cambiar en todo esto y la transición será
lenta, SAS sigue estando muy asentado.
- Y sobre todo esto, se abre el debate de cómo gestionar el ciclo
de desarrollo de los "salvajes" científicos de datos.
- Fuera de aquí, de lo que vas viendo por ahí:
- se sigue apostando por Spark, aunque ya hay alternativas (Flink,
Apex).
- pero cada vez se oye más de la computación en la nube, procesar
y generar tus modelos (por ahora R y Python) y explotarlos de forma
automática.
- Y otro elemento que también comienza a tomar cuerpo es el
"Self-Service Analytics": sube tus datos y de forma
automática te generan
modelos alternativos, análisis de tus variables, etc.
Quizás en alguna de las reuniones del Grupo de Madrid, debiéramos de hablar
de esto en modo mesa redonda que por cierto nunca hemos hecho ninguna...
Gracias,
Carlos.
El 4 de enero de 2017, 9:54, José Luis Cañadas <canadasreche en gmail.com>
escribió:
> Hola.
>
> Últimamente ha habido en la lista varios hilos sobre análisis de grandes
> volúmenes de datos con R.
> Las alternativas que se han mencionado son:
> - Usar una máquina más potente, vía Amazon Web Services, por ejemplo
> - Paralelización con openMp
> - h2o y su paquete para R,
> - Paquete sparklyr como wrapper de los algoritmos de spark,
>
> Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
> datos, utilizar varias muestras para ajustar los modelos.
>
> A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
> de spark (en la versión 2.1 de spark liberada hace menos de un mes)
> http://spark.apache.org/docs/latest/sparkr.html#machine-learning
>
> Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
> opináis al respecto? ¿Es una tendencia pasajera?
> Saludos
>
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
[[alternative HTML version deleted]]