thr3ads.net - R help es - [R-es] Big data con R [Jan 2017]

If this information is useful, please help other people find it:
Share via:

José Luis Cañadas

2017-Jan-04 08:54 UTC

[R-es] Big data con R

Hola.

Últimamente ha habido en la lista varios hilos sobre análisis de grandes
volúmenes de datos con R.
Las alternativas que se han mencionado son:
-  Usar una máquina más potente, vía Amazon Web Services, por ejemplo
 -  Paralelización con openMp
-  h2o y su paquete para R,
-  Paquete sparklyr como wrapper de los algoritmos de spark,

Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
datos, utilizar varias muestras para ajustar los modelos.

A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
de spark (en la versión 2.1 de spark liberada hace menos de un mes)
 http://spark.apache.org/docs/latest/sparkr.html#machine-learning

Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
opináis al respecto? ¿Es una tendencia pasajera?
Saludos

	[[alternative HTML version deleted]]

Francisco Rodríguez

2017-Jan-04 16:09 UTC

head link

[R-es] Big data con R

Coincido contigo José Luis sobre todo en lo de muestrear, todo lo demás no está
mal pero siempre que se observe un poco la naturaleza y se entienda lo más
posible el cómo se genera la información.


Hablar de mezclar grandes volúmenes de información de sacar relaciones entre
miles de variables sin criterios claros de depuración de información y no me
refiero sólo al tratamiento (que no eliminación total) de los outliers, sino a
determinados datos engañosos que ensucian en ocasiones las tablas y que hay que
eliminar o interpolar, ceros o números tipo 999 o 999999999 que se confunden con
missing, cadenas de caracteres sin sentido, datos erróneos de transacciones que
finalmente no llegaron a existir, ... y que hay que poder detectar y limpiar,
además del sentido de negocio y de la interpretabilidad de las soluciones
finales, cumplimiento de hipótesis de partida, etc


En fin, bastantes cosas de las que no se habla y que da la sensación (y espero
equivocarme) de que casi todo se reduce a aplicar un algoritmo sobre una tabla
de 70 GB directamente que te habían pasado de no sé donde, y "ala",
hemos encontrado la relación que establece que el Número de Nacimientos en
Mozambique que explica bastante bien el Incremento de nuestras Ventas de
Cepillos de Dientes


Un saludo


________________________________
De: R-help-es <r-help-es-bounces en r-project.org> en nombre de José Luis
Cañadas <canadasreche en gmail.com>
Enviado: miércoles, 4 de enero de 2017 8:54
Para: r-help-es
Asunto: [R-es] Big data con R

Hola.

Últimamente ha habido en la lista varios hilos sobre análisis de grandes
volúmenes de datos con R.
Las alternativas que se han mencionado son:
-  Usar una máquina más potente, vía Amazon Web Services, por ejemplo
 -  Paralelización con openMp
-  h2o y su paquete para R,
-  Paquete sparklyr como wrapper de los algoritmos de spark,

Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
datos, utilizar varias muestras para ajustar los modelos.

A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
de spark (en la versión 2.1 de spark liberada hace menos de un mes)
 http://spark.apache.org/docs/latest/sparkr.html#machine-learning
SparkR (R on Spark) - Spark 2.1.0
Documentation<http://spark.apache.org/docs/latest/sparkr.html#machine-learning>
spark.apache.org
SparkR (R on Spark) Overview; SparkDataFrame. Starting Up: SparkSession;
Starting Up from RStudio; Creating SparkDataFrames. From local data frames; From
Data Sources




Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
opináis al respecto? ¿Es una tendencia pasajera?
Saludos

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
Página de Información de
R-help-es<https://stat.ethz.ch/mailman/listinfo/r-help-es>
stat.ethz.ch
Esta es una lista de correo para solicitar ayuda sobre R en español y se
entiende como un complemento social a la documentación, libros, etc. disponibles
sobre R ...




	[[alternative HTML version deleted]]

Freddy Omar López Quintero

2017-Jan-04 18:06 UTC

head link

[R-es] Big data con R

2017-01-04 13:09 GMT-03:00 Francisco Rodríguez <fjroar en hotmail.com>:
> casi todo se reduce a aplicar un algoritmo sobre una tabla de 70 GB
> directamente

En muchos entornos, tristemente, esto es así. Un ejemplo muy difundido
conque yo me he topado es que hay personas que al aplicar estos algoritmos
directamente es que no reparan en la naturaleza de las variables
(categóricas, fechas, etc.)? quedando cuestiones como que la probabilidad
de éxito de la compra de un producto, depende de la marca (brand) 5.5
(¡cuando las marcas eran categóricas, pero nadie lo notó!). Sin embargo, la
crossvalidación, los nodos, las cajas, todo, arrojó ese como mejor
resultado.

Esto ya sucedía muchos años antes de que el big data, machine learning o el
data scientism estuvieran de moda, y se veía mucho cuando las personas
utiliza(ba)n softwares potentísimos como SPSS, en los que se corre el
riesgo de hacer clic en los botones equivocados y errar todo el trabajo.

No sé a quién se pueda responsabilizar de este tipo de situaciones. ¿La
ansiedad de obtener resultados rápidamente, tal vez? En clases formales en
general se hace énfasis en diferenciar para qué sirven los procedimientos,
cuándo y cómo aplicarlos.

?En fin, respondiendo a

Parece que la tendencia es hacia el uso de entornos hadoop y spark.
¿qué> opináis al respecto? ¿Es una tendencia pasajera?

no, no creo que sea algo pasajero, al menos pensando como un corporativo
(que no lo soy ??). Es algo, en mi opinión, que ha venido para quedarse.
Puede ser que hadoop y spark propiamente pasen de moda (no tan) pronto,
pero, computacionalmente, el presente y futuro ya es el cálculo distribuido
y los esfuerzos se irán poniendo en hallar formas de implementar lo
existente y lo por descubrir en nodos, hilos, clusters, nubes...

¡En fin, esto da para mucho debate!

¡Salud!


-- 
«Pídeles sus títulos a los que te persiguen, pregúntales
cuándo nacieron, diles que te demuestren su existencia.»

Rafael Cadenas

	[[alternative HTML version deleted]]

Carlos Ortega

2017-Jan-04 19:36 UTC

head link

[R-es] Big data con R

Hola,

¡Feliz Año!
Al final estos un tanto "off-topic" son los que más atención e interés
acaban generando.

Sí, es un tema que da mucho de sí, ya en un hilo anterior comenté formas de
poder tratar grandes conjuntos de datos con R, diferenciando cambios en el
software a utilizar y en el hardware.

Recogiendo algunas ideas adicionales de lo que ha comentado Francisco:

   - Es muy diferente el trato (ciclo de vida) que se ha plantear cuando
   hablamos de un entorno industrial frente al que se puede plantear cuando
   uno trabaja en modo "solo".
      - En un entorno industrial, son muchos los elementos, procesos que se
      han de tener en cuenta además de la fase de "descubrimiento".
Hay todo un
      capítulo del Gobierno del Dato, Securización, Catalogación, etc. que
      incluyen capítulos como los de "Calidad del Dato" para evitar
justamente
      esos casos de datos anómalos.
      - En el modo "solo" estas cosas más o menos te las apañas y si
vas
      repitiendo estudios, hasta consigues plantearte un flujo de trabajo.
   - Sobre las tecnologías existentes:
      - Trabajamos en empresas parecidas y sabemos que al menos aquí en
      España, es muy reciente la adopción de Hadoop y mucho más reciente de
      Spark. Los clústeres como el que dice los acaban de estrenar, ahora toca
      explotarlos, así que es ahora cuando aparecerán todas esas necesidades de
      Gobierno del Dato para pasar a la explotación analítica.
         - Y en esta explotación analítica, veo a "R" cada vez más: R
con
         SparkR, o la alternativa de R/H2O y "aterrizando" sparklyr.
         - Pero hay mucho que cambiar en todo esto y la transición será
         lenta, SAS sigue estando muy asentado.
         - Y sobre todo esto, se abre el debate de cómo gestionar el ciclo
         de desarrollo de los "salvajes" científicos de datos.
      - Fuera de aquí, de lo que vas viendo por ahí:
         - se sigue apostando por Spark, aunque ya hay alternativas (Flink,
         Apex).
         - pero cada vez se oye más de la computación en la nube, procesar
         y generar tus modelos (por ahora R y Python) y explotarlos de forma
         automática.
         - Y otro elemento que también comienza a tomar cuerpo es el
         "Self-Service Analytics": sube tus datos y de forma
automática te generan
         modelos alternativos, análisis de tus variables, etc.

Quizás en alguna de las reuniones del Grupo de Madrid, debiéramos de hablar
de esto en modo mesa redonda que por cierto nunca hemos hecho ninguna...

Gracias,
Carlos.

El 4 de enero de 2017, 9:54, José Luis Cañadas <canadasreche en gmail.com>
escribió:
> Hola.
>
> Últimamente ha habido en la lista varios hilos sobre análisis de grandes
> volúmenes de datos con R.
> Las alternativas que se han mencionado son:
> -  Usar una máquina más potente, vía Amazon Web Services, por ejemplo
>  -  Paralelización con openMp
> -  h2o y su paquete para R,
> -  Paquete sparklyr como wrapper de los algoritmos de spark,
>
> Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
> datos, utilizar varias muestras para ajustar los modelos.
>
> A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
> de spark (en la versión 2.1 de spark liberada hace menos de un mes)
>  http://spark.apache.org/docs/latest/sparkr.html#machine-learning
>
> Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
> opináis al respecto? ¿Es una tendencia pasajera?
> Saludos
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

Reasonably Related Threads

Search for more maybe matching threads

R help es - Jan 2017 - Big data con R

[R-es] Big data con R

[R-es] Big data con R

[R-es] Big data con R

[R-es] Big data con R

Reasonably Related Threads