Hola,
Es que también habría que definir a que etapa del proceso de BigData te
estás refiriendo.
Supongo que te refieres a la etapa de Machine Learning / Analytics, ¿es
así?.
Desde la fuente del dato hasta conseguir "información operacional",
información que puede transformarse en una acción para el negocio; hay
muchas etapas y en cada una de ellas existe un auténtico zoo de soluciones
cada una de ellas utilizando un lenguaje específico.
Este gráfico de cómo lo pinta Microsoft ayuda mucho a ver todas estas
etapas:
[image: Imágenes integradas 1]
Y en particular para el capítulo de *Machine Learning / Analytics*, sigue
habiendo muchas soluciones. Claramente lo que está más implantado todavía
son soluciones SAS, que por coste fundamentalmente y porque los nuevos que
llegan, ya llegan con R y Python, hay un movimiento de cambio. Costará la
transformación, pero se está forzando mucho, pero avanzando lento (el
efecto Lindy que no terminamos de entender [1] y pensamos que los cambios
son de la noche a la mañana)
Y sobre soluciones de Machine Learning/Analytics para BigData, R sigue
teniendo para mí un punto de ventaja. Curiosamente, la mayor parte de las
soluciones enterprise para esta etapa lo primero que te cuentan es que son
compatibles con "R": IBM, Oracle, etc. Y si apuestas por soluciones
opensource tendrás que entonces también bajar un peldaño más y definir el
tipo de problemas que quieres solucionar. Para el tipo de modelización
habitual (no "deep learning") R/H2O es muy bueno (incluso para un glm
de 30
millones o más de registros, ja, ja) y sparklyr/sparkR también son
soluciones muy buenas. Pero si tu problema es de "deep learning"
entonces,
Python con Keras/Tehano es el camino aunque ahora todo el mundo habla de
TensorFlow. R tiene ya mxnet y la solución H2O está en camino.
Por otro lado, Python es un lenguaje de propósito general y es normal su
popularidad sea muy alta, pero "R" no anda muy lejos en popularidad,
siendo
un lenguaje de propósito muy específico. Ahí está la última encuesta de
popularidad de lenguajes del IEEE [2] donde "R" es el quinto y Python
es el
segundo. Pero cuando hablamos de popularidad entre los Científicos de
datos, en las encuestas de Kdnuggets en lo que se lleva haciendo la
encuestas "R" es el primero, aunque Python subiendo muy rápidamente
[3].
De todas formas, volviendo al principio, no sé si lo adecuado es hablar de
"perder la batalla", ¿hubo alguna vez una guerra?...
Saludos,
Carlos.
[1]:
https://www.wired.com/2012/12/worlds-not-ending-but-technologys-aging-backwards/
[2]:
http://spectrum.ieee.org/computing/software/the-2016-top-programming-languages
[3]:
http://blog.revolutionanalytics.com/2016/06/r-holds-top-ranking-in-kdnuggets-software-poll.html
El 15 de enero de 2017, 18:02, José Luis Cañadas <canadasreche en
gmail.com>
escribió:
> Hola.
> Pues no sabría decirte. Yo vivo rodeado de pythonistas, supongo que por
> todo el auge del Big data y los "learning" machine learning,deep
learning
> ¿quien pone los nombres? ;), mucha gente viene de otras áreas y están
> acostumbrados a usar Python y otros lenguajes.
> También es cierto que todo lo relacionado con el Big data ha llegado con
> Scala y Python. Pero aparte de sparklyr, que pienso que todavía anda un
> poco cojo hay que destacar que en la última versión de spark, la api para R
> (sparkr) ya incorpora los algoritmos de MLlib. Y tampoco podemos olvidarnos
> de h2o que se integra bastante bien con R. Y por último y no menos
> importante, para la gran mayoría de problemas de analisis con Big Data no
> hace falta el Big, el muestreo lleva tiempo con nosotros y tomando pequeñas
> y medianas muestras se obtienen iguales resultados y con menor esfuerzo.
> Pero claro, está la cosa esta de decir, ¡ he hecho un glm con 30 millones
> de datos! ¿y?
> No sé si impondrá python, R o lo que esté por venir. Aunque he de decir que
> para analizar datos me parece más natural R que Python.
>
> Saludos
>
> El dom., 15 ene. 2017 14:55, Jesús Para Fernández <
> j.para.fernandez en hotmail.com> escribió:
>
> > Hace poco me puse al tema del big data y la verdad es que een este
campo
> > la decisión parece clara. Python ahora mismo está un paso por delante
de
> R,
> > aunque sparklyR puede igualar la contienda.
> >
> > Pero lo que me empieza a preocupar es que parece que si nos alejamos
del
> > Big Data, Python tb está ganando adeptos a pasos agigantados. ¿Está
> > perdiendo R la batalla?
> >
> >
> >
> > [[alternative HTML version deleted]]
> >
> > _______________________________________________
> > R-help-es mailing list
> > R-help-es en r-project.org
> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL:
<https://stat.ethz.ch/pipermail/r-help-es/attachments/20170115/007dc07c/attachment-0001.html>
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: image.png
Type: image/png
Size: 146021 bytes
Desc: no disponible
URL:
<https://stat.ethz.ch/pipermail/r-help-es/attachments/20170115/007dc07c/attachment-0001.png>