thr3ads.net - R help es - [R-es] SVM hadoop [Dec 2015]

If this information is useful, please help other people find it:
Share via:

Carlos Ortega

2015-Dec-10 15:03 UTC

[R-es] SVM hadoop

Hola,

Puedes poner un RStudio en Amazon, poner "caret" y a correr....
No sé si tendrás suficiente con lo que te pueda ofrecer Amazon para tu
problema... creo que sí...  ;-)....

O directamente hacerlo aquí, que toda esta instalación ya la tienen hecha:

http://www.teraproc.com/front-page-posts/r-on-demand/

Gracias,
Carlos.

El 10 de diciembre de 2015, 14:43, MªLuz Morales <mlzmrls en gmail.com>
escribió:
> Hola,
>
> gracias por tu sugerencia, aunque creo que no será suficiente porque mi
> objetivo es trabajar con big data
>
> El 10 de diciembre de 2015, 13:23, Carlos Ortega <cof en
qualityexcellence.es
> > escribió:
>
>> Hola,
>>
>> ¿Y no te valdría el ejecutar tu código con "caret" y activar
la opción de
>> paralelizar?.
>> El escenario "caret + paralelización + svm" funciona sin
problemas.
>>
>> Adjunto una captura de pantalla del libro de "Kuhn" (Applied
Predictive
>> Modeling) con los tiempos de ejecución que se obtienen al ejecutar
>> diferentes modelos (SVM, RF, LDA) sobre un mismo conjunto de datos y
>> utiilzando diferente número de "cores".
>>
>> Gracias,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El 10 de diciembre de 2015, 11:56, MªLuz Morales <mlzmrls en
gmail.com>
>> escribió:
>>
>>> Hola,
>>> gracias por vuestras respuestas anteriores.  Son interesantes
aunque me
>>> han
>>> surgido algunas dudas. Por ejemplo, con respecto al paquete e1071.
En
>>> este
>>> enlace parece que si lo usan para hacer máquina de soporte vector
en
>>> hadoop.
>>>
>>>
http://stackoverflow.com/questions/17731261/r-hadoop-rmr2-svm-model-conver-result-list-class-to-original-class-sv?rq=1
>>>
>>> Carlos, por qué decías que no correrán en paralelo los svm del
paquete
>>> e1071??
>>>
>>> Gracias
>>> Un saludo
>>> MªLuz
>>>
>>> El 10 de diciembre de 2015, 2:35, Javier Marcuzzi <
>>> javier.ruben.marcuzzi en gmail.com> escribió:
>>>
>>> > Estimados
>>> >
>>> >
>>> >
>>> > Un día leí algo en el siguiente hipervínculo, pero nunca lo
use.
>>> >
>>> >
>>> >
>>> >
>>> >
>>>
http://blog.revolutionanalytics.com/2015/06/using-hadoop-with-r-it-depends.html
>>> >
>>> >
>>> >
>>> > Javier Rubén Marcuzzi
>>> >
>>> >
>>> >
>>> >
>>> >
>>> >
>>> > *De: *Carlos J. Gil Bellosta
>>> > *Enviado: *miércoles, 9 de diciembre de 2015 14:33
>>> > *Para: *MªLuz Morales
>>> > *CC: *r-help-es
>>> > *Asunto: *Re: [R-es] SVM hadoop
>>>
>>> >
>>> >
>>> >
>>> >
>>> >
>>> > No, no correrán en paralelo si usas los SVM de paquetes como
e1071.
>>> >
>>> >
>>> >
>>> > No obstante, tienes, por un lado, los trucos habituales para
hacer algo
>>> >
>>> > "parecido" a SVM o "basado" en SVM pero
que no sea SVM. Si es que eso
>>> te
>>> >
>>> > vale.
>>> >
>>> >
>>> >
>>> > Puedes probar a hacerlo con mllib (sobre Spark), como aquí
>>> >
>>> > <
>>> >
>>>
http://spark.apache.org/docs/latest/mllib-linear-methods.html#linear-support-vector-machines-svms
>>> > >.
>>> >
>>> > ¡Pero no lo he probado nunca!
>>> >
>>> >
>>> >
>>> > Un saludo,
>>> >
>>> >
>>> >
>>> > Carlos J. Gil Bellosta
>>> >
>>> > http://www.datanalytics.com
>>> >
>>> >
>>> >
>>> > El 9 de diciembre de 2015, 13:15, MªLuz Morales <mlzmrls en
gmail.com>
>>> >
>>> > escribió:
>>> >
>>> >
>>> >
>>> > > Buenos días,
>>> >
>>> > >
>>> >
>>> > > alguien sabe si hay alguna manera de implementar una
máquina de
>>> soporte
>>> >
>>> > > vectorial (svm) con R-hadoop??
>>> >
>>> > >
>>> >
>>> > > Mi interés es hacer procesamiento big data con svm. Se
que en R,
>>> existen
>>> >
>>> > > los paquetes {RtextTools} y {e1071} que permiten hacer
svm. Pero no
>>> estoy
>>> >
>>> > > segura de que el algoritmo sea paralelizable, es decir,
que pueda
>>> correr
>>> > en
>>> >
>>> > > paralelo a través de la plataforma R-hadoop.
>>> >
>>> > >
>>> >
>>> > > Muchas gracias
>>> >
>>> > > Un saludo
>>> >
>>> > > MªLuz Morales
>>> >
>>> > >
>>> >
>>> > >         [[alternative HTML version deleted]]
>>> >
>>> > >
>>> >
>>> > > _______________________________________________
>>> >
>>> > > R-help-es mailing list
>>> >
>>> > > R-help-es en r-project.org
>>> >
>>> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> >
>>> > >
>>> >
>>> >
>>> >
>>> >                 [[alternative HTML version deleted]]
>>> >
>>> >
>>> >
>>> > _______________________________________________
>>> >
>>> > R-help-es mailing list
>>> >
>>> > R-help-es en r-project.org
>>> >
>>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> >
>>> >
>>> >
>>> >
>>> >
>>>
>>>         [[alternative HTML version deleted]]
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>
>

-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

MªLuz Morales

2015-Dec-11 07:49 UTC

head link

[R-es] SVM hadoop

Hola,
cuando hablas de la opción Rstudio en Amazon, te refieres mediante hadoop?
(esa es la idea que tengo, usar R con hadoop en amazon, pero necesito que
el algoritmo svm sea paralelizable...

Esto otro que mencionas:
http://www.teraproc.com/front-page-posts/r-on-demand/
que entorno de paralelización usa? conozco hadoop y spark,


Gracias
Un saludo


El 10 de diciembre de 2015, 16:03, Carlos Ortega <cof en
qualityexcellence.es>
escribió:
> Hola,
>
> Puedes poner un RStudio en Amazon, poner "caret" y a correr....
> No sé si tendrás suficiente con lo que te pueda ofrecer Amazon para tu
> problema... creo que sí...  ;-)....
>
> O directamente hacerlo aquí, que toda esta instalación ya la tienen hecha:
>
> http://www.teraproc.com/front-page-posts/r-on-demand/
>
> Gracias,
> Carlos.
>
> El 10 de diciembre de 2015, 14:43, MªLuz Morales <mlzmrls en
gmail.com>
> escribió:
>
>> Hola,
>>
>> gracias por tu sugerencia, aunque creo que no será suficiente porque mi
>> objetivo es trabajar con big data
>>
>> El 10 de diciembre de 2015, 13:23, Carlos Ortega <
>> cof en qualityexcellence.es> escribió:
>>
>>> Hola,
>>>
>>> ¿Y no te valdría el ejecutar tu código con "caret" y
activar la opción
>>> de paralelizar?.
>>> El escenario "caret + paralelización + svm" funciona sin
problemas.
>>>
>>> Adjunto una captura de pantalla del libro de "Kuhn"
(Applied Predictive
>>> Modeling) con los tiempos de ejecución que se obtienen al ejecutar
>>> diferentes modelos (SVM, RF, LDA) sobre un mismo conjunto de datos
y
>>> utiilzando diferente número de "cores".
>>>
>>> Gracias,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> El 10 de diciembre de 2015, 11:56, MªLuz Morales <mlzmrls en
gmail.com>
>>> escribió:
>>>
>>>> Hola,
>>>> gracias por vuestras respuestas anteriores.  Son interesantes
aunque me
>>>> han
>>>> surgido algunas dudas. Por ejemplo, con respecto al paquete
e1071. En
>>>> este
>>>> enlace parece que si lo usan para hacer máquina de soporte
vector en
>>>> hadoop.
>>>>
>>>>
http://stackoverflow.com/questions/17731261/r-hadoop-rmr2-svm-model-conver-result-list-class-to-original-class-sv?rq=1
>>>>
>>>> Carlos, por qué decías que no correrán en paralelo los svm del
paquete
>>>> e1071??
>>>>
>>>> Gracias
>>>> Un saludo
>>>> MªLuz
>>>>
>>>> El 10 de diciembre de 2015, 2:35, Javier Marcuzzi <
>>>> javier.ruben.marcuzzi en gmail.com> escribió:
>>>>
>>>> > Estimados
>>>> >
>>>> >
>>>> >
>>>> > Un día leí algo en el siguiente hipervínculo, pero nunca
lo use.
>>>> >
>>>> >
>>>> >
>>>> >
>>>> >
>>>>
http://blog.revolutionanalytics.com/2015/06/using-hadoop-with-r-it-depends.html
>>>> >
>>>> >
>>>> >
>>>> > Javier Rubén Marcuzzi
>>>> >
>>>> >
>>>> >
>>>> >
>>>> >
>>>> >
>>>> > *De: *Carlos J. Gil Bellosta
>>>> > *Enviado: *miércoles, 9 de diciembre de 2015 14:33
>>>> > *Para: *MªLuz Morales
>>>> > *CC: *r-help-es
>>>> > *Asunto: *Re: [R-es] SVM hadoop
>>>>
>>>> >
>>>> >
>>>> >
>>>> >
>>>> >
>>>> > No, no correrán en paralelo si usas los SVM de paquetes
como e1071.
>>>> >
>>>> >
>>>> >
>>>> > No obstante, tienes, por un lado, los trucos habituales
para hacer
>>>> algo
>>>> >
>>>> > "parecido" a SVM o "basado" en SVM
pero que no sea SVM. Si es que eso
>>>> te
>>>> >
>>>> > vale.
>>>> >
>>>> >
>>>> >
>>>> > Puedes probar a hacerlo con mllib (sobre Spark), como aquí
>>>> >
>>>> > <
>>>> >
>>>>
http://spark.apache.org/docs/latest/mllib-linear-methods.html#linear-support-vector-machines-svms
>>>> > >.
>>>> >
>>>> > ¡Pero no lo he probado nunca!
>>>> >
>>>> >
>>>> >
>>>> > Un saludo,
>>>> >
>>>> >
>>>> >
>>>> > Carlos J. Gil Bellosta
>>>> >
>>>> > http://www.datanalytics.com
>>>> >
>>>> >
>>>> >
>>>> > El 9 de diciembre de 2015, 13:15, MªLuz Morales
<mlzmrls en gmail.com>
>>>> >
>>>> > escribió:
>>>> >
>>>> >
>>>> >
>>>> > > Buenos días,
>>>> >
>>>> > >
>>>> >
>>>> > > alguien sabe si hay alguna manera de implementar una
máquina de
>>>> soporte
>>>> >
>>>> > > vectorial (svm) con R-hadoop??
>>>> >
>>>> > >
>>>> >
>>>> > > Mi interés es hacer procesamiento big data con svm.
Se que en R,
>>>> existen
>>>> >
>>>> > > los paquetes {RtextTools} y {e1071} que permiten
hacer svm. Pero no
>>>> estoy
>>>> >
>>>> > > segura de que el algoritmo sea paralelizable, es
decir, que pueda
>>>> correr
>>>> > en
>>>> >
>>>> > > paralelo a través de la plataforma R-hadoop.
>>>> >
>>>> > >
>>>> >
>>>> > > Muchas gracias
>>>> >
>>>> > > Un saludo
>>>> >
>>>> > > MªLuz Morales
>>>> >
>>>> > >
>>>> >
>>>> > >         [[alternative HTML version deleted]]
>>>> >
>>>> > >
>>>> >
>>>> > > _______________________________________________
>>>> >
>>>> > > R-help-es mailing list
>>>> >
>>>> > > R-help-es en r-project.org
>>>> >
>>>> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>> >
>>>> > >
>>>> >
>>>> >
>>>> >
>>>> >                 [[alternative HTML version deleted]]
>>>> >
>>>> >
>>>> >
>>>> > _______________________________________________
>>>> >
>>>> > R-help-es mailing list
>>>> >
>>>> > R-help-es en r-project.org
>>>> >
>>>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>> >
>>>> >
>>>> >
>>>> >
>>>> >
>>>>
>>>>         [[alternative HTML version deleted]]
>>>>
>>>> _______________________________________________
>>>> R-help-es mailing list
>>>> R-help-es en r-project.org
>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>>
>>>
>>>
>>>
>>> --
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
	[[alternative HTML version deleted]]

Jorge Ayuso Rejas

2015-Dec-11 08:49 UTC

head link

[R-es] SVM hadoop

Hola Mª Luz,

Te cuento un poco mi visión:

Lo primero de todo es tener claro qué quiero hacer exactamente en paralelo,
se me ocurren 3 escenarios:

(1)  Aplicar un modelo en este caso SVM sobre unos datos muy grandes y por
eso necesito hadoop/spark
(2)  Realizar muchos modelos SVM sobre datos pequeños (por ejemplo uno por
usuario)  y por eso necesito hadoop/spark para parelilizar estos procesos
en muchas máquinas y acabar en un tiempo finito.
(3)  Con un modelo ya realizado en local sobre una muestra quiero hacer
predicciones "predict" sobre muchos datos y por eso necestio
hadoop/spark
para hacer las predicciones ne paralelo.


Posibles soluciones:

(1) Lo más complicado de los 3 escenarios. Lo primero de todo es pensar si
con una muestra suficientemente grande y un único ordenador potente (32gb
64gb?) te puede valer. Si es el caso puedes usar R y cualquier paquete que
incluya SVM. Si esto no te vale y quieres hacerlo sobre el total de los
datos (En mi opinión esto no garantiza que vayas a conseguir mejores
resultados..). Por lo que estuve investigando (si me equivoco que alguien
me corrija!) los SVM no son de lo mejorcito para paralelizar, Spark como
comentó Carlos tiene implementado SVM lineal pero hoy por hoy no lo podrás
ejecutar desde R (si desde python). Otras opciones que te recomiendo es
probar con otros algoritmos, mira por ejemplo h2o (http://h2o.ai/)


(2) Con esto te vale perfectamente RHADOOP y cualquier svm implementado en
R ya que cada svm es 'pequeño' solo que tienes que hacer muchos

(3) Lo mismo que (2) puedes te vale con RHADOOP y hacer `predict` en
paralelo.


Un saludo,
Jorge A.










El 11 de diciembre de 2015, 8:49, MªLuz Morales <mlzmrls en gmail.com>
escribió:
> Hola,
> cuando hablas de la opción Rstudio en Amazon, te refieres mediante hadoop?
> (esa es la idea que tengo, usar R con hadoop en amazon, pero necesito que
> el algoritmo svm sea paralelizable...
>
> Esto otro que mencionas:
> http://www.teraproc.com/front-page-posts/r-on-demand/
> que entorno de paralelización usa? conozco hadoop y spark,
>
>
> Gracias
> Un saludo
>
>
> El 10 de diciembre de 2015, 16:03, Carlos Ortega <cof en
qualityexcellence.es
> >
> escribió:
>
> > Hola,
> >
> > Puedes poner un RStudio en Amazon, poner "caret" y a
correr....
> > No sé si tendrás suficiente con lo que te pueda ofrecer Amazon para tu
> > problema... creo que sí...  ;-)....
> >
> > O directamente hacerlo aquí, que toda esta instalación ya la tienen
> hecha:
> >
> > http://www.teraproc.com/front-page-posts/r-on-demand/
> >
> > Gracias,
> > Carlos.
> >
> > El 10 de diciembre de 2015, 14:43, MªLuz Morales <mlzmrls en
gmail.com>
> > escribió:
> >
> >> Hola,
> >>
> >> gracias por tu sugerencia, aunque creo que no será suficiente
porque mi
> >> objetivo es trabajar con big data
> >>
> >> El 10 de diciembre de 2015, 13:23, Carlos Ortega <
> >> cof en qualityexcellence.es> escribió:
> >>
> >>> Hola,
> >>>
> >>> ¿Y no te valdría el ejecutar tu código con "caret" y
activar la opción
> >>> de paralelizar?.
> >>> El escenario "caret + paralelización + svm" funciona
sin problemas.
> >>>
> >>> Adjunto una captura de pantalla del libro de "Kuhn"
(Applied Predictive
> >>> Modeling) con los tiempos de ejecución que se obtienen al
ejecutar
> >>> diferentes modelos (SVM, RF, LDA) sobre un mismo conjunto de
datos y
> >>> utiilzando diferente número de "cores".
> >>>
> >>> Gracias,
> >>> Carlos Ortega
> >>> www.qualityexcellence.es
> >>>
> >>> El 10 de diciembre de 2015, 11:56, MªLuz Morales <mlzmrls
en gmail.com>
> >>> escribió:
> >>>
> >>>> Hola,
> >>>> gracias por vuestras respuestas anteriores.  Son
interesantes aunque
> me
> >>>> han
> >>>> surgido algunas dudas. Por ejemplo, con respecto al
paquete e1071. En
> >>>> este
> >>>> enlace parece que si lo usan para hacer máquina de soporte
vector en
> >>>> hadoop.
> >>>>
> >>>>
>
http://stackoverflow.com/questions/17731261/r-hadoop-rmr2-svm-model-conver-result-list-class-to-original-class-sv?rq=1
> >>>>
> >>>> Carlos, por qué decías que no correrán en paralelo los svm
del paquete
> >>>> e1071??
> >>>>
> >>>> Gracias
> >>>> Un saludo
> >>>> MªLuz
> >>>>
> >>>> El 10 de diciembre de 2015, 2:35, Javier Marcuzzi <
> >>>> javier.ruben.marcuzzi en gmail.com> escribió:
> >>>>
> >>>> > Estimados
> >>>> >
> >>>> >
> >>>> >
> >>>> > Un día leí algo en el siguiente hipervínculo, pero
nunca lo use.
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>>
>
http://blog.revolutionanalytics.com/2015/06/using-hadoop-with-r-it-depends.html
> >>>> >
> >>>> >
> >>>> >
> >>>> > Javier Rubén Marcuzzi
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> > *De: *Carlos J. Gil Bellosta
> >>>> > *Enviado: *miércoles, 9 de diciembre de 2015 14:33
> >>>> > *Para: *MªLuz Morales
> >>>> > *CC: *r-help-es
> >>>> > *Asunto: *Re: [R-es] SVM hadoop
> >>>>
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> > No, no correrán en paralelo si usas los SVM de
paquetes como e1071.
> >>>> >
> >>>> >
> >>>> >
> >>>> > No obstante, tienes, por un lado, los trucos
habituales para hacer
> >>>> algo
> >>>> >
> >>>> > "parecido" a SVM o "basado" en
SVM pero que no sea SVM. Si es que
> eso
> >>>> te
> >>>> >
> >>>> > vale.
> >>>> >
> >>>> >
> >>>> >
> >>>> > Puedes probar a hacerlo con mllib (sobre Spark), como
aquí
> >>>> >
> >>>> > <
> >>>> >
> >>>>
>
http://spark.apache.org/docs/latest/mllib-linear-methods.html#linear-support-vector-machines-svms
> >>>> > >.
> >>>> >
> >>>> > ¡Pero no lo he probado nunca!
> >>>> >
> >>>> >
> >>>> >
> >>>> > Un saludo,
> >>>> >
> >>>> >
> >>>> >
> >>>> > Carlos J. Gil Bellosta
> >>>> >
> >>>> > http://www.datanalytics.com
> >>>> >
> >>>> >
> >>>> >
> >>>> > El 9 de diciembre de 2015, 13:15, MªLuz Morales
<mlzmrls en gmail.com>
> >>>> >
> >>>> > escribió:
> >>>> >
> >>>> >
> >>>> >
> >>>> > > Buenos días,
> >>>> >
> >>>> > >
> >>>> >
> >>>> > > alguien sabe si hay alguna manera de implementar
una máquina de
> >>>> soporte
> >>>> >
> >>>> > > vectorial (svm) con R-hadoop??
> >>>> >
> >>>> > >
> >>>> >
> >>>> > > Mi interés es hacer procesamiento big data con
svm. Se que en R,
> >>>> existen
> >>>> >
> >>>> > > los paquetes {RtextTools} y {e1071} que permiten
hacer svm. Pero
> no
> >>>> estoy
> >>>> >
> >>>> > > segura de que el algoritmo sea paralelizable, es
decir, que pueda
> >>>> correr
> >>>> > en
> >>>> >
> >>>> > > paralelo a través de la plataforma R-hadoop.
> >>>> >
> >>>> > >
> >>>> >
> >>>> > > Muchas gracias
> >>>> >
> >>>> > > Un saludo
> >>>> >
> >>>> > > MªLuz Morales
> >>>> >
> >>>> > >
> >>>> >
> >>>> > >         [[alternative HTML version deleted]]
> >>>> >
> >>>> > >
> >>>> >
> >>>> > > _______________________________________________
> >>>> >
> >>>> > > R-help-es mailing list
> >>>> >
> >>>> > > R-help-es en r-project.org
> >>>> >
> >>>> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>>> >
> >>>> > >
> >>>> >
> >>>> >
> >>>> >
> >>>> >                 [[alternative HTML version deleted]]
> >>>> >
> >>>> >
> >>>> >
> >>>> > _______________________________________________
> >>>> >
> >>>> > R-help-es mailing list
> >>>> >
> >>>> > R-help-es en r-project.org
> >>>> >
> >>>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>>
> >>>>         [[alternative HTML version deleted]]
> >>>>
> >>>> _______________________________________________
> >>>> R-help-es mailing list
> >>>> R-help-es en r-project.org
> >>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>>>
> >>>
> >>>
> >>>
> >>> --
> >>> Saludos,
> >>> Carlos Ortega
> >>> www.qualityexcellence.es
> >>>
> >>
> >>
> >
> >
> > --
> > Saludos,
> > Carlos Ortega
> > www.qualityexcellence.es
> >
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Jorge Ayuso Rejas

	[[alternative HTML version deleted]]

Maybe Matching Threads

Search for more reasonably related threads

R help es - Dec 2015 - SVM hadoop

[R-es] SVM hadoop

[R-es] SVM hadoop

[R-es] SVM hadoop

Maybe Matching Threads