thr3ads.net - R help es - [R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores [Nov 2014]

If this information is useful, please help other people find it:
Share via:

Isidro Hidalgo Arellano

2014-Nov-26 00:02 UTC

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Hola, Daniel:
Quizá deberías ser más explícito porque de la información que
suministras yo solo te puedo decir que no veo la relación entre los 3
tipos de algoritmos que nombras:
- un análisis de componentes principales puede ser una fase previa de
los otros dos
- hacer un cluster es un tipo de aprendizaje no supervisado, mientras
que un clasificador normalmente es utilizado en aprendizaje
supervisado, porque se modeliza conociendo la variable dependiente
Por ello, no veo cómo montar un ANOVA para analizar 3 procedimientos
que a mí me parece que se utilizan para cosas completamente
diferentes...
Me imagino que no he sido de mucha ayuda, pero... ¿por qué no nos
dices exactamente que quieres hacer, a ver si te podemos ayudar algo
más?
Un saludo,
Isidro Hidalgo 


> El 25/11/2014, a las 22:09, Daniel Carrillo Zapata  escribió:
> 
> 
> 
> Hola compañeros
> 
> Soy Daniel Carrillo, y os escribo porque me ha surgido una duda
sobre si > puedo tratar algoritmos de clustering como un factor en un
experimento. > Concretamente, tengo un conjunto de datos sin etiquetar, y quiero
probar > los siguientes algoritmos sobre él:
> 
> 1) Extracción de características por PCA y por ICA.
> 2) Una vez tenga extraídas las características, para cada uno de 
> los dos conjuntos transformados quisiera probar 3 diferentes
algoritmos > de clustering: k-medoids, EM y hierachical clustering.
> 3) Por último, para cada conjunto etiquetado quisiera probar 4 ó 5
> clasificadores.
> 
> Como se puede ver, estoy diseñando un experimento factorial para 
> encontrar el mejor clasificador basándome en probar diferentes
técnicas > de extracción de características, clustering y clasificación.
> 
> Mi objetivo final es entrenar al mejor clasificador basándome en el
> mejor algoritmo de clustering, de clasificación y de extracción de
> características para que etiquete futuros datos.
> 
> Sin embargo, me han surgido dudas de cómo analizar los resultados,
y es > que no sé si se puede aplicar una ANOVA de 3 vías con
interacción, > siendo los 3 factores el algoritmo de extracción de
características, > algoritmo de clustering y algoritmo de clasificación. Mis preguntas
por > tanto son:
> 
> 1) ¿Tiene sentido aplicar ANOVA de 3 vías con interacción?
> 2) Si no, ¿cuál sería la mejor manera de analizar los resultados 
> del experimento?
> 3) ¿Hay alguna forma de seleccionar al mejor clasificador teniendo 
> en cuenta los errores de clasificación y cuán bien el algoritmo de
> clustering agrupa los datos (por ejemplo, comparando los "silhouette
> coefficients")?, porque pienso que esto lo debería tener en cuenta
también.> 
> Mis dudas vienen suscitadas por el hecho de que pienso que los 
> algoritmos de clasificación son totalmente dependientes del los de 
> clustering (que les etiqueta los datos).
> 
> Confío en vuestra experiencia para que me aportéis un rayo de luz
en esto> 
> ¡Muchísimas gracias!
> 
> Un saludo,
> DANI
> 
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz..ch/mailman/listinfo/r-help-es

	[[alternative HTML version deleted]]

Daniel Carrillo Zapata

2014-Nov-26 09:42 UTC

head link

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Hola Isidro,

     mira, te explico mejor: tengo una base de datos con información de 
10 conductores en un recorrido de 30 minutos en coche. Para cada 
conductor, se le midió parámetros biomédicos como la temperatura 
corporal, su electrocardiograma, etc., durante todo el recorrido; en 
total 22 parámetros.

     Mi objetivo principal es poder determinar, dados dichos parámetros, 
los distintos estados en los que puede estar un conductor a lo largo del 
recorrido. Sin embargo, mi conjunto de datos no está etiquedo, es decir, 
no sé a priori la variable de respuesta, el estado del conductor, para 
cada combinación; tengo que descubrirla.

     Lo que quería hacer es, primero, transformar los parámetros porque 
suele ser recomendado para no tener overfitting y reducir la dimensión 
de los datos. Para ello, quiero probar dos técnicas: ICA y PCA.

     Tras esto, pensaba probar distintos algoritmos de clustering para 
ver cómo agrupan los datos. Con cada uno, puedo obtener la bondad con la 
que asignan un elemento a un cluster con, por ejemplo, el silhouette 
coefficient, o algún otro índice interno/externo. Con cada algoritmo de 
clustering que pruebe, etiquetaré mis datos de entrenamiento 
asignándoles un cluster (que luego más adelante intentaré darle una 
explicación semántica del estado que representa).

     Por cada conjunto resultado (ahora, etiquetado) de aplicar una 
técnica de extracción de características y otro de clustering, quiero 
probar distintos clasificadores, para ver cómo se comportan con esa 
agrupación. Por tanto, obtendré varios errores asociados a clasificación 
porqué haré cross-validation.

     De esta forma, si pruebo 2 algoritmos de extracción de 
características, 3 de clustering y 4 de clasificación, tengo un 
experimento factorial 2x3x4, ¿no?

     Lo que me gustaría obtener posteriormente es la mejor combinación 
de técnica de extracción de características, algoritmo de clustering y 
clasificador, teniendo en cuenta los errores de clasificación y cuán 
bien los algoritmos de clustering agrupan.

     De ahí, mi duda es cómo analizar los resultados, porque había 
pensado aplicar una ANOVA de 3 vías con interacción, pero no sé si es 
correcto. Además, no sé si tendría sentido, porque también quiero tener 
en cuenta la bondad del algoritmo de clustering, no solo los errores de 
clasificación. Es decir, necesitaría analizar las parejas (muestras del 
error de clasificación, bondad del clustering) para cada combinación de 
algoritmo de extracción de características, algoritmo de clustering y 
algoritmo de clasificación.

     Espero que te haya aclarado :)

     Muchas gracias.

     Un saludo,
     DANI


On 26/11/14 01:02, Isidro Hidalgo Arellano wrote:> Hola, Daniel:
> Quizá deberías ser más explícito porque de la información que 
> suministras yo solo te puedo decir que no veo la relación entre los 3 
> tipos de algoritmos que nombras:
> - un análisis de componentes principales puede ser una fase previa de 
> los otros dos
> - hacer un cluster es un tipo de aprendizaje no supervisado, mientras 
> que un clasificador normalmente es utilizado en aprendizaje 
> supervisado, porque se modeliza conociendo la variable dependiente
> Por ello, no veo cómo montar un ANOVA para analizar 3 procedimientos 
> que a mí me parece que se utilizan para cosas completamente diferentes...
> Me imagino que no he sido de mucha ayuda, pero... ¿por qué no nos 
> dices exactamente que quieres hacer, a ver si te podemos ayudar algo más?
> Un saludo,
> Isidro Hidalgo
>
>
>
> > El 25/11/2014, a las 22:09, Daniel Carrillo Zapata escribió:
> >
> >
> >
> > Hola compañeros
> >
> > Soy Daniel Carrillo, y os escribo porque me ha surgido una duda 
> sobre si
> > puedo tratar algoritmos de clustering como un factor en un
experimento.
> > Concretamente, tengo un conjunto de datos sin etiquetar, y quiero 
> probar
> > los siguientes algoritmos sobre él:
> >
> > 1) Extracción de características por PCA y por ICA.
> > 2) Una vez tenga extraídas las características, para cada uno de
> > los dos conjuntos transformados quisiera probar 3 diferentes
algoritmos
> > de clustering: k-medoids, EM y hierachical clustering.
> > 3) Por último, para cada conjunto etiquetado quisiera probar 4 ó 5
> > clasificadores.
> >
> > Como se puede ver, estoy diseñando un experimento factorial para
> > encontrar el mejor clasificador basándome en probar diferentes
técnicas
> > de extracción de características, clustering y clasificación.
> >
> > Mi objetivo final es entrenar al mejor clasificador basándome en el
> > mejor algoritmo de clustering, de clasificación y de extracción de
> > características para que etiquete futuros datos.
> >
> > Sin embargo, me han surgido dudas de cómo analizar los resultados, y
es
> > que no sé si se puede aplicar una ANOVA de 3 vías con interacción,
> > siendo los 3 factores el algoritmo de extracción de características,
> > algoritmo de clustering y algoritmo de clasificación. Mis preguntas
por
> > tanto son:
> >
> > 1) ¿Tiene sentido aplicar ANOVA de 3 vías con interacción?
> > 2) Si no, ¿cuál sería la mejor manera de analizar los resultados
> > del experimento?
> > 3) ¿Hay alguna forma de seleccionar al mejor clasificador teniendo
> > en cuenta los errores de clasificación y cuán bien el algoritmo de
> > clustering agrupa los datos (por ejemplo, comparando los
"silhouette
> > coefficients")?, porque pienso que esto lo debería tener en
cuenta
> también.
> >
> > Mis dudas vienen suscitadas por el hecho de que pienso que los
> > algoritmos de clasificación son totalmente dependientes del los de
> > clustering (que les etiqueta los datos).
> >
> > Confío en vuestra experiencia para que me aportéis un rayo de luz en 
> esto
> >
> > ¡Muchísimas gracias!
> >
> > Un saludo,
> > DANI
> >
> > _______________________________________________
> > R-help-es mailing list
> > R-help-es en r-project.org
> > https://stat.ethz.ch/mailman/listinfo/r-help-es

	[[alternative HTML version deleted]]

Julio Alejandro Di Rienzo

2014-Nov-26 11:34 UTC

head link

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

CREO QUE ESTE TIPO DE CONSULTA, EXCEDE EL PROPÓSITO DE ESTE FORO.




El miércoles, 26 de noviembre de 2014, Daniel Carrillo Zapata <
daniel.carrillo2 en um.es> escribió:
>      Hola Isidro,
>
>      mira, te explico mejor: tengo una base de datos con información de
> 10 conductores en un recorrido de 30 minutos en coche. Para cada
> conductor, se le midió parámetros biomédicos como la temperatura
> corporal, su electrocardiograma, etc., durante todo el recorrido; en
> total 22 parámetros.
>
>      Mi objetivo principal es poder determinar, dados dichos parámetros,
> los distintos estados en los que puede estar un conductor a lo largo del
> recorrido. Sin embargo, mi conjunto de datos no está etiquedo, es decir,
> no sé a priori la variable de respuesta, el estado del conductor, para
> cada combinación; tengo que descubrirla.
>
>      Lo que quería hacer es, primero, transformar los parámetros porque
> suele ser recomendado para no tener overfitting y reducir la dimensión
> de los datos. Para ello, quiero probar dos técnicas: ICA y PCA.
>
>      Tras esto, pensaba probar distintos algoritmos de clustering para
> ver cómo agrupan los datos. Con cada uno, puedo obtener la bondad con la
> que asignan un elemento a un cluster con, por ejemplo, el silhouette
> coefficient, o algún otro índice interno/externo. Con cada algoritmo de
> clustering que pruebe, etiquetaré mis datos de entrenamiento
> asignándoles un cluster (que luego más adelante intentaré darle una
> explicación semántica del estado que representa).
>
>      Por cada conjunto resultado (ahora, etiquetado) de aplicar una
> técnica de extracción de características y otro de clustering, quiero
> probar distintos clasificadores, para ver cómo se comportan con esa
> agrupación. Por tanto, obtendré varios errores asociados a clasificación
> porqué haré cross-validation.
>
>      De esta forma, si pruebo 2 algoritmos de extracción de
> características, 3 de clustering y 4 de clasificación, tengo un
> experimento factorial 2x3x4, ¿no?
>
>      Lo que me gustaría obtener posteriormente es la mejor combinación
> de técnica de extracción de características, algoritmo de clustering y
> clasificador, teniendo en cuenta los errores de clasificación y cuán
> bien los algoritmos de clustering agrupan.
>
>      De ahí, mi duda es cómo analizar los resultados, porque había
> pensado aplicar una ANOVA de 3 vías con interacción, pero no sé si es
> correcto. Además, no sé si tendría sentido, porque también quiero tener
> en cuenta la bondad del algoritmo de clustering, no solo los errores de
> clasificación. Es decir, necesitaría analizar las parejas (muestras del
> error de clasificación, bondad del clustering) para cada combinación de
> algoritmo de extracción de características, algoritmo de clustering y
> algoritmo de clasificación.
>
>      Espero que te haya aclarado :)
>
>      Muchas gracias.
>
>      Un saludo,
>      DANI
>
>
> On 26/11/14 01:02, Isidro Hidalgo Arellano wrote:
> > Hola, Daniel:
> > Quizá deberías ser más explícito porque de la información que
> > suministras yo solo te puedo decir que no veo la relación entre los 3
> > tipos de algoritmos que nombras:
> > - un análisis de componentes principales puede ser una fase previa de
> > los otros dos
> > - hacer un cluster es un tipo de aprendizaje no supervisado, mientras
> > que un clasificador normalmente es utilizado en aprendizaje
> > supervisado, porque se modeliza conociendo la variable dependiente
> > Por ello, no veo cómo montar un ANOVA para analizar 3 procedimientos
> > que a mí me parece que se utilizan para cosas completamente
diferentes...
> > Me imagino que no he sido de mucha ayuda, pero... ¿por qué no nos
> > dices exactamente que quieres hacer, a ver si te podemos ayudar algo
más?
> > Un saludo,
> > Isidro Hidalgo
> >
> >
> >
> > > El 25/11/2014, a las 22:09, Daniel Carrillo Zapata escribió:
> > >
> > >
> > >
> > > Hola compañeros
> > >
> > > Soy Daniel Carrillo, y os escribo porque me ha surgido una duda
> > sobre si
> > > puedo tratar algoritmos de clustering como un factor en un
experimento.
> > > Concretamente, tengo un conjunto de datos sin etiquetar, y quiero
> > probar
> > > los siguientes algoritmos sobre él:
> > >
> > > 1) Extracción de características por PCA y por ICA.
> > > 2) Una vez tenga extraídas las características, para cada uno de
> > > los dos conjuntos transformados quisiera probar 3 diferentes
algoritmos
> > > de clustering: k-medoids, EM y hierachical clustering.
> > > 3) Por último, para cada conjunto etiquetado quisiera probar 4 ó
5
> > > clasificadores.
> > >
> > > Como se puede ver, estoy diseñando un experimento factorial para
> > > encontrar el mejor clasificador basándome en probar diferentes
técnicas
> > > de extracción de características, clustering y clasificación.
> > >
> > > Mi objetivo final es entrenar al mejor clasificador basándome en
el
> > > mejor algoritmo de clustering, de clasificación y de extracción
de
> > > características para que etiquete futuros datos.
> > >
> > > Sin embargo, me han surgido dudas de cómo analizar los
resultados, y es
> > > que no sé si se puede aplicar una ANOVA de 3 vías con
interacción,
> > > siendo los 3 factores el algoritmo de extracción de
características,
> > > algoritmo de clustering y algoritmo de clasificación. Mis
preguntas por
> > > tanto son:
> > >
> > > 1) ¿Tiene sentido aplicar ANOVA de 3 vías con interacción?
> > > 2) Si no, ¿cuál sería la mejor manera de analizar los resultados
> > > del experimento?
> > > 3) ¿Hay alguna forma de seleccionar al mejor clasificador
teniendo
> > > en cuenta los errores de clasificación y cuán bien el algoritmo
de
> > > clustering agrupa los datos (por ejemplo, comparando los
"silhouette
> > > coefficients")?, porque pienso que esto lo debería tener en
cuenta
> > también.
> > >
> > > Mis dudas vienen suscitadas por el hecho de que pienso que los
> > > algoritmos de clasificación son totalmente dependientes del los
de
> > > clustering (que les etiqueta los datos).
> > >
> > > Confío en vuestra experiencia para que me aportéis un rayo de luz
en
> > esto
> > >
> > > ¡Muchísimas gracias!
> > >
> > > Un saludo,
> > > DANI
> > >
> > > _______________________________________________
> > > R-help-es mailing list
> > > R-help-es en r-project.org <javascript:;>
> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org <javascript:;>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

-- 
Sent from my IPAD

	[[alternative HTML version deleted]]

Reasonably Related Threads

Search for more seemingly similar threads

R help es - Nov 2014 - Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Reasonably Related Threads