thr3ads.net - R help es - [R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores [Nov 2014]

If this information is useful, please help other people find it:
Share via:

DANIEL CARRILLO ZAPATA

2014-Nov-26 14:16 UTC

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Hola de nuevo a todos,

me gustaría pediros disculpas por los correos que he enviado. La razón de
enviarlos es que pensaba que era también un foro en el que podía plantear
cuestiones estadísticas, no solo sobre R en concreto.

Siempre es importante aprender algo de todo lo que haces, así que lo que me
llevo es el conocimiento de que aquí solo puedo plantear cuestiones de
implementación en R, y así lo haré de aquí en adelante, puesto que trabajo todos
los días con él.

De nuevo, mis más sinceras disculpas si os habéis molestado. Mi intención no era
en ningún momento pedir que me hicierais el proyecto, ni mucho menos. Seguiré
estudiando más y más cada día para formarme lo más que pueda y que no parezca
eso ;)

Gracias a todos!

Un saludo,
DANI

On 26 November 2014 12:53:32 CET, Jorge I Velez <jorgeivanvelez en
gmail.com> wrote:>Coincido con el Prof. Di Rienzo.
>
>A proposito, esta consulta me recuerda
>
>R> require(fortunes)
>R> fortune('brain')
>
>I wish to perform brain surgery this afternoon at 4pm and don't know
>where
>to
>start. My background is the history of great statistician sports
>legends
>but I
>am willing to learn. I know there are courses and numerous books on
>brain
>surgery but I don't have the time for those. Please direct me to the
>appropriate HowTos, and be on standby for solving any problem I may
>encounter
>while in the operating room. Some of you might ask for specifics of the
>case,
>but that would require my following the posting guide and spending even
>more
>time than I am already taking to write this note.
>   -- I. Ben Fooled (aka Frank Harrell)
>      R-help (April 1, 2005)
>
>Saludos,
>Jorge.-
>
>
>
>2014-11-26 22:34 GMT+11:00 Julio Alejandro Di Rienzo <
>dirienzo.julio en gmail.com>:
>
>> CREO QUE ESTE TIPO DE CONSULTA, EXCEDE EL PROPÓSITO DE ESTE FORO.
>>
>>
>>
>>
>> El miércoles, 26 de noviembre de 2014, Daniel Carrillo Zapata <
>> daniel.carrillo2 en um.es> escribió:
>>
>> >      Hola Isidro,
>> >
>> >      mira, te explico mejor: tengo una base de datos con
>información de
>> > 10 conductores en un recorrido de 30 minutos en coche. Para cada
>> > conductor, se le midió parámetros biomédicos como la temperatura
>> > corporal, su electrocardiograma, etc., durante todo el recorrido;
>en
>> > total 22 parámetros.
>> >
>> >      Mi objetivo principal es poder determinar, dados dichos
>parámetros,
>> > los distintos estados en los que puede estar un conductor a lo
>largo del
>> > recorrido. Sin embargo, mi conjunto de datos no está etiquedo, es
>decir,
>> > no sé a priori la variable de respuesta, el estado del conductor,
>para
>> > cada combinación; tengo que descubrirla.
>> >
>> >      Lo que quería hacer es, primero, transformar los parámetros
>porque
>> > suele ser recomendado para no tener overfitting y reducir la
>dimensión
>> > de los datos. Para ello, quiero probar dos técnicas: ICA y PCA.
>> >
>> >      Tras esto, pensaba probar distintos algoritmos de clustering
>para
>> > ver cómo agrupan los datos. Con cada uno, puedo obtener la bondad
>con la
>> > que asignan un elemento a un cluster con, por ejemplo, el
>silhouette
>> > coefficient, o algún otro índice interno/externo. Con cada
>algoritmo de
>> > clustering que pruebe, etiquetaré mis datos de entrenamiento
>> > asignándoles un cluster (que luego más adelante intentaré darle
una
>> > explicación semántica del estado que representa).
>> >
>> >      Por cada conjunto resultado (ahora, etiquetado) de aplicar
una
>> > técnica de extracción de características y otro de clustering,
>quiero
>> > probar distintos clasificadores, para ver cómo se comportan con
esa
>> > agrupación. Por tanto, obtendré varios errores asociados a
>clasificación
>> > porqué haré cross-validation.
>> >
>> >      De esta forma, si pruebo 2 algoritmos de extracción de
>> > características, 3 de clustering y 4 de clasificación, tengo un
>> > experimento factorial 2x3x4, ¿no?
>> >
>> >      Lo que me gustaría obtener posteriormente es la mejor
>combinación
>> > de técnica de extracción de características, algoritmo de
>clustering y
>> > clasificador, teniendo en cuenta los errores de clasificación y
>cuán
>> > bien los algoritmos de clustering agrupan.
>> >
>> >      De ahí, mi duda es cómo analizar los resultados, porque había
>> > pensado aplicar una ANOVA de 3 vías con interacción, pero no sé si
>es
>> > correcto. Además, no sé si tendría sentido, porque también quiero
>tener
>> > en cuenta la bondad del algoritmo de clustering, no solo los
>errores de
>> > clasificación. Es decir, necesitaría analizar las parejas
(muestras
>del
>> > error de clasificación, bondad del clustering) para cada
>combinación de
>> > algoritmo de extracción de características, algoritmo de
clustering
>y
>> > algoritmo de clasificación.
>> >
>> >      Espero que te haya aclarado :)
>> >
>> >      Muchas gracias.
>> >
>> >      Un saludo,
>> >      DANI
>> >
>> >
>> > On 26/11/14 01:02, Isidro Hidalgo Arellano wrote:
>> > > Hola, Daniel:
>> > > Quizá deberías ser más explícito porque de la información que
>> > > suministras yo solo te puedo decir que no veo la relación
entre
>los 3
>> > > tipos de algoritmos que nombras:
>> > > - un análisis de componentes principales puede ser una fase
>previa de
>> > > los otros dos
>> > > - hacer un cluster es un tipo de aprendizaje no supervisado,
>mientras
>> > > que un clasificador normalmente es utilizado en aprendizaje
>> > > supervisado, porque se modeliza conociendo la variable
>dependiente
>> > > Por ello, no veo cómo montar un ANOVA para analizar 3
>procedimientos
>> > > que a mí me parece que se utilizan para cosas completamente
>> diferentes...
>> > > Me imagino que no he sido de mucha ayuda, pero... ¿por qué no
nos
>> > > dices exactamente que quieres hacer, a ver si te podemos
ayudar
>algo
>> más?
>> > > Un saludo,
>> > > Isidro Hidalgo
>> > >
>> > >
>> > >
>> > > > El 25/11/2014, a las 22:09, Daniel Carrillo Zapata
escribió:
>> > > >
>> > > >
>> > > >
>> > > > Hola compañeros
>> > > >
>> > > > Soy Daniel Carrillo, y os escribo porque me ha surgido
una duda
>> > > sobre si
>> > > > puedo tratar algoritmos de clustering como un factor en
un
>> experimento.
>> > > > Concretamente, tengo un conjunto de datos sin etiquetar,
y
>quiero
>> > > probar
>> > > > los siguientes algoritmos sobre él:
>> > > >
>> > > > 1) Extracción de características por PCA y por ICA.
>> > > > 2) Una vez tenga extraídas las características, para
cada uno
>de
>> > > > los dos conjuntos transformados quisiera probar 3
diferentes
>> algoritmos
>> > > > de clustering: k-medoids, EM y hierachical clustering.
>> > > > 3) Por último, para cada conjunto etiquetado quisiera
probar 4
>ó 5
>> > > > clasificadores.
>> > > >
>> > > > Como se puede ver, estoy diseñando un experimento
factorial
>para
>> > > > encontrar el mejor clasificador basándome en probar
diferentes
>> técnicas
>> > > > de extracción de características, clustering y
clasificación.
>> > > >
>> > > > Mi objetivo final es entrenar al mejor clasificador
basándome
>en el
>> > > > mejor algoritmo de clustering, de clasificación y de
extracción
>de
>> > > > características para que etiquete futuros datos.
>> > > >
>> > > > Sin embargo, me han surgido dudas de cómo analizar los
>resultados, y
>> es
>> > > > que no sé si se puede aplicar una ANOVA de 3 vías con
>interacción,
>> > > > siendo los 3 factores el algoritmo de extracción de
>características,
>> > > > algoritmo de clustering y algoritmo de clasificación.
Mis
>preguntas
>> por
>> > > > tanto son:
>> > > >
>> > > > 1) ¿Tiene sentido aplicar ANOVA de 3 vías con
interacción?
>> > > > 2) Si no, ¿cuál sería la mejor manera de analizar los
>resultados
>> > > > del experimento?
>> > > > 3) ¿Hay alguna forma de seleccionar al mejor
clasificador
>teniendo
>> > > > en cuenta los errores de clasificación y cuán bien el
algoritmo
>de
>> > > > clustering agrupa los datos (por ejemplo, comparando los
>"silhouette
>> > > > coefficients")?, porque pienso que esto lo debería
tener en
>cuenta
>> > > también.
>> > > >
>> > > > Mis dudas vienen suscitadas por el hecho de que pienso
que los
>> > > > algoritmos de clasificación son totalmente dependientes
del los
>de
>> > > > clustering (que les etiqueta los datos).
>> > > >
>> > > > Confío en vuestra experiencia para que me aportéis un
rayo de
>luz en
>> > > esto
>> > > >
>> > > > ¡Muchísimas gracias!
>> > > >
>> > > > Un saludo,
>> > > > DANI
>> > > >
>> > > > _______________________________________________
>> > > > R-help-es mailing list
>> > > > R-help-es en r-project.org <javascript:;>
>> > > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>> >
>> >
>> >         [[alternative HTML version deleted]]
>> >
>> > _______________________________________________
>> > R-help-es mailing list
>> > R-help-es en r-project.org <javascript:;>
>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>> >
>>
>>
>> --
>> Sent from my IPAD
>>
>>         [[alternative HTML version deleted]]
>>
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>>
-- 
Sent from my Android device with K-9 Mail. Please excuse my brevity.
	[[alternative HTML version deleted]]

eric

2014-Nov-26 15:22 UTC

head link

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Hola Daniel, no te vayas a desanimar, seguro hay foros donde puedes
plantear asuntos mas estadisticos que de R mismo.

Saludos y suerte con todo,

Eric.





On 26/11/14 11:16, DANIEL CARRILLO ZAPATA wrote:> Hola de nuevo a todos,
> 
> me gustaría pediros disculpas por los correos que he enviado. La razón de
enviarlos es que pensaba que era también un foro en el que podía plantear
cuestiones estadísticas, no solo sobre R en concreto.
> 
> Siempre es importante aprender algo de todo lo que haces, así que lo que me
llevo es el conocimiento de que aquí solo puedo plantear cuestiones de
implementación en R, y así lo haré de aquí en adelante, puesto que trabajo todos
los días con él.
> 
> De nuevo, mis más sinceras disculpas si os habéis molestado. Mi intención
no era en ningún momento pedir que me hicierais el proyecto, ni mucho menos.
Seguiré estudiando más y más cada día para formarme lo más que pueda y que no
parezca eso ;)
> 
> Gracias a todos!
> 
> Un saludo,
> DANI
> 
> On 26 November 2014 12:53:32 CET, Jorge I Velez <jorgeivanvelez en
gmail.com> wrote:
>> Coincido con el Prof. Di Rienzo.
>>
>> A proposito, esta consulta me recuerda
>>
>> R> require(fortunes)
>> R> fortune('brain')
>>
>> I wish to perform brain surgery this afternoon at 4pm and don't
know
>> where
>> to
>> start. My background is the history of great statistician sports
>> legends
>> but I
>> am willing to learn. I know there are courses and numerous books on
>> brain
>> surgery but I don't have the time for those. Please direct me to
the
>> appropriate HowTos, and be on standby for solving any problem I may
>> encounter
>> while in the operating room. Some of you might ask for specifics of the
>> case,
>> but that would require my following the posting guide and spending even
>> more
>> time than I am already taking to write this note.
>>   -- I. Ben Fooled (aka Frank Harrell)
>>      R-help (April 1, 2005)
>>
>> Saludos,
>> Jorge.-
>>
>>
>>
>> 2014-11-26 22:34 GMT+11:00 Julio Alejandro Di Rienzo <
>> dirienzo.julio en gmail.com>:
>>
>>> CREO QUE ESTE TIPO DE CONSULTA, EXCEDE EL PROPÓSITO DE ESTE FORO.
>>>
>>>
>>>
>>>
>>> El miércoles, 26 de noviembre de 2014, Daniel Carrillo Zapata <
>>> daniel.carrillo2 en um.es> escribió:
>>>
>>>>      Hola Isidro,
>>>>
>>>>      mira, te explico mejor: tengo una base de datos con
>> información de
>>>> 10 conductores en un recorrido de 30 minutos en coche. Para
cada
>>>> conductor, se le midió parámetros biomédicos como la
temperatura
>>>> corporal, su electrocardiograma, etc., durante todo el
recorrido;
>> en
>>>> total 22 parámetros.
>>>>
>>>>      Mi objetivo principal es poder determinar, dados dichos
>> parámetros,
>>>> los distintos estados en los que puede estar un conductor a lo
>> largo del
>>>> recorrido. Sin embargo, mi conjunto de datos no está etiquedo,
es
>> decir,
>>>> no sé a priori la variable de respuesta, el estado del
conductor,
>> para
>>>> cada combinación; tengo que descubrirla.
>>>>
>>>>      Lo que quería hacer es, primero, transformar los
parámetros
>> porque
>>>> suele ser recomendado para no tener overfitting y reducir la
>> dimensión
>>>> de los datos. Para ello, quiero probar dos técnicas: ICA y PCA.
>>>>
>>>>      Tras esto, pensaba probar distintos algoritmos de
clustering
>> para
>>>> ver cómo agrupan los datos. Con cada uno, puedo obtener la
bondad
>> con la
>>>> que asignan un elemento a un cluster con, por ejemplo, el
>> silhouette
>>>> coefficient, o algún otro índice interno/externo. Con cada
>> algoritmo de
>>>> clustering que pruebe, etiquetaré mis datos de entrenamiento
>>>> asignándoles un cluster (que luego más adelante intentaré darle
una
>>>> explicación semántica del estado que representa).
>>>>
>>>>      Por cada conjunto resultado (ahora, etiquetado) de aplicar
una
>>>> técnica de extracción de características y otro de clustering,
>> quiero
>>>> probar distintos clasificadores, para ver cómo se comportan con
esa
>>>> agrupación. Por tanto, obtendré varios errores asociados a
>> clasificación
>>>> porqué haré cross-validation.
>>>>
>>>>      De esta forma, si pruebo 2 algoritmos de extracción de
>>>> características, 3 de clustering y 4 de clasificación, tengo un
>>>> experimento factorial 2x3x4, ¿no?
>>>>
>>>>      Lo que me gustaría obtener posteriormente es la mejor
>> combinación
>>>> de técnica de extracción de características, algoritmo de
>> clustering y
>>>> clasificador, teniendo en cuenta los errores de clasificación y
>> cuán
>>>> bien los algoritmos de clustering agrupan.
>>>>
>>>>      De ahí, mi duda es cómo analizar los resultados, porque
había
>>>> pensado aplicar una ANOVA de 3 vías con interacción, pero no sé
si
>> es
>>>> correcto. Además, no sé si tendría sentido, porque también
quiero
>> tener
>>>> en cuenta la bondad del algoritmo de clustering, no solo los
>> errores de
>>>> clasificación. Es decir, necesitaría analizar las parejas
(muestras
>> del
>>>> error de clasificación, bondad del clustering) para cada
>> combinación de
>>>> algoritmo de extracción de características, algoritmo de
clustering
>> y
>>>> algoritmo de clasificación.
>>>>
>>>>      Espero que te haya aclarado :)
>>>>
>>>>      Muchas gracias.
>>>>
>>>>      Un saludo,
>>>>      DANI
>>>>
>>>>
>>>> On 26/11/14 01:02, Isidro Hidalgo Arellano wrote:
>>>>> Hola, Daniel:
>>>>> Quizá deberías ser más explícito porque de la información
que
>>>>> suministras yo solo te puedo decir que no veo la relación
entre
>> los 3
>>>>> tipos de algoritmos que nombras:
>>>>> - un análisis de componentes principales puede ser una fase
>> previa de
>>>>> los otros dos
>>>>> - hacer un cluster es un tipo de aprendizaje no
supervisado,
>> mientras
>>>>> que un clasificador normalmente es utilizado en aprendizaje
>>>>> supervisado, porque se modeliza conociendo la variable
>> dependiente
>>>>> Por ello, no veo cómo montar un ANOVA para analizar 3
>> procedimientos
>>>>> que a mí me parece que se utilizan para cosas completamente
>>> diferentes...
>>>>> Me imagino que no he sido de mucha ayuda, pero... ¿por qué
no nos
>>>>> dices exactamente que quieres hacer, a ver si te podemos
ayudar
>> algo
>>> más?
>>>>> Un saludo,
>>>>> Isidro Hidalgo
>>>>>
>>>>>
>>>>>
>>>>>> El 25/11/2014, a las 22:09, Daniel Carrillo Zapata
escribió:
>>>>>>
>>>>>>
>>>>>>
>>>>>> Hola compañeros
>>>>>>
>>>>>> Soy Daniel Carrillo, y os escribo porque me ha surgido
una duda
>>>>> sobre si
>>>>>> puedo tratar algoritmos de clustering como un factor en
un
>>> experimento.
>>>>>> Concretamente, tengo un conjunto de datos sin
etiquetar, y
>> quiero
>>>>> probar
>>>>>> los siguientes algoritmos sobre él:
>>>>>>
>>>>>> 1) Extracción de características por PCA y por ICA.
>>>>>> 2) Una vez tenga extraídas las características, para
cada uno
>> de
>>>>>> los dos conjuntos transformados quisiera probar 3
diferentes
>>> algoritmos
>>>>>> de clustering: k-medoids, EM y hierachical clustering.
>>>>>> 3) Por último, para cada conjunto etiquetado quisiera
probar 4
>> ó 5
>>>>>> clasificadores.
>>>>>>
>>>>>> Como se puede ver, estoy diseñando un experimento
factorial
>> para
>>>>>> encontrar el mejor clasificador basándome en probar
diferentes
>>> técnicas
>>>>>> de extracción de características, clustering y
clasificación.
>>>>>>
>>>>>> Mi objetivo final es entrenar al mejor clasificador
basándome
>> en el
>>>>>> mejor algoritmo de clustering, de clasificación y de
extracción
>> de
>>>>>> características para que etiquete futuros datos.
>>>>>>
>>>>>> Sin embargo, me han surgido dudas de cómo analizar los
>> resultados, y
>>> es
>>>>>> que no sé si se puede aplicar una ANOVA de 3 vías con
>> interacción,
>>>>>> siendo los 3 factores el algoritmo de extracción de
>> características,
>>>>>> algoritmo de clustering y algoritmo de clasificación.
Mis
>> preguntas
>>> por
>>>>>> tanto son:
>>>>>>
>>>>>> 1) ¿Tiene sentido aplicar ANOVA de 3 vías con
interacción?
>>>>>> 2) Si no, ¿cuál sería la mejor manera de analizar los
>> resultados
>>>>>> del experimento?
>>>>>> 3) ¿Hay alguna forma de seleccionar al mejor
clasificador
>> teniendo
>>>>>> en cuenta los errores de clasificación y cuán bien el
algoritmo
>> de
>>>>>> clustering agrupa los datos (por ejemplo, comparando
los
>> "silhouette
>>>>>> coefficients")?, porque pienso que esto lo debería
tener en
>> cuenta
>>>>> también.
>>>>>>
>>>>>> Mis dudas vienen suscitadas por el hecho de que pienso
que los
>>>>>> algoritmos de clasificación son totalmente dependientes
del los
>> de
>>>>>> clustering (que les etiqueta los datos).
>>>>>>
>>>>>> Confío en vuestra experiencia para que me aportéis un
rayo de
>> luz en
>>>>> esto
>>>>>>
>>>>>> ¡Muchísimas gracias!
>>>>>>
>>>>>> Un saludo,
>>>>>> DANI
>>>>>>
>>>>>> _______________________________________________
>>>>>> R-help-es mailing list
>>>>>> R-help-es en r-project.org <javascript:;>
>>>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>>
>>>>
>>>>         [[alternative HTML version deleted]]
>>>>
>>>> _______________________________________________
>>>> R-help-es mailing list
>>>> R-help-es en r-project.org <javascript:;>
>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>>
>>>
>>>
>>> --
>>> Sent from my IPAD
>>>
>>>         [[alternative HTML version deleted]]
>>>
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>>
> 
-- 
Forest Engineer
Master in Environmental and Natural Resource Economics
Ph.D. student in Sciences of Natural Resources at La Frontera University
Member in AguaDeTemu2030, citizen movement for Temuco with green city
standards for living

Nota: Las tildes se han omitido para asegurar compatibilidad con algunos
lectores de correo.

rubenfcasal

2014-Nov-26 17:20 UTC

head link

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Hola a todos,

     Aunque no es una duda de R, creo que incluso puede ser bueno 
aprovechar y preguntar si alguien conoce/recomienda algún foro de este 
tipo y hacer una lista.

     Yo realmente nunca usé este tipo de foros, pero por ejemplo, al 
hacer búsquedas en la web encontré cosas de interés en este: 
http://stats.stackexchange.com

     Un saludo, Rubén.

R help es - Nov 2014 - Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores