Hola,
Sí, eses esquema es el básico que se suele aplicar aunque "el diablo está
en los detalles" y para cada una de las etapas hay múltiples cosas que
puedes hacer además de las que has comentado.
Los detalles dependen del problema que estés tratando y si el tipo de
modelo que quieras generar sea más o menos entendible, vaya si vas a querer
aplicar algo de ensamblados o no. Hay casos que para entrar en producción
mejor tener un modelo muy claro y sencillo de mantener que uno muy
"ofuscado".
Otro punto que es importante, si utilizas modelos diferentes a los
lineales, es el de buscar los parámetros que mejor ajustan tu modelo. Que
extiende la idea que comentas del CV (cross validation) y que de por sí es
todo un mundo.
Por solo apuntarlo, también hay un elemento que es muy importante y es todo
el concepto de "feature engineering". Tú lo has descrito como la
"sanidad
del dataset" pero no es solo describir las variables, o tratar los NAs, es
crear variables adicionales a partir de las que tienes que pueden
enriquecer mucho el modelo. Esta fase es diferencial si quieres exprimir un
tanto más tu modelo.
Y en cuanto al modelo inicial exploratorio, ¿clustering para un modelo
supervisado?...
Muchas de estas cosas las hemos ido contando en el Grupo de R de Madrid en
diferentes sesiones, en particular cuando hemos contado nuestras
experiencias participando en diferentes concursos de datos donde apurar en
cada una de estas etapas supone un mejor o peor resultado.
Además de lo que hemos comentado en el Grupo, hay múltiples referencias
adicionales en particular cuando los ganadores de los concursos de Kaggle
cuentan sus soluciones. De vez en cuando llegan a resumir sus estrategias
tras participar en varios concursos y lo que cuentan en especialmente
interesante. De lo que he visto recientemente me ha gustado mucho esto:
https://www.meetup.com/es-ES/Silicon-Valley-Big-Data-Science/events/236800410/?eventId=236800410
Y lo que cuenta Dmitri Larko, su presentación está aquí:
https://github.com/h2oai/h2o-meetups/blob/master/2017_01_19_SV_BigData_Science/2016_01_19_H2O_Meetup_Bimbo.pdf
Saludos,
Carlos Ortega
www.qualityexcellence.es
El 27 de enero de 2017, 19:44, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:
> Buenas,
>
>
> Empieza el finde, así que abro un hilo algo OFF TOPIC en cuanto a R se
> conoce.
>
>
> Imaginad un problema cualquiera supervisado, por ejemplo la relacione
> entre variables y que un suceeso ocurra o no. ¿Cómo lo abordamos?
>
>
> Yo empezaría de la siguietne manera:
>
> 1- Hablar con la gente que conozca el proceso del cual provienen esos
> datos y entender bien le proceso
>
> 2. Buscar la sanidad del dataset (datos faltantes,outliers, distribucion
> de los datos, normalizarlos...)
>
> 3. Hacer un clustering para entender posibles asociaciones entre datos
>
> 4. Partir los datos en train y test
>
> 5. Poner los modelos y pasarlos por un Kfold en funcion del train/test
>
> 6. Ver el mejor modelo
>
> 7. Extraeer conclusiones de ese modelo.
>
>
> ¿Vosotros que haceis? Usais el clustering para el análisis exploratorio?
>
>
> Un saludo y buen finde
>
> [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
[[alternative HTML version deleted]]