Hola amigos.
Soy algo nuevo en este tema de R, pero estoy aprendiendo a empujones porque el
tiempo apremia. Necesito segmentar 165000 personas con los siguientes datos, los
cuales los tengo en excel en un archivo llamado Data, el cual tiene la siguiente
forma.
Nombre
G?nero Edad R_Edad Domilicio Actividad econ?mica Ingresos
mensuales R_Ingresos Categoria Persona
Pepito 1 24 2 1104 23 1200 2 3
Juanita 0 56 4 1021 140 3450 4 16
Pedro 1 35 3 1104 45 300 1 4
Especificaciones:
* G?nero: 1 =Masculino y 0=Femenino
* R_Edad: La edad recodificada en 9 categor?as.
* Domilicio: C?digos que representan distintas regiones del pa?s. Son 167
categor?as en total.
* Actividad econ?mica: Clasificado en 164 categor?as.
* R_Ingresos: Ingresos mensuales recodificados en 15 categor?as.
* Categor?a Persona: Clasificado en 19 categor?as.
Estuve intentando usar la distancia de gower(al ser variables mixtas), con las
variables G?nero, R_Edad, Domicilio, Actividad Econ?mica, R_Ingresos y Categor?a
Persona, para luego poder usar la funci?n kmeans y PAM, para poder comparar los
resultados, pero me arroja que mis variables son character y no continua con el
proceso. Habia le?do tambi?n que la funci?n clustMixType tambi?n es muy ?til
cuando tienes datos nominales con bastantes categor?as, pero no entiendo como
armar la sintaxis; en realidad se me hace dif?cil entender la sintaxis de todo
jajajaja.
Si alguien con tiempo, podr?a indicarme como ser?a la sintaxis para realizar el
an?lisis con los m?todos antes indicados y as? poder evaluar el mejor n?mero de
cluster y la consistencia de ?stos se los agradecer?a mucho.
[[alternative HTML version deleted]]