Buenas tengo una consulta. Tengo un grupo de 15,000 clientes a los cuales debo de segmentar en base a variables que por sus características pueden ser agrupadas en 4 grupos. Lo primero que he realizado es segmentar las variables pero de cada grupo (xq necesito realizar un análisis sobre esto) mediante el análisis clúster y luego realizar una segmentación con todas las variables, también utilizando el análisis clúster. La pregunta del millón es...una vez que tenga mis segmentos definidos (supongamos que me salen 15 o 20 segmentos), como puedo hacer para determinar en que segmento podría estar un nuevo cliente y no tenga que volver a realizar el mismo análisis. Supuestamente el análisis clúster se que es netamente descriptivo, pero hay alguna forma de hacer uso de esta técnica para algo predictivo o inferencial algo así como en el análisis de regresión múltiple. Dato: Mis variables son ordinales, dicotómicas y algunas numéricas. Atte. Ricardo Alva "Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe " [[alternative HTML version deleted]]
Hola, Tendrías que hacerlo con el paquete "caret" que incluye una variante de "knn" con el que sí que puedes hacer predicciones. Mira el ejemplo aquí: http://topepo.github.io/caret/misc.html Otra referencia que te puede ayudar a llegar a la alternativa anterior es esta: http://stackoverflow.com/questions/21064315/how-do-i-predict-new-datas-cluster-after-clustering-training-data Saludos, Carlos Ortega www.qualityexcellence.es El 28 de enero de 2016, 22:30, Alva Valiente, Ricardo (RIAV) < riav en cajatrujillo.com.pe> escribió:> Buenas tengo una consulta. > Tengo un grupo de 15,000 clientes a los cuales debo de segmentar en base a > variables que por sus características pueden ser agrupadas en 4 grupos. Lo > primero que he realizado es segmentar las variables pero de cada grupo (xq > necesito realizar un análisis sobre esto) mediante el análisis clúster y > luego realizar una segmentación con todas las variables, también utilizando > el análisis clúster. La pregunta del millón es...una vez que tenga mis > segmentos definidos (supongamos que me salen 15 o 20 segmentos), como puedo > hacer para determinar en que segmento podría estar un nuevo cliente y no > tenga que volver a realizar el mismo análisis. Supuestamente el análisis > clúster se que es netamente descriptivo, pero hay alguna forma de hacer uso > de esta técnica para algo predictivo o inferencial algo así como en el > análisis de regresión múltiple. > > Dato: Mis variables son ordinales, dicotómicas y algunas numéricas. > > Atte. > Ricardo Alva > > "Aviso Legal: La información de este correo electrónico, así como de sus > archivos adjuntos, es confidencial y está dirigida exclusivamente a él o > los destinatarios. Si Usted ha recibido este correo por error, por favor > avísenos inmediatamente por este medio y elimínelo de su sistema. Se > encuentra prohibido cualquier uso, reproducción, divulgación o distribución > por otras personas distintas de él o los destinatarios. Cualquier opinión > emitida en este correo electrónico es propia del autor o remitente y no > representa necesariamente la opinión de la Caja Trujillo. A pesar de > esfuerzos razonables en el control de virus y programas maliciosos, la Caja > Trujillo no puede asegurar que éstos no se encuentren en este correo por > causas ajenas a su control, por lo que usted debe analizar este correo y > sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito > de Trujillo www.cajatrujillo.com.pe " > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Estimado muchas gracias por la respuesta; pero tengo otra interrogante. Para segmentar toda la data de clientes los cuales ya los vi bien y no son 15,000 sino 315,000 necesito utilizar el análisis de segmentación de K-medianas o K-modas, porque al ser datos ordinales y dicotómicos (la gran mayoría de variables), la aplicación de segmentar a través de k-medias no tiene mucho sentido. El R tiene capacidad para analizar dicha cantidad de datos o hasta cuantos datos puede analizar? y existe algún paquete que trabaje con K-medianas o K-modas? Atte. Ricardo Alva Valiente De: Carlos Ortega [mailto:cof en qualityexcellence.es] Enviado el: jueves, 28 de enero de 2016 05:13 PM Para: Alva Valiente, Ricardo (RIAV) <riav en cajatrujillo.com.pe> CC: r-help-es en r-project.org Asunto: Re: [R-es] help estadística!!!!! Hola, Tendrías que hacerlo con el paquete "caret" que incluye una variante de "knn" con el que sí que puedes hacer predicciones. Mira el ejemplo aquí: http://topepo.github.io/caret/misc.html Otra referencia que te puede ayudar a llegar a la alternativa anterior es esta: http://stackoverflow.com/questions/21064315/how-do-i-predict-new-datas-cluster-after-clustering-training-data Saludos, Carlos Ortega www.qualityexcellence.es<http://www.qualityexcellence.es> El 28 de enero de 2016, 22:30, Alva Valiente, Ricardo (RIAV) <riav en cajatrujillo.com.pe<mailto:riav en cajatrujillo.com.pe>> escribió: Buenas tengo una consulta. Tengo un grupo de 15,000 clientes a los cuales debo de segmentar en base a variables que por sus características pueden ser agrupadas en 4 grupos. Lo primero que he realizado es segmentar las variables pero de cada grupo (xq necesito realizar un análisis sobre esto) mediante el análisis clúster y luego realizar una segmentación con todas las variables, también utilizando el análisis clúster. La pregunta del millón es...una vez que tenga mis segmentos definidos (supongamos que me salen 15 o 20 segmentos), como puedo hacer para determinar en que segmento podría estar un nuevo cliente y no tenga que volver a realizar el mismo análisis. Supuestamente el análisis clúster se que es netamente descriptivo, pero hay alguna forma de hacer uso de esta técnica para algo predictivo o inferencial algo así como en el análisis de regresión múltiple. Dato: Mis variables son ordinales, dicotómicas y algunas numéricas. Atte. Ricardo Alva "Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> " [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org<mailto:R-help-es en r-project.org> https://stat.ethz.ch/mailman/listinfo/r-help-es -- Saludos, Carlos Ortega www.qualityexcellence.es<http://www.qualityexcellence.es> "Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe " [[alternative HTML version deleted]]
Estimado Ricardo Alva Posiblemente se enfrenta a un problema de presupuesto, los requerimientos informáticos pueden ser reducidos con algunos algoritmos optimizados, pero si la memoria ram no alcanza, comienza a escribir en disco, el procesador en su potencia de cálculo entra en un cuello de botella por la velocidad de escritura / lectura del disco, su sistema operativo puede caer luego de procesar durante un tiempo perdiendo horas de su trabajo. Con la cantidad de datos que usted tiene, ¿Qué posibilidades hay en adquirir algo más de ram?. A mi me paso de dejar la computadora trabajando dos días seguidos, y como no llegaba al resultado quedarme en un modelo algo más sencillo pero con algunas preguntas que no pude resolver, prefería otro resultado pero tenía una limitante en requerimientos informáticos y el autor del software me dijo que no trabajaban con cálculo en paralelo porque el tiempo de comunicación entre los núcleos del procesador ?., por más dinero que podría conseguir no se podía procesar. Otro algoritmo aparentemente procesaba pero consumía mucha ram y el sistema caía, no en las pruebas pero sí al procesar todos los datos. R, soportar soporta, en todo caso es un problema de presupuesto (si se coloca como desarrollador puede tener la versión de R de Microsoft, hay una versión nueva para trabajo ?fuerte?, otras posibilidades como https://spark.apache.org/docs/1.5.1/sparkr.html o http://blog.revolutionanalytics.com/2015/06/using-hadoop-with-r-it-depends.html o algunas más, pero los recursos informáticos existen, tenga en cuenta posibles inestabilidades en el proceso cuándo el sistema operativo comienza a administrar requerimientos muy elevados. Podría realizar una prueba, desconozco su sistema operativo, pero todos tienen una forma de informar cuánto ocupan de la memoria, procesador, disco, experimentar un poco en su trabajo con sus datos. Javier Rubén Marcuzzi De: Alva Valiente, Ricardo (RIAV) Enviado: jueves, 28 de enero de 2016 18:31 Para: r-help-es en r-project.org Asunto: [R-es] help estadística!!!!! Buenas tengo una consulta. Tengo un grupo de 15,000 clientes a los cuales debo de segmentar en base a variables que por sus caracter?sticas pueden ser agrupadas en 4 grupos. Lo primero que he realizado es segmentar las variables pero de cada grupo (xq necesito realizar un an?lisis sobre esto) mediante el an?lisis cl?ster y luego realizar una segmentaci?n con todas las variables, tambi?n utilizando el an?lisis cl?ster. La pregunta del mill?n es...una vez que tenga mis segmentos definidos (supongamos que me salen 15 o 20 segmentos), como puedo hacer para determinar en que segmento podr?a estar un nuevo cliente y no tenga que volver a realizar el mismo an?lisis. Supuestamente el an?lisis cl?ster se que es netamente descriptivo, pero hay alguna forma de hacer uso de esta t?cnica para algo predictivo o inferencial algo as? como en el an?lisis de regresi?n m?ltiple. Dato: Mis variables son ordinales, dicot?micas y algunas num?ricas. Atte. Ricardo Alva "Aviso Legal: La informaci?n de este correo electr?nico, as? como de sus archivos adjuntos, es confidencial y est? dirigida exclusivamente a ?l o los destinatarios. Si Usted ha recibido este correo por error, por favor av?senos inmediatamente por este medio y elim?nelo de su sistema. Se encuentra prohibido cualquier uso, reproducci?n, divulgaci?n o distribuci?n por otras personas distintas de ?l o los destinatarios. Cualquier opini?n emitida en este correo electr?nico es propia del autor o remitente y no representa necesariamente la opini?n de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que ?stos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Cr?dito de Trujillo www.cajatrujillo.com.pe " [[alternative HTML version deleted]] [[alternative HTML version deleted]]
Hola, Estos dos referencias con alternativas a cómo podrías realizar un análisis clúster sobe tus datos me ha parecido relevantes e interesantes: http://stackoverflow.com/questions/6372397/k-means-with-really-large-matrix http://stackoverflow.com/questions/21984940/clustering-very-large-dataset-in-r Saludos, Carlos Ortega www.qualityexcellence.es El 28 de enero de 2016, 22:30, Alva Valiente, Ricardo (RIAV) < riav en cajatrujillo.com.pe> escribió:> Buenas tengo una consulta. > Tengo un grupo de 15,000 clientes a los cuales debo de segmentar en base a > variables que por sus características pueden ser agrupadas en 4 grupos. Lo > primero que he realizado es segmentar las variables pero de cada grupo (xq > necesito realizar un análisis sobre esto) mediante el análisis clúster y > luego realizar una segmentación con todas las variables, también utilizando > el análisis clúster. La pregunta del millón es...una vez que tenga mis > segmentos definidos (supongamos que me salen 15 o 20 segmentos), como puedo > hacer para determinar en que segmento podría estar un nuevo cliente y no > tenga que volver a realizar el mismo análisis. Supuestamente el análisis > clúster se que es netamente descriptivo, pero hay alguna forma de hacer uso > de esta técnica para algo predictivo o inferencial algo así como en el > análisis de regresión múltiple. > > Dato: Mis variables son ordinales, dicotómicas y algunas numéricas. > > Atte. > Ricardo Alva > > "Aviso Legal: La información de este correo electrónico, así como de sus > archivos adjuntos, es confidencial y está dirigida exclusivamente a él o > los destinatarios. Si Usted ha recibido este correo por error, por favor > avísenos inmediatamente por este medio y elimínelo de su sistema. Se > encuentra prohibido cualquier uso, reproducción, divulgación o distribución > por otras personas distintas de él o los destinatarios. Cualquier opinión > emitida en este correo electrónico es propia del autor o remitente y no > representa necesariamente la opinión de la Caja Trujillo. A pesar de > esfuerzos razonables en el control de virus y programas maliciosos, la Caja > Trujillo no puede asegurar que éstos no se encuentren en este correo por > causas ajenas a su control, por lo que usted debe analizar este correo y > sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito > de Trujillo www.cajatrujillo.com.pe " > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]