Pedro Concejero Cerezo
2013-Jul-26 08:49 UTC
[R-es] variación en los resultados de k medias (Alfredo Alvarez)
Hola, pues con esto del kmeans ando pegándome ahora y si quieres tener los mismos resultados para los mismos datos de entrada debes darle una semilla constante en cada ejecución: set.seed(1234) Como se explica aquí: https://stat.ethz.ch/pipermail/r-help/2007-March/128671.html Lo he comprobado en muchas ejecuciones y es así. Otra posibilidad que se menciona también en las consultas que he buscado (https://www.google.es/search?q=kmeans+not+give+same+output+different+runs) es pasarle los centroides al algoritmo, pero esto no siempre -mejor dicho, raras veces- es factible. Otra cosa es el algoritmo kmeans que elijas, y aquí lanzo también una pregunta por si alguien lo conoce: probando el kmeans estándar y el bigkmeans de biganalytics (creedme que es una pequeña maravilla que divide el tiempo de ejecución por 2 ó 3 al menos, y permite manejar objetos que no caben en memoria -usando bigmemory), dan resultados muy diferentes. Lo que más me preocupa es el tamaño de los clusters, pero no veo por ninguna parte que eso se pueda controlar. Mi conclusiónes que kmeans es utilísimo para tareas exploratorias, si tienes alguna razón para fijar el número de clusters, pero que puede resultar difícil o incluso imposible de validar, o de asegurar que se va a mantener estable. Calurosos saludos, Pedro El 26/07/2013 9:08, r-help-es-request@r-project.org<mailto:r-help-es-request@r-project.org> escribió: Envíe los mensajes para la lista R-help-es a r-help-es@r-project.org<mailto:r-help-es@r-project.org> Para subscribirse o anular su subscripción a través de la WEB https://stat.ethz.ch/mailman/listinfo/r-help-es O por correo electrónico, enviando un mensaje con el texto "help" en el asunto (subject) o en el cuerpo a: r-help-es-request@r-project.org<mailto:r-help-es-request@r-project.org> Puede contactar con el responsable de la lista escribiendo a: r-help-es-owner@r-project.org<mailto:r-help-es-owner@r-project.org> Si responde a algún contenido de este mensaje, por favor, edite la linea del asunto (subject) para que el texto sea mas especifico que: "Re: Contents of R-help-es digest...". Además, por favor, incluya en la respuesta sólo aquellas partes del mensaje a las que está respondiendo. Asuntos del día: 1. variación en los resultados de k medias (Alfredo Alvarez) 2. Re: variación en los resultados de k medias (Carlos J. Gil Bellosta ) 3. Re: variación en los resultados de k medias (Julio Alejandro Di Rienzo) 4. Re: variación en los resultados de k medias (Alfredo Alvarez) 5. Re: Error al utilizar twitteR (Jorge I Velez) 6. Re: Resumen de R-help-es, Vol 53, Envío 38 (Jorge I Velez) ---------------------------------------------------------------------- Message: 1 Date: Thu, 25 Jul 2013 13:33:14 -0500 From: Alfredo Alvarez <alugal4@gmail.com><mailto:alugal4@gmail.com> To: r-help-es@r-project.org<mailto:r-help-es@r-project.org> Subject: [R-es] variación en los resultados de k medias Message-ID: <CAALU6h-=qd6KX4tBQAus0dptwYYa3meVLGzJawuKCaBCC+k7Xg@mail.gmail.com><mailto:CAALU6h-=qd6KX4tBQAus0dptwYYa3meVLGzJawuKCaBCC+k7Xg@mail.gmail.com> Content-Type: text/plain Buen día a todos. mi pregunta es si alguien sabe si el algoritmo de k medias siempre da los mismos resultados con los mismos datos de entrada. o si al correrlo dos veces con los mismos datos de entrada se pueden obtener grupos distintos. [[alternative HTML version deleted]] -- Pedro Concejero BigData - Analytics @ Telefónica I+D<http://www.tid.es/es/Paginas/default.aspx> Part of Telefónica Digital<http://www.telefonica.com/es/digital/html/home/home.shtml> / Telefónica Digital Hub (english)<http://blog.digital.telefonica.com/> E-mail: pedro.concejero@tid.es<mailto:pedro.concejero@tid.es> skype: pedro.concejero twitter: @ConcejeroPedro linkedin <http://www.linkedin.com/in/pedroconcejero/es> ________________________________ Este mensaje se dirige exclusivamente a su destinatario. Puede consultar nuestra política de envío y recepción de correo electrónico en el enlace situado más abajo. This message is intended exclusively for its addressee. We only send and receive email on the basis of the terms set out at: http://www.tid.es/ES/PAGINAS/disclaimer.aspx [[alternative HTML version deleted]]