Kjetil Halvorsen
2010-Jan-30 00:50 UTC
[R-es] Competiciín de classificación!!! Fwd: [R] Classification of supernovae - a challenge
Hola! Este mail llegó a r-help hoy, yo lo mandó también a esta lista. Es interesante con competiciones de predicción/clasificación! ¿Alguien que quiere cooperar? Kjetil ---------- Forwarded message ---------- From: Kjetil Halvorsen <kjetilbrinchmannhalvorsen@gmail.com> Date: Fri, Jan 29, 2010 at 12:19 Subject: Fwd: [R] Classification of supernovae - a challenge To: Kjetil Halvorsen <kjetil1001@gmail.com> ---------- Forwarded message ---------- From: Jarle Brinchmann <jbrinchmann@gmail.com> Date: Fri, Jan 29, 2010 at 7:35 AM Subject: [R] Classification of supernovae - a challenge To: r-help <r-help@r-project.org> Hi all, I thought I''d just point out, to those not having yet seen this, that today there was a classification challenge posted for astronomy. The web-site is http://www.hep.anl.gov/SNchallenge/ [I have nothing to do with this project so don''t ask me any details!] Basically the idea behind is that future surveys of the sky will turn up a large number of supernovae (SNe). The surveys'' main goal is to try to understand the mysterious dark energy which seems to make up ~70% of the energy density of the Universe. The number of these SNe that will be detected is expected to be moderately large (~10^5). In the past astronomers have studied these using spectroscopic data which allow you to accurately classify supernovae but that will not be possible in the future. Instead one will have to rely on measurements of flux in broad bands to classify supernovae. This challenge then is to try to classify SNe using photometry only and they have provided training & test data on the web sites above. The characteristic features are typically encoded in the shape of the flux curve as a function of time but other aspects might be useful too. There is a description on the web site for more information. Anyway, just thought some of you might find this a fun challenge for you or your students - the deadline is May 1. Cheers, Jarle. ______________________________________________ R-help@r-project.org mailing list https://stat.ethz.ch/mailman/listinfo/r-help PLEASE do read the posting guide http://www.R-project.org/posting-guide.html and provide commented, minimal, self-contained, reproducible code. -- "... an entire human genome would fit on a music CD." --- www.thinkgene.com [[alternative HTML version deleted]]
Kjetil Halvorsen
2010-Feb-08 22:53 UTC
[R-es] Competiciín de classificación!!! Fwd: [R] Classification of supernovae - a challenge
Hola! Estoy pensando si voy a participar en esta competición, no tengo tiempo, ṕero parece muy interesante .... Unos preguntas. La cantidad de datos es "grande", pero n o muy grande (se puede leer todo en la memoria de un pc moderno). Esta distribuido sobro casi 40000 ficheros de datos, que individualmente son pequeños. Yo no he manejado antes proyectos con tantos ficheros! ¿Como maneja la gente con este problema, en R? Hay dos alternativos. 1) simplemente usar ficheros, y leerlos cada vez, talvez con listas de data frames. 2) leer los datos una vez (con R) de los ficheros, y exportarlos a una base de datos. ¿Que es preferible? ¿Que ventajas puede tener, usar bases de datos? (Yo nunca he usado bases de datos) ¿Que base de datos es preferible usar con R, que funciona bién en ambos linux y windows? Otra pregunta relacionado: Yo prefiere, trabajando con datos extensos, ponerlos en un paquete formal, documentarlos, y poner en el paquete finciones para hacer calculos con estos datos. ¿Se puede hacer esto si los datos esta en un data frame? El subdirectorio /data de un paquete generalmente se puebla con ficheros *.Rdata, en forma para leer con la función data() ¿Existe una manera estandarizada de proporcionar "data bases" en un paquete de R? Kjetil On Fri, Jan 29, 2010 at 21:50, Kjetil Halvorsen <kjetil1001@gmail.com>wrote:> Hola! > > Este mail llegó a r-help hoy, yo lo mandó también a esta lista. Es > interesante > con competiciones de predicción/clasificación! ¿Alguien que quiere > cooperar? > > Kjetil > > ---------- Forwarded message ---------- > From: Kjetil Halvorsen <kjetilbrinchmannhalvorsen@gmail.com> > Date: Fri, Jan 29, 2010 at 12:19 > Subject: Fwd: [R] Classification of supernovae - a challenge > To: Kjetil Halvorsen <kjetil1001@gmail.com> > > > ---------- Forwarded message ---------- > From: Jarle Brinchmann <jbrinchmann@gmail.com> > Date: Fri, Jan 29, 2010 at 7:35 AM > Subject: [R] Classification of supernovae - a challenge > To: r-help <r-help@r-project.org> > > > Hi all, > > I thought I''d just point out, to those not having yet seen this, that > today there was a classification challenge posted for astronomy. > > The web-site is http://www.hep.anl.gov/SNchallenge/ > > [I have nothing to do with this project so don''t ask me any details!] > > Basically the idea behind is that future surveys of the sky will turn > up a large number of supernovae (SNe). The surveys'' main goal is to > try to understand the mysterious dark energy which seems to make up > ~70% of the energy density of the Universe. The number of these SNe > that will be detected is expected to be moderately large (~10^5). In > the past astronomers have studied these using spectroscopic data which > allow you to accurately classify supernovae but that will not be > possible in the future. Instead one will have to rely on measurements > of flux in broad bands to classify supernovae. > > This challenge then is to try to classify SNe using photometry only > and they have provided training & test data on the web sites above. > The characteristic features are typically encoded in the shape of the > flux curve as a function of time but other aspects might be useful > too. There is a description on the web site for more information. > > Anyway, just thought some of you might find this a fun challenge for > you or your students - the deadline is May 1. > > Cheers, > Jarle. > > ______________________________________________ > R-help@r-project.org mailing list > https://stat.ethz.ch/mailman/listinfo/r-help > PLEASE do read the posting guide > http://www.R-project.org/posting-guide.html > and provide commented, minimal, self-contained, reproducible code. > > > > -- > "... an entire human genome would fit on a music CD." > > --- www.thinkgene.com > > > >-- "... an entire human genome would fit on a music CD." --- www.thinkgene.com [[alternative HTML version deleted]]
Usuario R
2010-Feb-09 10:21 UTC
[R-es] Competiciín de classificación!!! Fwd: [R] Classification of supernovae - a challenge
Hola Kjetil, Mira, aqui tienes una alternativa: http://www.ats.ucla.edu/stat/r/code/read_multiple.htm De todas formas el concurso me parece muy interesante a nivel estadístico si es que alguien tiene un algoritmo de clasificación y lo quiere probar en esta base de datos pero tampoco veo mucha relación con R, no dice en ningún momento que se ha de usar R no? Por si os parece interesante entender un poco de qué va la cosa, os paso un enlace que nada tienen que ver con R ni con estadística, pero si con el concurso: http://www.elpais.com/articulo/sociedad/Tocar/vacio/energia/oscura/supernovas/elpepusoc/20090818elpepusoc_1/Tes Saludos Patricia 2010/2/8 Kjetil Halvorsen <kjetil1001@gmail.com>> Hola! > > Estoy pensando si voy a participar en esta competición, no tengo tiempo, > ṕero > parece muy interesante .... > > Unos preguntas. La cantidad de datos es "grande", pero n o muy grande (se > puede leer todo en > la memoria de un pc moderno). Esta distribuido sobro casi 40000 ficheros de > datos, que > individualmente son pequeños. Yo no he manejado antes proyectos con tantos > ficheros! ¿Como maneja la gente con este problema, en R? > > Hay dos alternativos. 1) simplemente usar ficheros, y leerlos cada vez, > talvez con listas de > data frames. 2) leer los datos una vez (con R) de los ficheros, y > exportarlos a una base de datos. > > ¿Que es preferible? ¿Que ventajas puede tener, usar bases de datos? (Yo > nunca he usado bases de datos) ¿Que base de datos > es preferible usar con R, que funciona bién en ambos linux y windows? > > Otra pregunta relacionado: Yo prefiere, trabajando con datos extensos, > ponerlos en un paquete formal, documentarlos, y poner > en el paquete finciones para hacer calculos con estos datos. > > ¿Se puede hacer esto si los datos esta en un data frame? El subdirectorio > /data de un paquete > generalmente se puebla con ficheros *.Rdata, en forma para leer con la > función > data() ¿Existe una manera estandarizada de proporcionar "data bases" en > un > paquete de R? > > Kjetil > > On Fri, Jan 29, 2010 at 21:50, Kjetil Halvorsen <kjetil1001@gmail.com > >wrote: > > > Hola! > > > > Este mail llegó a r-help hoy, yo lo mandó también a esta lista. Es > > interesante > > con competiciones de predicción/clasificación! ¿Alguien que quiere > > cooperar? > > > > Kjetil > > > > ---------- Forwarded message ---------- > > From: Kjetil Halvorsen <kjetilbrinchmannhalvorsen@gmail.com> > > Date: Fri, Jan 29, 2010 at 12:19 > > Subject: Fwd: [R] Classification of supernovae - a challenge > > To: Kjetil Halvorsen <kjetil1001@gmail.com> > > > > > > ---------- Forwarded message ---------- > > From: Jarle Brinchmann <jbrinchmann@gmail.com> > > Date: Fri, Jan 29, 2010 at 7:35 AM > > Subject: [R] Classification of supernovae - a challenge > > To: r-help <r-help@r-project.org> > > > > > > Hi all, > > > > I thought I''d just point out, to those not having yet seen this, that > > today there was a classification challenge posted for astronomy. > > > > The web-site is http://www.hep.anl.gov/SNchallenge/ > > > > [I have nothing to do with this project so don''t ask me any details!] > > > > Basically the idea behind is that future surveys of the sky will turn > > up a large number of supernovae (SNe). The surveys'' main goal is to > > try to understand the mysterious dark energy which seems to make up > > ~70% of the energy density of the Universe. The number of these SNe > > that will be detected is expected to be moderately large (~10^5). In > > the past astronomers have studied these using spectroscopic data which > > allow you to accurately classify supernovae but that will not be > > possible in the future. Instead one will have to rely on measurements > > of flux in broad bands to classify supernovae. > > > > This challenge then is to try to classify SNe using photometry only > > and they have provided training & test data on the web sites above. > > The characteristic features are typically encoded in the shape of the > > flux curve as a function of time but other aspects might be useful > > too. There is a description on the web site for more information. > > > > Anyway, just thought some of you might find this a fun challenge for > > you or your students - the deadline is May 1. > > > > Cheers, > > Jarle. > > > > ______________________________________________ > > R-help@r-project.org mailing list > > https://stat.ethz.ch/mailman/listinfo/r-help > > PLEASE do read the posting guide > > http://www.R-project.org/posting-guide.html > > and provide commented, minimal, self-contained, reproducible code. > > > > > > > > -- > > "... an entire human genome would fit on a music CD." > > > > --- www.thinkgene.com > > > > > > > > > > > -- > "... an entire human genome would fit on a music CD." > > --- www.thinkgene.com > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >[[alternative HTML version deleted]]
Carlos J. Gil Bellosta
2010-Feb-09 16:42 UTC
[R-es] Competiciín de classificación!!! Fwd: [R] Classification of supernovae - a challenge
Kjetil Halvorsen wrote:> > ¿Que es preferible? ¿Que ventajas puede tener, usar bases de datos? (Yo > nunca he usado bases de datos) ¿Que base de datos > es preferible usar con R, que funciona bién en ambos linux y windows?Hola, ¿qué tal? Por motivos cuya enumeración excede el tiempo de batería que le queda a mi portátil, te recomendaría usar Postgres como base de datos. Funciona a la perfección tanto en Windows como en Linux y la conexión con R está muy madura. Incluso es posible ejecutar código de R dentro del mismo motor de Postgres (existe PL/R: http://www.joeconway.com/plr). No es mala práctica combinar el uso de R con un gestor decente de bases de datos (decente, aquí, significa "no Access"). Operaciones de datos simples pero pesadas pueden realizarse muy eficientemente en la base de datos (incluso enviando las "queries" desde R) para después exportar los datos convenientemente agregados/resumidos/muestreados a R para su posterior análisis. Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com http://datanalytics.wordpress.com