thr3ads.net - similar to: "Muestreo de bases de datos.-"

Displaying 20 results from an estimated 300 matches similar to: "Muestreo de bases de datos.-"

2015 May 05

Muestreo de bases de datos

Bueno ... voy a compartirles mi experiencia en esto.Freddy, yo tuve la misma experiencia que su amigo, es mas, aun la sigo teniendo... y en resumen y sin alargar el cuento ... me quedo con R.Porque mi decisión... por varios temas:1. Rapidez. Uno debe saber que es lo que se quiere hacer y que necesita para eso. El uso adecuado de indices, hash, etc. que permitan y faciliten al sistema trabajar

Resumen de R-help-es, Vol 75, Envío 7

2015 May 06

Resumen de R-help-es, Vol 75, Envío 7

Hola, me sorprende leer tu opinión ("R (puro) no es la herramienta ideal para el manejo directo del 'big data'") cuando precisamente este pasado mes de abril SparkR (ver descripción de su web más abajo) se ha integrado en Apache Spark y todo el mundo que está en "ese ajo" del "big data" (buzzword donde las haya) no le quita ojo a la publicación oficial este

Muestrear de una normal multivariante.-

2016 Jul 17

Muestrear de una normal multivariante.-

¡Hola a todos! Estoy intentando muestrear de una normal multivariante donde hay dos grupos de variables que deben tener una relación "manipulable" entre sí pero ignoro cómo hacerlo. Les cuento, he intentado lo siguiente: # covarianzas del primer grupo de variables: Sigma_U <- matrix(c(.25, .2, .2, .25), ncol=2) # covarianzas del segundo grupo de variables: Sigma_W <- diag(2) #

Big data con R o phyton?

2016 Dec 05

Big data con R o phyton?

Merece la pena aprender python para Big data con Spark o usando la libreria que acaba de salir para R es suficiente? Qué creeis? [[alternative HTML version deleted]]

Big data con R

2017 Jan 04

Big data con R

Hola. Últimamente ha habido en la lista varios hilos sobre análisis de grandes volúmenes de datos con R. Las alternativas que se han mencionado son: - Usar una máquina más potente, vía Amazon Web Services, por ejemplo - Paralelización con openMp - h2o y su paquete para R, - Paquete sparklyr como wrapper de los algoritmos de spark, Y por supuesto, utilizar muestreo o incluso si tenemos

muestreo

2013 Oct 09

muestreo

Se quiere hacer una encuesta de actitudes a una población de 45000 personas, quisiera me sugirieran un script adecuado , he revisado algunos en epicalc, pero no encuentro la respuesta adecuada (prevalencia 0,5, error 5%) -- Este mensaje le ha llegado mediante el servicio de correo electronico que ofrece Infomed para respaldar el cumplimiento de las misiones del Sistema Nacional de Salud.

generacion aleatoria de coordenadas

2013 Dec 22

generacion aleatoria de coordenadas

Hola a todos He estado trabajando con el paquete osmar y funciona muy bien.Puede alguien decirme donde encontrar informacion o algun script para generar una lista con N pares de puntos (longitud/latitud) aleatorios o siguiendo una funcion determinada dentro del marco de coordenadas definido por corner_bbox(left, bottom, right, top) para despues plotearlos. saludos eloy ortiz -- Este

text vector clustering

2009 Jan 22

text vector clustering

Hi, I am a new user of R using R 2.8.1 in windows 2003. I have a csv file with single column which contain the 30,000 students names. There were typo errors while entering this student names. The actual list of names is < 1000. However we dont have that list for keyword search. I am interested in grouping/cluster these names as those which are similar letter to letter. Are there any

¿Está R perdiendo la batalla?

2017 Jan 15

¿Está R perdiendo la batalla?

Hace poco me puse al tema del big data y la verdad es que een este campo la decisión parece clara. Python ahora mismo está un paso por delante de R, aunque sparklyR puede igualar la contienda. Pero lo que me empieza a preocupar es que parece que si nos alejamos del Big Data, Python tb está ganando adeptos a pasos agigantados. ¿Está perdiendo R la batalla? [[alternative HTML version deleted]]

Bases de datos, comas y puntos.-

2011 May 25

Bases de datos, comas y puntos.-

Estimados compañeros, Les contaré mi problema: supongamos que tengo millones de datos en un manejador famoso de base de datos al cual, por restricciones impuestas desde la alta gerencia, no puedo modificar en un ápice. Este manejador utiliza siempre (siempre) comas en lugar de puntos para separar decimales. Yo trabajo con R (naturalmente) y hago mis consultas a la base de datos utilizando la

Dibujar una espiral

2013 Mar 14

Dibujar una espiral

Hola: Estoy intentando dibujar una espiral a la que le quería colocar unas marcas equidistantes. Estoy utilizando: T = seq(0, 20*pi, length.out=1000) X = T * cos(T) Y = T * sin(T) plot(X, Y) que dibuja puntos siguiendo una espiral. Como podría convertirlo en una espiral continua con marcas equidistantes? He buscado en r-cran, y no he encontrado nada. Muchas gracias y saludos!! Griera

Generación de números aleatorios. Mixtura k-puntos

2013 Nov 19

Generación de números aleatorios. Mixtura k-puntos

Saludo cordial para cada uno. Les pido ayuda para generar números aleatorios de una mixtura k-puntos. Sabemos que la función de distribución F es una mixtura k-puntos si es de la forma F(x) = p_1 F_1(x) + p_2 F_2(x) + … + p_k F_k(x), donde F_j es una función de distribución de probabilidad, p_j > 0 y suma(p_j) = 1, para j = 1, 2, …, k. En mi caso particular F es la suavización de la

Optimizar paste0()?

2014 Dec 09

Optimizar paste0()?

Hola a todos, Me gustaria construir un vector a partir de otros dos. Ejemplo: x <- 1:3 y <- 4:6 d <- data.frame(x, y) d$z <- with(d, paste0(x, ":", y, "-ABC")) d El problema es "d" tiene ~70 millones de filas y toma mucho tiempo construir el vector "z". Alguna sugerencia? Muchas gracias, Jorge Velez [[alternative HTML version deleted]]

Optimizar paste0()?

2014 Dec 09

Optimizar paste0()?

Gracias, Javier. Los datos "d" corresponden un archivo de texto de ~1.92GB. Voy a explorar la posibilidad con sqldf, aunque confieso que mi conocimiento de SQL es bastante limitado. Saludos cordiales, Jorge.- 2014-12-09 23:50 GMT+11:00 "Marcuzzi, Javier Rubén" < javier.ruben.marcuzzi en gmail.com>: > Estimado Jorge Velez > > ¿Que pasa si usa sqldf que

Calibrar y validar nomograma

2023 Apr 10

Calibrar y validar nomograma

Hola a todos! Espero que me pod?is ayudar porque estoy un poco atascado. He hecho un modelo de regresi?n de Cox para la supervivencia a 3 a?os de pacientes con c?ncer colorrectal en funci?n de una serie de factores. De la muestra total de unos 1000 casos, cre? dos grupos: uno de entrenamiento y otro de test. El modelo lo hice con el grupo de entranamiento. La asignaci?n de los pacientes a cada

Frecuencia absoluta acumulada por individuo y por año

2014 Mar 10

Frecuencia absoluta acumulada por individuo y por año

Hola, Hola a todos, Os escribo porque no consigo finalizar el script necesario para realizar lo que a continuación planteo. Partiendo de un data frame (2 millones de casos), tengo: > datos2 ID FECHA YEAR CANTIDAD 1 100 2005-08-02 2005 1 2 100 2005-10-19 2005 2 3 100 2007-02-09 2007 1 4 100 2007-10-25 2007 1 5 100 2007-10-29 2007 1 6 120 2006-05-11

Optimizar paste0()?

2014 Dec 09

Optimizar paste0()?

Hola, Otra forma, quizás algo más rápida, especialmente para unos conjuntos tan grandes, que la de sqldf es "data.table": library(data.table) x <- 1:3 y <- 4:6 d <- data.table(x, y) d[,z := paste(x,"-",y,sep="")] > d x y z 1: 1 4 1-4 2: 2 5 2-5 3: 3 6 3-6 Y bueno, "dplyr" también es otra opción muy rápida... También, y recuerdo que hace

La ejecución de mi script R es muy lenta

2015 May 28

La ejecución de mi script R es muy lenta

En el correo anterior se me olvidó mencionar que trabajo con Rstudio El 28 de mayo de 2015, 15:18, MªLuz Morales <mlzmrls en gmail.com> escribió: > Hola, > soy nueva en esta lista y también en R. Yo he realizado un script en R > que carga dos archivos csv, uno de ellos con casi 2 millones de filas. El > programa carga esos archivos a data frame, y se trata simplemente de >

¿Alguna explicación para este fenómeno? (Relativo al uso de memoria)

2013 Jun 13

¿Alguna explicación para este fenómeno? (Relativo al uso de memoria)

Hola, ¿qué tal? Al final he descubierto el motivo del problema. Cierto que esperaba cierto nivel de _overhead_, pero nunca tantísimo. Por mucho _overhead_ que haya, no se pasa de 7MB a 5GB. El problema era que (a pesar de mi opción stringsAsFactors = F) los niveles de los factores se copiaban íntegros en cada una de las columnas de tipo factor de cada una de las tablas resultantes. Aunque no se

¿Alguna explicación para este fenómeno? (Relativo al uso de memoria)

2013 Jun 13

¿Alguna explicación para este fenómeno? (Relativo al uso de memoria)

Interesante... y preocupante. No propuso alguien, no hace mucho, reescribir R desde el principio por este tipo de cosas? El 13/06/13 20:04, Carlos Ortega escribió: > Hola, > > Si este comportamiento se ve con cualquier data.frame que luego conviertas > a lista: > >> >> v <- 1:10 >> w <- split(v, 1:2) >> w > $`1` > [1] 1 3 5 7 9 > > $`2`

similar to: Muestreo de bases de datos.-