Displaying 20 results from an estimated 300 matches similar to: "Muestreo de bases de datos.-"
2015 May 05
2
Muestreo de bases de datos
Bueno ... voy a compartirles mi experiencia en esto.Freddy, yo tuve la misma experiencia que su amigo, es mas, aun la sigo teniendo... y en resumen y sin alargar el cuento ... me quedo con R.Porque mi decisión... por varios temas:1. Rapidez. Uno debe saber que es lo que se quiere hacer y que necesita para eso. El uso adecuado de indices, hash, etc. que permitan y faciliten al sistema trabajar
2015 May 06
2
Resumen de R-help-es, Vol 75, Envío 7
Hola, me sorprende leer tu opinión ("R (puro) no es la herramienta ideal para el manejo directo del 'big data'") cuando precisamente este pasado mes de abril SparkR (ver descripción de su web más abajo) se ha integrado en Apache Spark y todo el mundo que está en "ese ajo" del "big data" (buzzword donde las haya) no le quita ojo a la publicación oficial este
2016 Jul 17
2
Muestrear de una normal multivariante.-
¡Hola a todos!
Estoy intentando muestrear de una normal multivariante donde hay dos grupos
de variables que deben tener una relación "manipulable" entre sí pero
ignoro cómo hacerlo.
Les cuento, he intentado lo siguiente:
# covarianzas del primer grupo de variables:
Sigma_U <- matrix(c(.25, .2, .2, .25), ncol=2)
# covarianzas del segundo grupo de variables:
Sigma_W <- diag(2)
#
2016 Dec 05
2
Big data con R o phyton?
Merece la pena aprender python para Big data con Spark o usando la libreria que acaba de salir para R es suficiente? Qué creeis?
[[alternative HTML version deleted]]
2017 Jan 04
3
Big data con R
Hola.
Últimamente ha habido en la lista varios hilos sobre análisis de grandes
volúmenes de datos con R.
Las alternativas que se han mencionado son:
- Usar una máquina más potente, vía Amazon Web Services, por ejemplo
- Paralelización con openMp
- h2o y su paquete para R,
- Paquete sparklyr como wrapper de los algoritmos de spark,
Y por supuesto, utilizar muestreo o incluso si tenemos
2013 Oct 09
1
muestreo
Se quiere hacer una encuesta de actitudes a una población de 45000 personas,
quisiera me sugirieran un script adecuado , he revisado algunos en epicalc,
pero no encuentro la respuesta adecuada (prevalencia 0,5, error 5%)
--
Este mensaje le ha llegado mediante el servicio de correo electronico que ofrece Infomed para respaldar el cumplimiento de las misiones del Sistema Nacional de Salud.
2013 Dec 22
3
generacion aleatoria de coordenadas
Hola a todos
He estado trabajando con el paquete osmar y funciona muy bien.Puede alguien decirme donde encontrar informacion o algun script para generar una lista con N pares de puntos (longitud/latitud) aleatorios o siguiendo una funcion determinada dentro del marco de coordenadas definido por corner_bbox(left, bottom, right, top) para despues plotearlos.
saludos
eloy ortiz
--
Este
2009 Jan 22
4
text vector clustering
Hi,
I am a new user of R using R 2.8.1 in windows 2003. I have a csv file with
single column which contain the 30,000 students names. There were typo
errors while entering this student names. The actual list of names is <
1000. However we dont have that list for keyword search.
I am interested in grouping/cluster these names as those which are
similar letter to letter. Are there any
2017 Jan 15
3
¿Está R perdiendo la batalla?
Hace poco me puse al tema del big data y la verdad es que een este campo la decisión parece clara. Python ahora mismo está un paso por delante de R, aunque sparklyR puede igualar la contienda.
Pero lo que me empieza a preocupar es que parece que si nos alejamos del Big Data, Python tb está ganando adeptos a pasos agigantados. ¿Está perdiendo R la batalla?
[[alternative HTML version deleted]]
2011 May 25
3
Bases de datos, comas y puntos.-
Estimados compañeros,
Les contaré mi problema: supongamos que tengo millones de datos en un
manejador famoso de base de datos al cual, por restricciones impuestas
desde la alta gerencia, no puedo modificar en un ápice. Este manejador
utiliza siempre (siempre) comas en lugar de puntos para separar
decimales. Yo trabajo con R (naturalmente) y hago mis consultas a la
base de datos utilizando la
2013 Mar 14
8
Dibujar una espiral
Hola:
Estoy intentando dibujar una espiral a la que le quería colocar unas marcas equidistantes.
Estoy utilizando:
T = seq(0, 20*pi, length.out=1000)
X = T * cos(T)
Y = T * sin(T)
plot(X, Y)
que dibuja puntos siguiendo una espiral. Como podría convertirlo en una espiral continua con marcas equidistantes?
He buscado en r-cran, y no he encontrado nada.
Muchas gracias y saludos!! Griera
2013 Nov 19
1
Generación de números aleatorios. Mixtura k-puntos
Saludo cordial para cada uno.
Les pido ayuda para generar números aleatorios de una mixtura k-puntos.
Sabemos que la función de distribución F es una mixtura k-puntos si es de
la forma F(x) = p_1 F_1(x) + p_2 F_2(x) + … + p_k F_k(x), donde F_j es una
función de distribución de probabilidad, p_j > 0 y suma(p_j) = 1, para j =
1, 2, …, k.
En mi caso particular F es la suavización de la
2014 Dec 09
2
Optimizar paste0()?
Hola a todos,
Me gustaria construir un vector a partir de otros dos.
Ejemplo:
x <- 1:3
y <- 4:6
d <- data.frame(x, y)
d$z <- with(d, paste0(x, ":", y, "-ABC"))
d
El problema es "d" tiene ~70 millones de filas y toma mucho tiempo
construir el vector "z".
Alguna sugerencia?
Muchas gracias,
Jorge Velez
[[alternative HTML version deleted]]
2014 Dec 09
3
Optimizar paste0()?
Gracias, Javier.
Los datos "d" corresponden un archivo de texto de ~1.92GB. Voy a explorar
la posibilidad con sqldf, aunque confieso que mi conocimiento de SQL es
bastante limitado.
Saludos cordiales,
Jorge.-
2014-12-09 23:50 GMT+11:00 "Marcuzzi, Javier Rubén" <
javier.ruben.marcuzzi en gmail.com>:
> Estimado Jorge Velez
>
> ¿Que pasa si usa sqldf que
2023 Apr 10
0
Calibrar y validar nomograma
Hola a todos! Espero que me pod?is ayudar porque estoy un poco atascado.
He hecho un modelo de regresi?n de Cox para la supervivencia a 3 a?os de pacientes con c?ncer colorrectal en funci?n de una serie de factores. De la muestra total de unos 1000 casos, cre? dos grupos: uno de entrenamiento y otro de test. El modelo lo hice con el grupo de entranamiento. La asignaci?n de los pacientes a cada
2014 Mar 10
4
Frecuencia absoluta acumulada por individuo y por año
Hola,
Hola a todos,
Os escribo porque no consigo finalizar el script necesario para realizar lo que a continuación planteo. Partiendo de un data frame (2 millones de casos), tengo:
> datos2
ID FECHA YEAR CANTIDAD
1 100 2005-08-02 2005 1
2 100 2005-10-19 2005 2
3 100 2007-02-09 2007 1
4 100 2007-10-25 2007 1
5 100 2007-10-29 2007 1
6 120 2006-05-11
2014 Dec 09
3
Optimizar paste0()?
Hola,
Otra forma, quizás algo más rápida, especialmente para unos conjuntos tan
grandes, que la de sqldf es "data.table":
library(data.table)
x <- 1:3
y <- 4:6
d <- data.table(x, y)
d[,z := paste(x,"-",y,sep="")]
> d
x y z
1: 1 4 1-4
2: 2 5 2-5
3: 3 6 3-6
Y bueno, "dplyr" también es otra opción muy rápida...
También, y recuerdo que hace
2015 May 28
2
La ejecución de mi script R es muy lenta
En el correo anterior se me olvidó mencionar que trabajo con Rstudio
El 28 de mayo de 2015, 15:18, MªLuz Morales <mlzmrls en gmail.com> escribió:
> Hola,
> soy nueva en esta lista y también en R. Yo he realizado un script en R
> que carga dos archivos csv, uno de ellos con casi 2 millones de filas. El
> programa carga esos archivos a data frame, y se trata simplemente de
>
2013 Jun 13
4
¿Alguna explicación para este fenómeno? (Relativo al uso de memoria)
Hola, ¿qué tal?
Al final he descubierto el motivo del problema. Cierto que esperaba
cierto nivel de _overhead_, pero nunca tantísimo. Por mucho _overhead_
que haya, no se pasa de 7MB a 5GB.
El problema era que (a pesar de mi opción stringsAsFactors = F) los
niveles de los factores se copiaban íntegros en cada una de las
columnas de tipo factor de cada una de las tablas resultantes. Aunque
no se
2013 Jun 13
2
¿Alguna explicación para este fenómeno? (Relativo al uso de memoria)
Interesante... y preocupante.
No propuso alguien, no hace mucho, reescribir R desde el principio por
este tipo de cosas?
El 13/06/13 20:04, Carlos Ortega escribió:
> Hola,
>
> Si este comportamiento se ve con cualquier data.frame que luego conviertas
> a lista:
>
>>
>> v <- 1:10
>> w <- split(v, 1:2)
>> w
> $`1`
> [1] 1 3 5 7 9
>
> $`2`