Hola Patricio.
Muchas gracias por tus comentarios.
El uso del merge() es por seguir esta recomendación:
https://martinsbioblogg.wordpress.com/2013/03/24/
using-r-reading-tables-that-need-a-little-cleaning/
Respecto del data.table, logré utilizar algunas funciones básicas, sobre
todo las sentencias que hacen consultas con estructuras similares a las de
SQL, pero no mucho más. También algo, poco, de tidyr y dplyr, siguiendo
este enlace: http://r4ds.had.co.nz/ de Wickham y Grolemund, y algunos más.
De hecho, me resulta un tanto complicado saber por dónde ir, porque mucha
ayuda y libros iniciales están más en dialecto Base (como el de Paradis o
el de Venables y Ripley; o Correa y Gonzalez o el de Mittal para gráficos,
por ejemplo), pero los más orientados a bases de datos relacionales, más
grandes, digamos, a veces van por data.table y a veces por dplyr que son
más complejos, y es como "volver a empezar" para los que nos cuesta
salir
de pobres.
R tiene una curva de aprendizaje larga y a veces me encuentro aprendiendo a
hacer de una forma más eficiente (y nueva) algo que no sé hacer siquiera de
forma ineficiente, ¿se entiende? Al ser un programa tan vivo, tan dinámico,
a veces siento que me falta un mapa para moverme.
En general, y muchas veces sin saber realmente qué función está en qué
paquete, utilizo:
library(openxlsx) #Para cargar los datos
library (RODBC)
library(ggplot2) #Para graficar
require(cowplot)
library(tibble)
library(lattice)
library(RColorBrewer) #Para Colorear
library(data.table) #Para ordenar los datos
library(sqldf)
Y ocasionalmente algunas más. Por caso, ahora tengo series de tiempo así
que voy por zoo, timeDate, forecast, tseries, xts y lubridate.
Algunos libros gratuitos compartió creo que Javier no hace mucho. También
les voy dando una mirada y son de mucha utilidad. Pero de nuevo: son un
mundo, requieren mucha plata (para comprar tiempo!!) y siempre están
basados en ejemplos que cierran, lógicamente: gráficos que se ven bonitos,
distribuciones cómodas, pocos outliers, clases bien definidas y bases de
datos ordenadas. A mi siempre me pasa que los datos tienen formatos no
estructurados, generan problemas de memoria y asumen valores que me hacen
perder horas literalmente para ajustar los binwidth de un histograma en
ggplot2, sin la menor oportunidad de llegar a ajustar un modelo cualquiera.
Por todo eso, de veras este grupo es de muchísima ayuda. Y por ser en
castellano vale doble.
Perdón por la catarsis!
Saludos.
El 10 de agosto de 2016, 12:24, patricio fuenmayor <
patricio.fuenmayor en gmail.com> escribió:
> De nada...
> He leído lo que has escrito...
> Bueno, hay muchas formas de hacer las cosas... te recomiendo que uses el
> paquete data.table (pero la versión en desarrollo 1.9.7 )
> https://github.com/Rdatatable/data.table/wiki
> la que te ayudará en el tema de memoria... Otra cosa que te recomiendo es
> que revises un poco de expresiones regulares, las que te permiten encontrar
> patrones en tu información y hace que el filtrado, reemplazo y extracción
> sean mas fáciles.
> Si me explicas un poco mas el porque del merge, creo que usa solución que
> implementé te va ha ayudar mucho ... es creando keys con hash (md5).
> Saludos
>
> El 9 de agosto de 2016, 10:01, Mauricio Monsalvo <m.monsalvo en
gmail.com>
> escribió:
>
>> Muy claro, Patrico. Muchas gracias!
>>
>> El 5 de agosto de 2016, 14:45, patricio fuenmayor <
>> patricio.fuenmayor en gmail.com> escribió:
>>
>>> Hola Mauricio.
>>> He trabajado en proyectos de calidad de datos, y lo primero y
esencial
>>> es realizar un "profile" de la información. esto consiste
es breves
>>> estadísticas descriptivas tanto en variables cualitativas y
cuantitativas.
>>> Una vez que tengas claras las características de la forma como te
envían la
>>> información, puedes configurar las funciones de R para que las
cargue
>>> correctamente.
>>>
>>> Recomiendo usar la función data.table::fread, esta realiza
muestreos en
>>> la información e infiere los posibles tipos de datos, separadores,
etc. Una
>>> vez cargada la información en R puedes usar muchas mas funciones
para
>>> revisar los datos.
>>> El tema de los factores a mi modo de ver, se debe tratar en las
>>> instancias finales al preparar la información para el modelamiento.
>>> Los factores son una especie de recodificación de los datos donde
asigna
>>> un índice a un valor ... por ejemplo se tiene los valores en una
variable:
>>> casa, auto, moto, bicicleta... si es tipo caracter se almacenan en
memoria
>>> los caracteres... si es factor, hace la conversión internamente
asignando
>>> por ejemplo: casa=1, auto=2, moto=3, bicicleta=4 ... de tal forma
que en
>>> memoria se guardan los indices ... esto hace que la base tenga
menos tamaño
>>> ... ya que guarda números en lugar de textos y otras cosas mas ...
lo que
>>> al parecer te pasa a ti ... es que al hacerlo factor a un numero
... lo que
>>> te va a mostar es el indice ... mas no el valor del numero.
>>> si tienes 10, 5, 32, 49 ... el factor hará: 10=1, 5=2, 32=3, 49=4,
lo
>>> cual lleva a confusión...
>>>
>>> Saludos.
>>>
>>>
>>
>>
>> --
>> Mauricio
>>
>
>
--
Mauricio
[[alternative HTML version deleted]]