Patricio Fuenmayor Viteri
2013-Jun-28 14:59 UTC
[R-es] comparación entre cadena de caracteres
Saludos a todos.Estoy en un proceso de carga de información a un DWH, y estoy validando que los ETLs estén correctos.Tengo datos de los transaccionales (T) y de la nueva base de datos (B).Mi objetivo es validar que los procesos de limpieza de datos y corrección, estén bien.tengo 2 columnas en un data.frame, la una es el nombre del cliente en el transaccional (T) y en la otra columna, el nombre del cliente en la base de datos nueva (B), quitando registros que son iguales y haciendo una que otra transformación, modifico la columna (T) y trato de llegar a la columna (B), pero llego a un punto en que ya no puedo hacer mas transformaciones, por lo que debo hacer una comparación para dar una medida de cuanto se parecen, algo como un porcentaje de similitud, si este porcentaje es cercano a 100%, asumo que las 2 cadenas con iguales y que los ETL hacen su trabajo.. Gracias de antemano por cualquier ayuda.... [[alternative HTML version deleted]]
Hola, Puedes utilizar este paquete: stringdist <http://cran.at.r-project.org/web/packages/stringdist/index.html>String distance functions for R Saludos, Carlos Ortega www.qualityexcellence.es El 28 de junio de 2013 16:59, Patricio Fuenmayor Viteri < patricio.fuenmayor@outlook.com> escribió:> Saludos a todos.Estoy en un proceso de carga de información a un DWH, y > estoy validando que los ETLs estén correctos.Tengo datos de los > transaccionales (T) y de la nueva base de datos (B).Mi objetivo es validar > que los procesos de limpieza de datos y corrección, estén bien.tengo 2 > columnas en un data.frame, la una es el nombre del cliente en el > transaccional (T) y en la otra columna, el nombre del cliente en la base de > datos nueva (B), quitando registros que son iguales y haciendo una que otra > transformación, modifico la columna (T) y trato de llegar a la columna (B), > pero llego a un punto en que ya no puedo hacer mas transformaciones, por lo > que debo hacer una comparación para dar una medida de cuanto se parecen, > algo como un porcentaje de similitud, si este porcentaje es cercano a 100%, > asumo que las 2 cadenas con iguales y que los ETL hacen su trabajo.. > Gracias de antemano por cualquier ayuda.... > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]