eduardo san miguel
2009-Mar-12 09:38 UTC
[R-es] Listas de "stopwords" y raíces de palabras para
>Me gustaría saber si alguien conoce listas de palabras y de raíces >para ser usadas en un proyecto de minería de texto usando el paquete >tm de R.Hola Carlos, Depende de la tarea la mejora en el rendimiento mediante la eliminación de 'palabras vacias' y el uso de radicalización (stemming) o lematización. Vas a reducir el volumen del diccionario y a homogeneizar la muestra, pero puede no ser ese el objetivo buscado. En todo caso, suelen excluirse determinantes, articulos, preposiciones, pronombres y algunos adverbios. Para la lematización yo he utilizado Rstem con buenos resultados. Te copio una lista con palabras a excluir (palabras de bajo contenido semántico). Espero te sirva de ayuda, Un saludo # Lista de palabras a excluir acá ahí ajena ajenas ajeno ajenos al algo alguna algunas alguno algunos algún allá allí aquel aquella aquellas aquello aquellos aquí cada cierta ciertas cierto ciertos como cómo con conmigo consigo contigo cualquier cualquiera cualquieras cuan cuanta cuantas cuánta cuántas cuanto cuantos cuán cuánto cuántos de dejar del demasiada demasiadas demasiado demasiados demás el ella ellas ellos él esa esas ese esos esta estar estas este estos hacer hasta jamás junto juntos la las lo los mas más me menos mía mientras mío misma mismas mismo mismos mucha muchas muchísima muchísimas muchísimo muchísimos mucho muchos muy nada ni ninguna ningunas ninguno ningunos no nos nosotras nosotros nuestra nuestras nuestro nuestros nunca os otra otras otro otros para parecer poca pocas poco pocos por porque que querer qué quien quienes quienesquiera quienquiera quién ser siempre sí sín Sr Sra Sres Sta suya suyas suyo suyos tal tales tan tanta tantas tanto tantos te tener ti toda todas todo todos tomar tuya tuyo tú un una unas unos usted ustedes varias varios vosotras vosotros vuestra vuestras vuestro vuestros yo