miri@m@@iz@te m@iii@g oii u@@v@rr@@es
2020-Apr-29 12:00 UTC
[R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA
Hola, Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o tf-idf que se considerara como umbral para establecer que una palabra es muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los de tf-idf ente 0 y 0.07. Un saludo El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió:> Hola, > Yo de primeras los quitaría para qué otros topics aparecen. > > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que > desaparecen como relevantes esas palabras comunes, será otra forma de > confirmar que es buena la decisión de hacer el análisis eliminandolas. > > Saludos, > Carlos Ortega > https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8&url=http%3a%2f%2fwww.qualityecellence.es > > El mar., 28 abr. 2020 a las 11:44, <miriam.alzate en unavarra.es> escribió: > >> Buenos días, >> >> Estoy realizando un análisis de topic models con el método LDA. En >> principio, he quitado del análisis las palabras "stopwords" universales. >> A >> la hora de ver los topics y sus palabras más frecuentes encuentro que >> son >> muy similares y hay palabras que aparecen en todos los topics. Los >> textos >> que estoy analizando son opiniones de consumidores sobre una categoría >> concreta de cosméticos, por lo que la temática es muy concreta y puede >> ser >> que en todas las opiniones se hable de cosas similares. >> >> Mi pregunta es, incluiríais estas palabras que me aparecen en todos los >> topics o casi todos como stopwords? Hay alguna forma de refinar más el >> análisis y que haya más diferencias entre topics? >> >> Este es el código que estoy usando: >> >> Reviews_dtm <-text_df12star %>% >> unnest_tokens(word, text) %>% >> anti_join(stop_words)%>% >> count(Brand, word) %>% >> cast_dtm(Brand, word, n) >> >> >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016)) >> >> Un saludo >> >> Miriam >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es > >
Carlos Ortega
2020-Apr-30 12:45 UTC
[R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA
Hola Miriam, No he visto que se use un filtro por defecto para el valor de tf-idf. En tu caso, tendrás que ver cúal es ese punto de corte que te revela señal, justo de los términos que te interesan. Mira la distribución de palabras y su valor de tf-idf y selecciona tu corte. Gracias, Carlos. www.qualityexcellence.es El mié., 29 abr. 2020 a las 14:00, <miriam.alzate en unavarra.es> escribió:> Hola, > > Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o > tf-idf que se considerara como umbral para establecer que una palabra es > muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los > de tf-idf ente 0 y 0.07. > > Un saludo > > El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió: > > Hola, > > Yo de primeras los quitaría para qué otros topics aparecen. > > > > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que > > desaparecen como relevantes esas palabras comunes, será otra forma de > > confirmar que es buena la decisión de hacer el análisis eliminandolas. > > > > Saludos, > > Carlos Ortega > > > https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8&url=http%3a%2f%2fwww.qualityecellence.es > > > > El mar., 28 abr. 2020 a las 11:44, <miriam.alzate en unavarra.es> escribió: > > > >> Buenos días, > >> > >> Estoy realizando un análisis de topic models con el método LDA. En > >> principio, he quitado del análisis las palabras "stopwords" universales. > >> A > >> la hora de ver los topics y sus palabras más frecuentes encuentro que > >> son > >> muy similares y hay palabras que aparecen en todos los topics. Los > >> textos > >> que estoy analizando son opiniones de consumidores sobre una categoría > >> concreta de cosméticos, por lo que la temática es muy concreta y puede > >> ser > >> que en todas las opiniones se hable de cosas similares. > >> > >> Mi pregunta es, incluiríais estas palabras que me aparecen en todos los > >> topics o casi todos como stopwords? Hay alguna forma de refinar más el > >> análisis y que haya más diferencias entre topics? > >> > >> Este es el código que estoy usando: > >> > >> Reviews_dtm <-text_df12star %>% > >> unnest_tokens(word, text) %>% > >> anti_join(stop_words)%>% > >> count(Brand, word) %>% > >> cast_dtm(Brand, word, n) > >> > >> > >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016)) > >> > >> Un saludo > >> > >> Miriam > >> > >> _______________________________________________ > >> R-help-es mailing list > >> R-help-es en r-project.org > >> https://stat.ethz.ch/mailman/listinfo/r-help-es > >> > > > > > > -- > > Saludos, > > Carlos Ortega > > www.qualityexcellence.es > > > > > > >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
miri@m@@iz@te m@iii@g oii u@@v@rr@@es
2020-Apr-30 14:40 UTC
[R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA
De acuerdo, muchas gracias! El Jue, 30 de Abril de 2020, 14:45, Carlos Ortega escribió:> Hola Miriam, > > No he visto que se use un filtro por defecto para el valor de tf-idf. > > En tu caso, tendrás que ver cúal es ese punto de corte que te revela > señal, > justo de los términos que te interesan. > Mira la distribución de palabras y su valor de tf-idf y selecciona tu > corte. > > Gracias, > Carlos. > www.qualityexcellence.es > > > El mié., 29 abr. 2020 a las 14:00, <miriam.alzate en unavarra.es> escribió: > >> Hola, >> >> Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o >> tf-idf que se considerara como umbral para establecer que una palabra es >> muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los >> de tf-idf ente 0 y 0.07. >> >> Un saludo >> >> El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió: >> > Hola, >> > Yo de primeras los quitaría para qué otros topics aparecen. >> > >> > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que >> > desaparecen como relevantes esas palabras comunes, será otra forma de >> > confirmar que es buena la decisión de hacer el análisis eliminandolas. >> > >> > Saludos, >> > Carlos Ortega >> > >> https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8&url=http%3a%2f%2fwww.qualityecellence.es >> > >> > El mar., 28 abr. 2020 a las 11:44, <miriam.alzate en unavarra.es> >> escribió: >> > >> >> Buenos días, >> >> >> >> Estoy realizando un análisis de topic models con el método LDA. En >> >> principio, he quitado del análisis las palabras "stopwords" >> universales. >> >> A >> >> la hora de ver los topics y sus palabras más frecuentes encuentro que >> >> son >> >> muy similares y hay palabras que aparecen en todos los topics. Los >> >> textos >> >> que estoy analizando son opiniones de consumidores sobre una >> categoría >> >> concreta de cosméticos, por lo que la temática es muy concreta y >> puede >> >> ser >> >> que en todas las opiniones se hable de cosas similares. >> >> >> >> Mi pregunta es, incluiríais estas palabras que me aparecen en todos >> los >> >> topics o casi todos como stopwords? Hay alguna forma de refinar más >> el >> >> análisis y que haya más diferencias entre topics? >> >> >> >> Este es el código que estoy usando: >> >> >> >> Reviews_dtm <-text_df12star %>% >> >> unnest_tokens(word, text) %>% >> >> anti_join(stop_words)%>% >> >> count(Brand, word) %>% >> >> cast_dtm(Brand, word, n) >> >> >> >> >> >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed >> 2016)) >> >> >> >> Un saludo >> >> >> >> Miriam >> >> >> >> _______________________________________________ >> >> R-help-es mailing list >> >> R-help-es en r-project.org >> >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> >> >> > >> > >> > -- >> > Saludos, >> > Carlos Ortega >> > www.qualityexcellence.es >> > >> > >> >> >> > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es >