miri@m@@iz@te m@iii@g oii u@@v@rr@@es
2020-Apr-28 09:43 UTC
[R-es] Stopwords: Topic modelling con LDA
Buenos días, Estoy realizando un análisis de topic models con el método LDA. En principio, he quitado del análisis las palabras "stopwords" universales. A la hora de ver los topics y sus palabras más frecuentes encuentro que son muy similares y hay palabras que aparecen en todos los topics. Los textos que estoy analizando son opiniones de consumidores sobre una categoría concreta de cosméticos, por lo que la temática es muy concreta y puede ser que en todas las opiniones se hable de cosas similares. Mi pregunta es, ¿incluiríais estas palabras que me aparecen en todos los topics o casi todos como stopwords? ¿Hay alguna forma de refinar más el análisis y que haya más diferencias entre topics? Este es el código que estoy usando: Reviews_dtm <-text_df12star %>% unnest_tokens(word, text) %>% anti_join(stop_words)%>% count(Brand, word) %>% cast_dtm(Brand, word, n) Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016)) Un saludo Miriam
Hola, Yo de primeras los quitaría para qué otros topics aparecen. Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que desaparecen como relevantes esas palabras comunes, será otra forma de confirmar que es buena la decisión de hacer el análisis eliminandolas. Saludos, Carlos Ortega www.qualityecellence.es El mar., 28 abr. 2020 a las 11:44, <miriam.alzate en unavarra.es> escribió:> Buenos días, > > Estoy realizando un análisis de topic models con el método LDA. En > principio, he quitado del análisis las palabras "stopwords" universales. A > la hora de ver los topics y sus palabras más frecuentes encuentro que son > muy similares y hay palabras que aparecen en todos los topics. Los textos > que estoy analizando son opiniones de consumidores sobre una categoría > concreta de cosméticos, por lo que la temática es muy concreta y puede ser > que en todas las opiniones se hable de cosas similares. > > Mi pregunta es, ¿incluiríais estas palabras que me aparecen en todos los > topics o casi todos como stopwords? ¿Hay alguna forma de refinar más el > análisis y que haya más diferencias entre topics? > > Este es el código que estoy usando: > > Reviews_dtm <-text_df12star %>% > unnest_tokens(word, text) %>% > anti_join(stop_words)%>% > count(Brand, word) %>% > cast_dtm(Brand, word, n) > > > Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016)) > > Un saludo > > Miriam > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
miri@m@@iz@te m@iii@g oii u@@v@rr@@es
2020-Apr-28 12:02 UTC
[R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA
Gracias Carlos! Apunto tu sugerencia. El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió:> Hola, > Yo de primeras los quitaría para qué otros topics aparecen. > > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que > desaparecen como relevantes esas palabras comunes, será otra forma de > confirmar que es buena la decisión de hacer el análisis eliminandolas. > > Saludos, > Carlos Ortega > https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8&url=http%3a%2f%2fwww.qualityecellence.es > > El mar., 28 abr. 2020 a las 11:44, <miriam.alzate en unavarra.es> escribió: > >> Buenos días, >> >> Estoy realizando un análisis de topic models con el método LDA. En >> principio, he quitado del análisis las palabras "stopwords" universales. >> A >> la hora de ver los topics y sus palabras más frecuentes encuentro que >> son >> muy similares y hay palabras que aparecen en todos los topics. Los >> textos >> que estoy analizando son opiniones de consumidores sobre una categoría >> concreta de cosméticos, por lo que la temática es muy concreta y puede >> ser >> que en todas las opiniones se hable de cosas similares. >> >> Mi pregunta es, incluiríais estas palabras que me aparecen en todos los >> topics o casi todos como stopwords? Hay alguna forma de refinar más el >> análisis y que haya más diferencias entre topics? >> >> Este es el código que estoy usando: >> >> Reviews_dtm <-text_df12star %>% >> unnest_tokens(word, text) %>% >> anti_join(stop_words)%>% >> count(Brand, word) %>% >> cast_dtm(Brand, word, n) >> >> >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016)) >> >> Un saludo >> >> Miriam >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es > >
miri@m@@iz@te m@iii@g oii u@@v@rr@@es
2020-Apr-29 12:00 UTC
[R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA
Hola, Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o tf-idf que se considerara como umbral para establecer que una palabra es muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los de tf-idf ente 0 y 0.07. Un saludo El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió:> Hola, > Yo de primeras los quitaría para qué otros topics aparecen. > > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que > desaparecen como relevantes esas palabras comunes, será otra forma de > confirmar que es buena la decisión de hacer el análisis eliminandolas. > > Saludos, > Carlos Ortega > https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8&url=http%3a%2f%2fwww.qualityecellence.es > > El mar., 28 abr. 2020 a las 11:44, <miriam.alzate en unavarra.es> escribió: > >> Buenos días, >> >> Estoy realizando un análisis de topic models con el método LDA. En >> principio, he quitado del análisis las palabras "stopwords" universales. >> A >> la hora de ver los topics y sus palabras más frecuentes encuentro que >> son >> muy similares y hay palabras que aparecen en todos los topics. Los >> textos >> que estoy analizando son opiniones de consumidores sobre una categoría >> concreta de cosméticos, por lo que la temática es muy concreta y puede >> ser >> que en todas las opiniones se hable de cosas similares. >> >> Mi pregunta es, incluiríais estas palabras que me aparecen en todos los >> topics o casi todos como stopwords? Hay alguna forma de refinar más el >> análisis y que haya más diferencias entre topics? >> >> Este es el código que estoy usando: >> >> Reviews_dtm <-text_df12star %>% >> unnest_tokens(word, text) %>% >> anti_join(stop_words)%>% >> count(Brand, word) %>% >> cast_dtm(Brand, word, n) >> >> >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016)) >> >> Un saludo >> >> Miriam >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es > >