Hola Miriam, Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés que salgan muchas palabras comunes entre los tópicos, así que a tu pregunta ¿incluiríais estas palabras como stopwords? Yo te diría que sí, o alternativamente que utilices un filtrado por tf-idf que te quitará esas palabras demasiado comunes entre documentos. Y ante la pregunta de si quieres que salgan más diferencias entre topics hay muchas alternativas. Entre ellas: - utilizar bigramas (o n-gramas, con un grado creciente de complejidad) - aumentar el k (aunque tú estás utilizando ya 15...). ¿Cuántos documentos / vocabulario estás analizando? También está la estrategia de "tunear" los parámetros de LDA... Saludos, Pedro El 28/4/20 a las 12:00, r-help-es-request en r-project.org escribió:> [R-es] Stopwords: Topic modelling con LDA-- *Pedro Concejero E-mail: pedro.concejerocerezo en gmail.com <mailto:pedro.concejerocerezo en gmail.com> skype: pedro.concejero twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro> linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es> eRReRo feliz, me puedes encontrar en gRupo R madRid <http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13> * [[alternative HTML version deleted]]
miri@m@@iz@te m@iii@g oii u@@v@rr@@es
2020-Apr-28 12:01 UTC
[R-es] Stopwords: Topic modelling con LDA
Hola Pedro, muchas gracias por tu respuesta. Estoy analizando 64.000 documentos con una media de 53 palabras cada uno. Los 65.000 pertenecen a 41 productos diferentes. Había elegido k=15 porque al ver el indice de perplexity entre 2 y 20 k´s parece que era el óptimo, si bien quizá tenga que aumentar el número de k´s para calcular la perplexity y ver realmente el número óptimo de topics. Por ejemplo ver que pasa entre k=2 y k=200. ¿Cuál es tu consejo en cuanto a identificar el número óptimo de k´s? ¿A qué te refieres con tunear los parámetros? Muchas gracias El Mar, 28 de Abril de 2020, 12:54, Pedro Concejero escribió:> Hola Miriam, > > Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés > que salgan muchas palabras comunes entre los tópicos, así que a tu > pregunta > > ¿incluiríais estas palabras como stopwords? > > Yo te diría que sí, o alternativamente que utilices un filtrado por > tf-idf que te quitará esas palabras demasiado comunes entre documentos. > > Y ante la pregunta de si quieres que salgan más diferencias entre topics > hay muchas alternativas. Entre ellas: > > - utilizar bigramas (o n-gramas, con un grado creciente de complejidad) > > - aumentar el k (aunque tú estás utilizando ya 15...). ¿Cuántos > documentos / vocabulario estás analizando? > > También está la estrategia de "tunear" los parámetros de LDA... > > Saludos, > > Pedro > > > El 28/4/20 a las 12:00, r-help-es-request en r-project.org escribió: >> [R-es] Stopwords: Topic modelling con LDA > -- > *Pedro Concejero > E-mail: pedro.concejerocerezo en gmail.com > <mailto:pedro.concejerocerezo en gmail.com> > skype: pedro.concejero > twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro> > linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es> > eRReRo feliz, me puedes encontrar en gRupo R madRid > <http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13> > * >