thr3ads.net - R help es - [R-es] Stopwords: Topic modelling con LDA [Apr 2020]

If this information is useful, please help other people find it:
Share via:

Pedro Concejero

2020-Apr-28 10:54 UTC

[R-es] Stopwords: Topic modelling con LDA

Hola Miriam,

Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés 
que salgan muchas palabras comunes entre los tópicos, así que a tu pregunta

¿incluiríais estas palabras como stopwords?

Yo te diría que sí, o alternativamente que utilices un filtrado por 
tf-idf que te quitará esas palabras demasiado comunes entre documentos.

Y ante la pregunta de si quieres que salgan más diferencias entre topics 
hay muchas alternativas. Entre ellas:

- utilizar bigramas (o n-gramas, con un grado creciente de complejidad)

- aumentar el k (aunque tú estás utilizando ya 15...). ¿Cuántos 
documentos / vocabulario estás analizando?

También está la estrategia de "tunear" los parámetros de LDA...

Saludos,

Pedro


El 28/4/20 a las 12:00, r-help-es-request en r-project.org
escribió:> [R-es] Stopwords: Topic modelling con LDA-- 
*Pedro Concejero
E-mail: pedro.concejerocerezo en gmail.com 
<mailto:pedro.concejerocerezo en gmail.com>
skype: pedro.concejero
twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro>
linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es>
eRReRo feliz, me puedes encontrar en gRupo R madRid 
<http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13>
*

	[[alternative HTML version deleted]]

miri@m@@iz@te m@iii@g oii u@@v@rr@@es

2020-Apr-28 12:01 UTC

head link

[R-es] Stopwords: Topic modelling con LDA

Hola Pedro, muchas gracias por tu respuesta.

Estoy analizando 64.000 documentos con una media de 53 palabras cada uno.
Los 65.000 pertenecen a 41 productos diferentes.

Había elegido k=15 porque al ver el indice de perplexity entre 2 y 20 k´s
parece que era el óptimo, si bien quizá tenga que aumentar el número de
k´s para calcular la perplexity y ver realmente el número óptimo de
topics. Por ejemplo ver que pasa entre k=2 y k=200. ¿Cuál es tu consejo en
cuanto a identificar el número óptimo de k´s?

¿A qué te refieres con tunear los parámetros?

Muchas gracias


El Mar, 28 de Abril de 2020, 12:54, Pedro Concejero
escribió:> Hola Miriam,
>
> Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés
> que salgan muchas palabras comunes entre los tópicos, así que a tu
> pregunta
>
> ¿incluiríais estas palabras como stopwords?
>
> Yo te diría que sí, o alternativamente que utilices un filtrado por
> tf-idf que te quitará esas palabras demasiado comunes entre documentos.
>
> Y ante la pregunta de si quieres que salgan más diferencias entre topics
> hay muchas alternativas. Entre ellas:
>
> - utilizar bigramas (o n-gramas, con un grado creciente de complejidad)
>
> - aumentar el k (aunque tú estás utilizando ya 15...). ¿Cuántos
> documentos / vocabulario estás analizando?
>
> También está la estrategia de "tunear" los parámetros de LDA...
>
> Saludos,
>
> Pedro
>
>
> El 28/4/20 a las 12:00, r-help-es-request en r-project.org escribió:
>> [R-es] Stopwords: Topic modelling con LDA
> --
> *Pedro Concejero
> E-mail: pedro.concejerocerezo en gmail.com
> <mailto:pedro.concejerocerezo en gmail.com>
> skype: pedro.concejero
> twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro>
> linkedin pedroconcejero
<http://www.linkedin.com/in/pedroconcejero/es>
> eRReRo feliz, me puedes encontrar en gRupo R madRid
>
<http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13>
> *
>

R help es - Apr 2020 - Stopwords: Topic modelling con LDA

[R-es] Stopwords: Topic modelling con LDA

[R-es] Stopwords: Topic modelling con LDA