Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día de reyes a la 1.20h y me contestas a las 2.45h) Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10? En un RF para clasificación me da valores parecidos a los de tu ejemplo, y en otro para regresión, valores de y entre 45 y 55. Para regresión, el último parámetro no puede ser una categoría, como "versicolor". Yo puse la variable entrecomillada, pensando que era el nombre del eje x, pero he probado a poner otra cosa, y lo ignora; lo he quitado y no afecta. Pensé que podría ser el valor de la variable respuesta más esperado, en función del valor del predictor, pero no se mueve en el mismo rango. Voy a ver el paquete pdp del que me hablas. Gracias nuevamente, Manuel Quoting Carlos Ortega <cof en qualityexcellence.es>:> Hola, > > Ya es que la explicación de la función es un tanto oscura... > > Mira el ejemplo (clasificación): > >> data(iris) >> set.seed(543) >> iris.rf <- randomForest(Species~., iris) >> partialPlot(iris.rf, iris, Petal.Width, "versicolor") > > Y el gráfico que se produce: > > [image: Imágenes integradas 1] > El gráfico mide la variación de la probabilidad sobre una de las clases de > la variable target (en este caso la variable target es "Species" y la clase > es "versicolor") de acuerdo a cómo varía la variable de estudio, en este > caso "Petal.Width". El gráfico te indica que valores de Petal.Width > cercanos a 1.0 se obtiene el máximo de probabilidad de que Species sea > "versicolor". > > Y algo parecido para cuando tienes un modelo de "regresión". > > No sé ese "VR" que comentas en tu duda de dónde sale... > > Si estás interesado en este tema, mira también el paquete "pdp". > > Gracias, > Carlos Ortega > www.qualityexcellence.es > > > El 7 de enero de 2018, 1:21, Manuel Mendoza <mmendoza en mncn.csic.es> > escribió: > >> >> Hola erreros. A ver si alguien podría decirme qué son los dos ejes del >> plot que resulta de aplicar partialPlot en un Randomforest. >> >> Encuentro que: >> >> Partial dependence plot gives a graphical depiction of the marginal effect >> of a variable on the class probability (classification) or response >> (regression) >> >> que nos indica como varía la VR en función de la variable considerada, >> manteniendo el resto de variables fijas. >> >> No encuentro lo que es esa VR por ningún sitio (varianza?), ni la >> explicación de qué son los dos ejes. >> >> Gracias, >> Manuel >> >> >> -- >> Dr Manuel Mendoza >> Department of Biogeography and Global Change >> National Museum of Natural History (MNCN) >> Spanish Scientific Council (CSIC) >> C/ Serrano 115bis, 28006 MADRID >> Spain >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es-- Dr Manuel Mendoza Department of Biogeography and Global Change National Museum of Natural History (MNCN) Spanish Scientific Council (CSIC) C/ Serrano 115bis, 28006 MADRID Spain
Hola Manuel, Es que me confundí de día y me quedé esperando a los Reyes Magos... :-)... Sí, eso de la probabilidad como indica la ayuda realmente es algo confuso. Tómalo como una medida de referencia sobre el de la mejora en el valor de probabilidad a la hora de hacer una clasificación. También considera este enfoque para la regresión. El gráfico te muestra en qué intervalos se maximiza la probabilidad de una clase en la variable objetivo (para una clasificación), para una regresión no lo tengo tan claro. Con los parámetros de la función x an object of class randomForest, which contains a forest component. pred.data a data frame used for contructing the plot, usually the training data used to contruct the random forest. x.var name of the variable for which partial dependence is to be examined. which.class For classification data, the class to focus on (default the first class). El parámetro which.class ("versicolor" en el ejemplo), solo se usa para los casos de clasificación. No es la etiqueta del eje o algo parecido... Si lo incluyes para un gráfico de regresión, no tiene efecto. Sigo viendo el paquete "pdp" más estructurado y claro en el tratamiento de los "partial dependence plot"... Gracias, Carlos. El 7 de enero de 2018, 10:58, Manuel Mendoza <mmendoza en mncn.csic.es> escribió:> > Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día de > reyes a la 1.20h y me contestas a las 2.45h) > > Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10? En un > RF para clasificación me da valores parecidos a los de tu ejemplo, y en > otro para regresión, valores de y entre 45 y 55. > > Para regresión, el último parámetro no puede ser una categoría, como > "versicolor". Yo puse la variable entrecomillada, pensando que era el > nombre del eje x, pero he probado a poner otra cosa, y lo ignora; lo he > quitado y no afecta. Pensé que podría ser el valor de la variable respuesta > más esperado, en función del valor del predictor, pero no se mueve en el > mismo rango. > > Voy a ver el paquete pdp del que me hablas. > > Gracias nuevamente, > > Manuel > > > > Quoting Carlos Ortega <cof en qualityexcellence.es>: > > Hola, >> >> Ya es que la explicación de la función es un tanto oscura... >> >> Mira el ejemplo (clasificación): >> >> data(iris) >>> set.seed(543) >>> iris.rf <- randomForest(Species~., iris) >>> partialPlot(iris.rf, iris, Petal.Width, "versicolor") >>> >> >> Y el gráfico que se produce: >> >> [image: Imágenes integradas 1] >> El gráfico mide la variación de la probabilidad sobre una de las clases de >> la variable target (en este caso la variable target es "Species" y la >> clase >> es "versicolor") de acuerdo a cómo varía la variable de estudio, en este >> caso "Petal.Width". El gráfico te indica que valores de Petal.Width >> cercanos a 1.0 se obtiene el máximo de probabilidad de que Species sea >> "versicolor". >> >> Y algo parecido para cuando tienes un modelo de "regresión". >> >> No sé ese "VR" que comentas en tu duda de dónde sale... >> >> Si estás interesado en este tema, mira también el paquete "pdp". >> >> Gracias, >> Carlos Ortega >> www.qualityexcellence.es >> >> >> El 7 de enero de 2018, 1:21, Manuel Mendoza <mmendoza en mncn.csic.es> >> escribió: >> >> >>> Hola erreros. A ver si alguien podría decirme qué son los dos ejes del >>> plot que resulta de aplicar partialPlot en un Randomforest. >>> >>> Encuentro que: >>> >>> Partial dependence plot gives a graphical depiction of the marginal >>> effect >>> of a variable on the class probability (classification) or response >>> (regression) >>> >>> que nos indica como varía la VR en función de la variable considerada, >>> manteniendo el resto de variables fijas. >>> >>> No encuentro lo que es esa VR por ningún sitio (varianza?), ni la >>> explicación de qué son los dos ejes. >>> >>> Gracias, >>> Manuel >>> >>> >>> -- >>> Dr Manuel Mendoza >>> Department of Biogeography and Global Change >>> National Museum of Natural History (MNCN) >>> Spanish Scientific Council (CSIC) >>> C/ Serrano 115bis, 28006 MADRID >>> Spain >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >>> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> > > > -- > Dr Manuel Mendoza > Department of Biogeography and Global Change > National Museum of Natural History (MNCN) > Spanish Scientific Council (CSIC) > C/ Serrano 115bis, 28006 MADRID > Spain > >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
Muy buenas. Estoy intentando ponderar las muestras aplicando la función gbm.step del paquete dismo. En el manual lo hace añadiendo: site.weights = rep(1, nrow(data)) (que en realidad les da el mismo peso a todas). Yo tengo un vector con el peso de cada muestra, pero no encuentro la forma de ponerlo sin que me dé error. ¿Sabe alguno de vosotros cómo hacerlo? Gracias Quoting Manuel Mendoza <mmendoza en mncn.csic.es>:> Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día > de reyes a la 1.20h y me contestas a las 2.45h) > > Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10? > En un RF para clasificación me da valores parecidos a los de tu > ejemplo, y en otro para regresión, valores de y entre 45 y 55. > > Para regresión, el último parámetro no puede ser una categoría, como > "versicolor". Yo puse la variable entrecomillada, pensando que era > el nombre del eje x, pero he probado a poner otra cosa, y lo ignora; > lo he quitado y no afecta. Pensé que podría ser el valor de la > variable respuesta más esperado, en función del valor del predictor, > pero no se mueve en el mismo rango. > > Voy a ver el paquete pdp del que me hablas. > > Gracias nuevamente, > > Manuel > > > Quoting Carlos Ortega <cof en qualityexcellence.es>: > >> Hola, >> >> Ya es que la explicación de la función es un tanto oscura... >> >> Mira el ejemplo (clasificación): >> >>> data(iris) >>> set.seed(543) >>> iris.rf <- randomForest(Species~., iris) >>> partialPlot(iris.rf, iris, Petal.Width, "versicolor") >> >> Y el gráfico que se produce: >> >> [image: Imágenes integradas 1] >> El gráfico mide la variación de la probabilidad sobre una de las clases de >> la variable target (en este caso la variable target es "Species" y la clase >> es "versicolor") de acuerdo a cómo varía la variable de estudio, en este >> caso "Petal.Width". El gráfico te indica que valores de Petal.Width >> cercanos a 1.0 se obtiene el máximo de probabilidad de que Species sea >> "versicolor". >> >> Y algo parecido para cuando tienes un modelo de "regresión". >> >> No sé ese "VR" que comentas en tu duda de dónde sale... >> >> Si estás interesado en este tema, mira también el paquete "pdp". >> >> Gracias, >> Carlos Ortega >> www.qualityexcellence.es >> >> >> El 7 de enero de 2018, 1:21, Manuel Mendoza <mmendoza en mncn.csic.es> >> escribió: >> >>> >>> Hola erreros. A ver si alguien podría decirme qué son los dos ejes del >>> plot que resulta de aplicar partialPlot en un Randomforest. >>> >>> Encuentro que: >>> >>> Partial dependence plot gives a graphical depiction of the marginal effect >>> of a variable on the class probability (classification) or response >>> (regression) >>> >>> que nos indica como varía la VR en función de la variable considerada, >>> manteniendo el resto de variables fijas. >>> >>> No encuentro lo que es esa VR por ningún sitio (varianza?), ni la >>> explicación de qué son los dos ejes. >>> >>> Gracias, >>> Manuel >>> >>> >>> -- >>> Dr Manuel Mendoza >>> Department of Biogeography and Global Change >>> National Museum of Natural History (MNCN) >>> Spanish Scientific Council (CSIC) >>> C/ Serrano 115bis, 28006 MADRID >>> Spain >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es > > > -- > Dr Manuel Mendoza > Department of Biogeography and Global Change > National Museum of Natural History (MNCN) > Spanish Scientific Council (CSIC) > C/ Serrano 115bis, 28006 MADRID > Spain > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es-- Dr Manuel Mendoza Department of Biogeography and Global Change National Museum of Natural History (MNCN) Spanish Scientific Council (CSIC) C/ Serrano 115bis, 28006 MADRID Spain
Algo muy sencillo: ¿cómo leeríais esto [data[,1]==1, 2]? Gracias Quoting Manuel Mendoza <mmendoza en mncn.csic.es>:> Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día > de reyes a la 1.20h y me contestas a las 2.45h) > > Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10? > En un RF para clasificación me da valores parecidos a los de tu > ejemplo, y en otro para regresión, valores de y entre 45 y 55. > > Para regresión, el último parámetro no puede ser una categoría, como > "versicolor". Yo puse la variable entrecomillada, pensando que era > el nombre del eje x, pero he probado a poner otra cosa, y lo ignora; > lo he quitado y no afecta. Pensé que podría ser el valor de la > variable respuesta más esperado, en función del valor del predictor, > pero no se mueve en el mismo rango. > > Voy a ver el paquete pdp del que me hablas. > > Gracias nuevamente, > > Manuel > > > Quoting Carlos Ortega <cof en qualityexcellence.es>: > >> Hola, >> >> Ya es que la explicación de la función es un tanto oscura... >> >> Mira el ejemplo (clasificación): >> >>> data(iris) >>> set.seed(543) >>> iris.rf <- randomForest(Species~., iris) >>> partialPlot(iris.rf, iris, Petal.Width, "versicolor") >> >> Y el gráfico que se produce: >> >> [image: Imágenes integradas 1] >> El gráfico mide la variación de la probabilidad sobre una de las clases de >> la variable target (en este caso la variable target es "Species" y la clase >> es "versicolor") de acuerdo a cómo varía la variable de estudio, en este >> caso "Petal.Width". El gráfico te indica que valores de Petal.Width >> cercanos a 1.0 se obtiene el máximo de probabilidad de que Species sea >> "versicolor". >> >> Y algo parecido para cuando tienes un modelo de "regresión". >> >> No sé ese "VR" que comentas en tu duda de dónde sale... >> >> Si estás interesado en este tema, mira también el paquete "pdp". >> >> Gracias, >> Carlos Ortega >> www.qualityexcellence.es >> >> >> El 7 de enero de 2018, 1:21, Manuel Mendoza <mmendoza en mncn.csic.es> >> escribió: >> >>> >>> Hola erreros. A ver si alguien podría decirme qué son los dos ejes del >>> plot que resulta de aplicar partialPlot en un Randomforest. >>> >>> Encuentro que: >>> >>> Partial dependence plot gives a graphical depiction of the marginal effect >>> of a variable on the class probability (classification) or response >>> (regression) >>> >>> que nos indica como varía la VR en función de la variable considerada, >>> manteniendo el resto de variables fijas. >>> >>> No encuentro lo que es esa VR por ningún sitio (varianza?), ni la >>> explicación de qué son los dos ejes. >>> >>> Gracias, >>> Manuel >>> >>> >>> -- >>> Dr Manuel Mendoza >>> Department of Biogeography and Global Change >>> National Museum of Natural History (MNCN) >>> Spanish Scientific Council (CSIC) >>> C/ Serrano 115bis, 28006 MADRID >>> Spain >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es en r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es > > > -- > Dr Manuel Mendoza > Department of Biogeography and Global Change > National Museum of Natural History (MNCN) > Spanish Scientific Council (CSIC) > C/ Serrano 115bis, 28006 MADRID > Spain > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es-- Dr Manuel Mendoza Department of Biogeography and Global Change National Museum of Natural History (MNCN) Spanish Scientific Council (CSIC) C/ Serrano 115bis, 28006 MADRID Spain
Hola, - *[data[,1] ==1, 2]* - Esto no tiene sentido... - si lo que querías decir era *data[data[,1] == 1, 2] *....mira el ejemplo y lo destacado...> data <- data.frame(+ x = sample(c(0,1),10, replace = TRUE), + y = sample(c(0,1),10, replace = TRUE) + )> datax y 1 0 1 2 0 1 3 0 0 4 *1 0* 5 *1 1* 6 *1 1* 7 0 0 8 0 1 9 0 1 10 0 1> data[data[,1]==1, 2][1] 0 1 1 Saludos, Carlos Ortega www.qualityexcellence.es El 1 de febrero de 2018, 19:04, Manuel Mendoza <mmendoza en mncn.csic.es> escribió:> > Algo muy sencillo: ¿cómo leeríais esto [data[,1]==1, 2]? > Gracias > > > > Quoting Manuel Mendoza <mmendoza en mncn.csic.es>: > > Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día de >> reyes a la 1.20h y me contestas a las 2.45h) >> >> Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10? En un >> RF para clasificación me da valores parecidos a los de tu ejemplo, y en >> otro para regresión, valores de y entre 45 y 55. >> >> Para regresión, el último parámetro no puede ser una categoría, como >> "versicolor". Yo puse la variable entrecomillada, pensando que era el >> nombre del eje x, pero he probado a poner otra cosa, y lo ignora; lo he >> quitado y no afecta. Pensé que podría ser el valor de la variable respuesta >> más esperado, en función del valor del predictor, pero no se mueve en el >> mismo rango. >> >> Voy a ver el paquete pdp del que me hablas. >> >> Gracias nuevamente, >> >> Manuel >> >> >> Quoting Carlos Ortega <cof en qualityexcellence.es>: >> >> Hola, >>> >>> Ya es que la explicación de la función es un tanto oscura... >>> >>> Mira el ejemplo (clasificación): >>> >>> data(iris) >>>> set.seed(543) >>>> iris.rf <- randomForest(Species~., iris) >>>> partialPlot(iris.rf, iris, Petal.Width, "versicolor") >>>> >>> >>> Y el gráfico que se produce: >>> >>> [image: Imágenes integradas 1] >>> El gráfico mide la variación de la probabilidad sobre una de las clases >>> de >>> la variable target (en este caso la variable target es "Species" y la >>> clase >>> es "versicolor") de acuerdo a cómo varía la variable de estudio, en este >>> caso "Petal.Width". El gráfico te indica que valores de Petal.Width >>> cercanos a 1.0 se obtiene el máximo de probabilidad de que Species sea >>> "versicolor". >>> >>> Y algo parecido para cuando tienes un modelo de "regresión". >>> >>> No sé ese "VR" que comentas en tu duda de dónde sale... >>> >>> Si estás interesado en este tema, mira también el paquete "pdp". >>> >>> Gracias, >>> Carlos Ortega >>> www.qualityexcellence.es >>> >>> >>> El 7 de enero de 2018, 1:21, Manuel Mendoza <mmendoza en mncn.csic.es> >>> escribió: >>> >>> >>>> Hola erreros. A ver si alguien podría decirme qué son los dos ejes del >>>> plot que resulta de aplicar partialPlot en un Randomforest. >>>> >>>> Encuentro que: >>>> >>>> Partial dependence plot gives a graphical depiction of the marginal >>>> effect >>>> of a variable on the class probability (classification) or response >>>> (regression) >>>> >>>> que nos indica como varía la VR en función de la variable considerada, >>>> manteniendo el resto de variables fijas. >>>> >>>> No encuentro lo que es esa VR por ningún sitio (varianza?), ni la >>>> explicación de qué son los dos ejes. >>>> >>>> Gracias, >>>> Manuel >>>> >>>> >>>> -- >>>> Dr Manuel Mendoza >>>> Department of Biogeography and Global Change >>>> National Museum of Natural History (MNCN) >>>> Spanish Scientific Council (CSIC) >>>> C/ Serrano 115bis, 28006 MADRID >>>> Spain >>>> >>>> _______________________________________________ >>>> R-help-es mailing list >>>> R-help-es en r-project.org >>>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>>> >>>> >>> >>> >>> -- >>> Saludos, >>> Carlos Ortega >>> www.qualityexcellence.es >>> >> >> >> -- >> Dr Manuel Mendoza >> Department of Biogeography and Global Change >> National Museum of Natural History (MNCN) >> Spanish Scientific Council (CSIC) >> C/ Serrano 115bis, 28006 MADRID >> Spain >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es en r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > -- > Dr Manuel Mendoza > Department of Biogeography and Global Change > National Museum of Natural History (MNCN) > Spanish Scientific Council (CSIC) > C/ Serrano 115bis, 28006 MADRID > Spain > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es >-- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]