Hola Manuel,
Has pensado en OneR?
Puede ser útil para seleccionar las variables más importantes.
Saludos,
Jorge.-
El El vie, 1 de abr. de 2022 a la(s) 5:48 a. m., Manuel Mendoza <
mmendoza en fulbrightmail.org> escribió:
> Gracias Carlos, te hice caso pero me da este otro error, que creo que está
> relacionado también con la memoria:
> Error: cannot allocate vector of size 12.5 Gb.
> He resuelto el problema aplicando XgBoost, que utiliza todos los nodos del
> ordenador. Aunque no hace lo mismo (es un boosting y no un bootstrap), mi
> intención era seleccionar las variables más importantes para no tener que
> trabajar con todas. XgBoost también da la importancia, y Gain,
> concretamente, lo hace de forma parecida a IncNodePurity. Me salen, además,
> las mismas que con random forest, cuando funcionó con 9107 genes de los
> 58036, por lo que me quedaré con esas variables.
>
> Gracias, una vez más,
> Manuel
>
>
>
>
> El vie, 1 abr 2022 a las 9:32, Carlos Ortega (<cof en
qualityexcellence.es>)
> escribió:
>
>> Hola Manuel,
>>
>> Yo probaría con "ranger", la implementación de
"randomForest" pero en
>> C++, tiene una mucha mejor gestión de la memoria.
>> Y sin duda, para un problema de este tipo, notarás una gran diferencia
en
>> velocidad de ejecución.
>>
>> Gracias,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>>
>> El vie, 1 abr 2022 a las 5:03, Manuel Mendoza (<
>> mmendoza en fulbrightmail.org>) escribió:
>>
>>> Buenos días, por primera vez he necesitado trabajar con una df que
>>> incluye nada menos que 58036 variables, que son grados de expresión
génica
>>> (el nº de muestras es 933) y al hacer un random forest (paquete
>>> randomForest) me ha dado un error hasta ahora para mi desconocido:
Error:
>>> protect(): protection stack overflow
>>>
>>> Parece ser debido a la falta de memoria del ordenador, que es un
laptop,
>>> aunque bastante potente. Con 9197 variables no tuve problemas y
tardó mucho
>>> menos de lo que yo esperaba.
>>> ¿Es posible hacer algo?
>>> Gracias,
>>> Manuel
>>>
>>>
>>> Memnory Usage Report
>>>
>>> [image: image.png]
>>>
>>>
>>> Con gc() me salió esto:
>>>
>>> used (Mb) gc trigger (Mb)
>>> max used (Mb)
>>> Ncells 1120419 59.9 2413118 128.9
>>> 1717277 91.8
>>> Vcells 56595010 431.8 1723373484 13148.3 1793563775
>>> 13683.9
>>>
>>>
>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
--
Sent from my phone. Please excuse my brevity and misspelling.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL:
<https://stat.ethz.ch/pipermail/r-help-es/attachments/20220401/360747bb/attachment-0001.html>
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: image.png
Type: image/png
Size: 53597 bytes
Desc: no disponible
URL:
<https://stat.ethz.ch/pipermail/r-help-es/attachments/20220401/360747bb/attachment-0001.png>