Pse lstm zgjidh gradientin në zhdukje?

Përmbajtje:

Pse lstm zgjidh gradientin në zhdukje?
Pse lstm zgjidh gradientin në zhdukje?

Video: Pse lstm zgjidh gradientin në zhdukje?

Video: Pse lstm zgjidh gradientin në zhdukje?
Video: DL2022: Рекуррентные нейросети (часть 1) 2024, Dhjetor
Anonim

LSTM-të e zgjidhin problemin duke përdorur një strukturë unike të gradientit shtesë që përfshin qasje direkte në aktivizimet e portës së harresës, duke i mundësuar rrjetit të inkurajojë sjelljen e dëshiruar nga gradienti i gabimit duke përdorur përditësimin e shpeshtë të portave në çdo hap kohor të procesit mësimor.

Si e zgjidh LSTM gradientin shpërthyes?

Një përgjigje shumë e shkurtër: LSTM shkëput gjendjen e qelizës (zakonisht e shënuar me c) dhe shtresën/daljen e fshehur (zakonisht e shënuar me h), dhe bën vetëm përditësime shtesë për c, gjë që i bën kujtimet në c më të qëndrueshme. Kështu, gradienti që rrjedh nëpër c mbahet dhe vështirë të zhduket (prandaj gradienti i përgjithshëm është i vështirë të zhduket).

Si mund të zgjidhet problemi i zhdukjes së gradientit?

Zgjidhje: Zgjidhja më e thjeshtë është të përdorni funksione të tjera aktivizimi, si ReLU, e cila nuk shkakton një derivat të vogël. Rrjetet e mbetura janë një zgjidhje tjetër, pasi ato ofrojnë lidhje të mbetura direkt me shtresat e mëparshme.

Çfarë problemi zgjidh LSTM?

LSTM. LSTM (shkurt për memorien afatshkurtër të gjatë) kryesisht zgjidh problemin e gradientit të zhdukur në përhapjen prapa. LSTM-të përdorin një mekanizëm portativ që kontrollon procesin e memoizimit. Informacioni në LSTM mund të ruhet, shkruhet ose lexohet nëpërmjet portave që hapen dhe mbyllen.

Pse LSTM-të i ndalojnë gradientët tuaj që të zhdukin një pamje nga kalimi prapa?

Arsyeja për këtë është sepse, për të zbatuar këtë rrjedhë të vazhdueshme gabimi , llogaritja e gradientit u shkurtua në mënyrë që të mos rikthehej te portat hyrëse ose kandidate.

Recommended: