LSTM-të e zgjidhin problemin duke përdorur një strukturë unike të gradientit shtesë që përfshin qasje direkte në aktivizimet e portës së harresës, duke i mundësuar rrjetit të inkurajojë sjelljen e dëshiruar nga gradienti i gabimit duke përdorur përditësimin e shpeshtë të portave në çdo hap kohor të procesit mësimor.
Si e zgjidh LSTM gradientin shpërthyes?
Një përgjigje shumë e shkurtër: LSTM shkëput gjendjen e qelizës (zakonisht e shënuar me c) dhe shtresën/daljen e fshehur (zakonisht e shënuar me h), dhe bën vetëm përditësime shtesë për c, gjë që i bën kujtimet në c më të qëndrueshme. Kështu, gradienti që rrjedh nëpër c mbahet dhe vështirë të zhduket (prandaj gradienti i përgjithshëm është i vështirë të zhduket).
Si mund të zgjidhet problemi i zhdukjes së gradientit?
Zgjidhje: Zgjidhja më e thjeshtë është të përdorni funksione të tjera aktivizimi, si ReLU, e cila nuk shkakton një derivat të vogël. Rrjetet e mbetura janë një zgjidhje tjetër, pasi ato ofrojnë lidhje të mbetura direkt me shtresat e mëparshme.
Çfarë problemi zgjidh LSTM?
LSTM. LSTM (shkurt për memorien afatshkurtër të gjatë) kryesisht zgjidh problemin e gradientit të zhdukur në përhapjen prapa. LSTM-të përdorin një mekanizëm portativ që kontrollon procesin e memoizimit. Informacioni në LSTM mund të ruhet, shkruhet ose lexohet nëpërmjet portave që hapen dhe mbyllen.
Pse LSTM-të i ndalojnë gradientët tuaj që të zhdukin një pamje nga kalimi prapa?
Arsyeja për këtë është sepse, për të zbatuar këtë rrjedhë të vazhdueshme gabimi , llogaritja e gradientit u shkurtua në mënyrë që të mos rikthehej te portat hyrëse ose kandidate.