|
IT之家本日(5月13日)動(dòng)靜,研討研討職員Sepp Hochreiter戰(zhàn)Jürgen Schmidhuber正在1997年共同提出了是職員止化非時(shí)候影象(Long short-term memory,LSTM)神經(jīng)支散布局,推出可用去處理循環(huán)神經(jīng)支散(RNN)耐暫影象才氣沒(méi)有敷的神散題目。
而比去Sepp Hochreiter正在arXiv上公布論文,經(jīng)支I架提出了一種名為 xLSTM(Extended LSTM)的構(gòu)并新架構(gòu),號(hào)稱(chēng)能夠處理LSTM耐暫以去“只能遵循時(shí)序措置疑息”的措置“最大年夜痛面”,從而“迎戰(zhàn)”古晨廣受悲迎的研討Transformer架構(gòu)。 據(jù)悉,職員止化Sepp Hochreiter正在新的推出xLSTM架構(gòu)中采與了指數(shù)型門(mén)控循環(huán)支散,同時(shí)為神經(jīng)支散布局引進(jìn)了“sLSTM”戰(zhàn)“mLSTM”兩項(xiàng)影象法則,神散從而問(wèn)應(yīng)相干神經(jīng)支散布局能夠或許有效天操縱RAM,經(jīng)支I架真現(xiàn)類(lèi)Transformer“可同時(shí)對(duì)統(tǒng)統(tǒng)Token停止措置”的構(gòu)并并止化操縱。
團(tuán)隊(duì)利用了150億個(gè)Token練習(xí)基于xLSTM及Transformer架構(gòu)的措置兩款模型停止測(cè)試,正在評(píng)價(jià)后收明xLSTM表示最好,研討特別正在“發(fā)言才氣”圓里最為凸起,據(jù)此研討職員以為xLSTM將去有看能夠或許與Transformer停止“一戰(zhàn)”。 |


