新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)1月15日,“AI六小虎”之一的MiniMax發(fā)布并開源了新一代01系列模型,包含基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項(xiàng)突破性創(chuàng)新,以大規(guī)模應(yīng)用線性注意力機(jī)制打破了Transformer傳統(tǒng)架構(gòu)的記憶瓶頸。


未來,AI智能體有望成為最重要的產(chǎn)品形態(tài),由于智能體處理的任務(wù)變得越來越復(fù)雜,涉及的數(shù)據(jù)量也越來越大,單個(gè)智能體的記憶以及多個(gè)智能體協(xié)作間的上下文都會(huì)變得越來越長(zhǎng)。因此,長(zhǎng)上下文能力與多模態(tài)處理能力的提升至關(guān)重要。


技術(shù)上,MiniMax-01系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級(jí)別,受益于此次架構(gòu)創(chuàng)新,該系列模型在處理長(zhǎng)輸入的時(shí)候具有非常高的效率,接近線性復(fù)雜度。從規(guī)模效應(yīng)、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮,MiniMax選擇模型參數(shù)量為4560億,其中每次激活459億,能夠高效處理400萬token的上下文,將有效替代Transformer傳統(tǒng)架構(gòu)并開啟超長(zhǎng)文本輸入時(shí)代。相較于Gemini等一眾全球頂級(jí)模型,MiniMax-01隨著輸入長(zhǎng)度變長(zhǎng),性能衰減最慢。


值得注意的是,MiniMax還開源了Text-01模型、VL-01模型的完整權(quán)重,以便于更多開發(fā)者做有價(jià)值、突破性的研究。MiniMax方面表示,“我們認(rèn)為這有可能啟發(fā)更多長(zhǎng)上下文的研究和應(yīng)用,從而更快促進(jìn)Agent時(shí)代的到來,二是開源也能促使我們努力做更多創(chuàng)新,更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。”


編輯 岳彩周

校對(duì) 穆祥桐