新京報(bào)貝殼財(cái)經(jīng)訊（記者羅亦丹）1月15日，“AI六小虎”之一的MiniMax發(fā)布并開源了新一代01系列模型，包含基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項(xiàng)突破性創(chuàng)新，以大規(guī)模應(yīng)用線性注意力機(jī)制打破了Transformer傳統(tǒng)架構(gòu)的記憶瓶頸。

未來，AI智能體有望成為最重要的產(chǎn)品形態(tài)，由于智能體處理的任務(wù)變得越來越復(fù)雜，涉及的數(shù)據(jù)量也越來越大，單個(gè)智能體的記憶以及多個(gè)智能體協(xié)作間的上下文都會(huì)變得越來越長(zhǎng)。因此，長(zhǎng)上下文能力與多模態(tài)處理能力的提升至關(guān)重要。

技術(shù)上，MiniMax-01系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級(jí)別，受益于此次架構(gòu)創(chuàng)新，該系列模型在處理長(zhǎng)輸入的時(shí)候具有非常高的效率，接近線性復(fù)雜度。從規(guī)模效應(yīng)、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮，MiniMax選擇模型參數(shù)量為4560億，其中每次激活459億，能夠高效處理400萬token的上下文，將有效替代Transformer傳統(tǒng)架構(gòu)并開啟超長(zhǎng)文本輸入時(shí)代。相較于Gemini等一眾全球頂級(jí)模型，MiniMax-01隨著輸入長(zhǎng)度變長(zhǎng)，性能衰減最慢。

值得注意的是，MiniMax還開源了Text-01模型、VL-01模型的完整權(quán)重，以便于更多開發(fā)者做有價(jià)值、突破性的研究。MiniMax方面表示，“我們認(rèn)為這有可能啟發(fā)更多長(zhǎng)上下文的研究和應(yīng)用，從而更快促進(jìn)Agent時(shí)代的到來，二是開源也能促使我們努力做更多創(chuàng)新，更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。”

編輯岳彩周

校對(duì) 穆祥桐

13 +1

微博

微信