新京報貝殼財經(jīng)訊(記者白金蕾)12月23日,百川智能發(fā)布全鏈路增強(qiáng)大模型Baichuan4-Finance(百川智能旗下大模型)。在金融數(shù)據(jù)的基礎(chǔ)上,通過領(lǐng)域自約束訓(xùn)練方案,Baichuan4-Finance實現(xiàn)了金融能力和通用能力同步提升的效果。該模型在中國人民大學(xué)財政金融學(xué)院新近發(fā)布的評測體系FLAME以及國內(nèi)開源金融評測基準(zhǔn)FinanceIQ上均登上榜首。


目前Baichuan4-Finance API已在百川智能官網(wǎng)正式上線。


FLAME由兩個方向的評測基準(zhǔn)組成。其中,F(xiàn)LAME-Cer主要面向模型的專業(yè)金融能力評測,覆蓋了CPA(注冊會計師考試)、CFA(特許金融分析師)、FRM(金融風(fēng)險管理師)等14類權(quán)威金融資格認(rèn)證;FLAME-Sce則側(cè)重模型的場景應(yīng)用能力,包含10個一級核心金融業(yè)務(wù)場景,21個二級細(xì)分金融業(yè)務(wù)場景,近百個三級金融應(yīng)用任務(wù)。


FLAME-Cer評測結(jié)果顯示,Baichuan4-Finance在銀行、保險、基金、證券等多個資格認(rèn)證領(lǐng)域的準(zhǔn)確率均突破了95%,整體準(zhǔn)確率93.62%,領(lǐng)先GPT-4o(Open AI旗下一款大模型)和XuanYuan3-70B-Chat(國內(nèi)首個開源中文金融大模型),超出GPT-4o近20%。在FLAME-Sce評測中,Baichuan4-Finance一級核心金融業(yè)務(wù)場景的整體可用率達(dá)84.15%,其金融數(shù)據(jù)計算、金融知識理論等場景的可用率更是超過90%。


中國人民大學(xué)財政金融學(xué)院FLAME-Cer測評結(jié)果。圖|受訪者供圖


此外,在國內(nèi)主流開源金融評測基準(zhǔn)FinanceIQ上Baichuan4-Finance同樣超越了GPT-4o和XuanYuan3-70B-Chat,整體準(zhǔn)確率達(dá)到79.23%,領(lǐng)先GPT-4o近13%。


FinanceIQ測評結(jié)果。圖|受訪者供圖


如何讓模型在提升專業(yè)能力的同時不損失通用能力,是當(dāng)下大模型落地具體場景最大的阻礙。為解決這一問題,百川智能打造了一套全鏈路領(lǐng)域增強(qiáng)方案,該方案覆蓋了高質(zhì)量數(shù)據(jù)集構(gòu)建、模型預(yù)訓(xùn)練、微調(diào)、強(qiáng)化學(xué)習(xí)等從模型研發(fā)到場景應(yīng)用的全流程。


具體而言,Baichuan4-Finance的金融數(shù)據(jù)集全面且嚴(yán)謹(jǐn),既包含金融專業(yè)教材與學(xué)術(shù)著作、頂級金融期刊論文、監(jiān)管機(jī)構(gòu)政策文件、金融法律法規(guī)等核心專業(yè)金融知識數(shù)據(jù),也覆蓋了金融專業(yè)問答集、企業(yè)財報與年度報告、金融類研究分析報告等實踐應(yīng)用類數(shù)據(jù),為提升模型金融能力提供了底層支撐。在此基礎(chǔ)上,Baichuan4-Finance還在領(lǐng)域自約束訓(xùn)練過程中引入了更高精的通用數(shù)據(jù),與金融數(shù)據(jù)一起進(jìn)行混合訓(xùn)練,最終實現(xiàn)了模型通用能力不下降,金融能力增長的效果。


此外,百川智能在后訓(xùn)練環(huán)節(jié)也做了大量增強(qiáng)工作,如:通過合成數(shù)據(jù)、指令數(shù)據(jù)對模型進(jìn)行有監(jiān)督的微調(diào);在強(qiáng)化學(xué)習(xí)策略中,針對數(shù)學(xué)計算等金融領(lǐng)域特別關(guān)注的場景進(jìn)行樣本增強(qiáng)等,進(jìn)一步提升了模型性能。


校對 賈寧