國際金融報(bào)
顏凌康
2025-09-19 14:24
人民財(cái)訊9月19日電,近日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權(quán)威期刊《自然(Nature)》第645期的封面。論文研究表明,大語言模型(LLM)的推理能力可通過純強(qiáng)化學(xué)習(xí)來提升,從而減少增強(qiáng)性能所需的人類輸入工作量。并提出,大語言模型(LLMs)不必依賴人工示例或復(fù)雜指令,也能通過試錯(cuò)式強(qiáng)化學(xué)習(xí),自主學(xué)會(huì)生成推理過程。且AI還會(huì)自發(fā)進(jìn)行“自省”,被認(rèn)為是人工智能(AI)探索人類之外思維路徑的重要跡象。