您現(xiàn)在的位置: 首頁 ChatGPT 相關(guān)視頻

ChatGPT

ChatGPT 基于 GPT-3.5 模型微調(diào)而成,以語言服務(wù)模型 InstructGPT 為基礎(chǔ),通過人類回饋增強(qiáng)學(xué)習(xí)訓(xùn)練模型 RLHF,不過數(shù)據(jù)設(shè)置略有不同。它以對(duì)話方式進(jìn)行交互,既能夠做到回答問題,也能承認(rèn)錯(cuò)誤、質(zhì)疑不正確的前提以及拒絕不恰當(dāng)?shù)恼?qǐng)求,能以更貼近一般人的對(duì)話方式與使用者互動(dòng)。

有了GPT-3.5的加持,ChatGPT經(jīng)訓(xùn)練后提升了對(duì)答如流的能力。GPT-3只預(yù)測(cè)任何給定的單詞串之后的文本,而ChatGPT則試圖以一種更像人類的方式與用戶發(fā)生互動(dòng)。ChatGPT的互動(dòng)通常是非常流暢的,并且有能力參與各種主題,與幾年前才面世的聊天機(jī)器人相比,顯示出了巨大的改進(jìn)。

OpenAI官方稱,ChatGPT是在人類的幫助下創(chuàng)建并訓(xùn)練的,人類訓(xùn)練師對(duì)該AI早期版本回答查詢的方式進(jìn)行排名和評(píng)級(jí)。然后,這些信息被反饋到系統(tǒng)中,系統(tǒng)會(huì)根據(jù)訓(xùn)練師的偏好來調(diào)整答案——這是一種訓(xùn)練人工智能的標(biāo)準(zhǔn)方法,被稱為強(qiáng)化學(xué)習(xí)。

相關(guān)視頻