這篇文章闡述了人們對於即將推出的 GPT-5 所期待的四個新功能。GPT-5 的推出將可能包含更多的多模態性、更大且更有效的上下文窗口、GPT 代理以及減少幻覺等功能。這些功能的引入有望進一步提升人工智慧模型的能力和應用範圍,滿足不斷增長的用戶需求。
前言
在人工智慧領域的持續發展中,GPT-5的推出已引起了廣泛關注。作為一個開發新一代AI的重要里程碑,GPT-5代表了對於自然語言處理技術不斷突破的努力。
在這篇文章中,我們將探討社會大眾對於GPT-5希望新增的四個功能。無論是在個人使用還是商業應用上,這些功能都可能對我們的日常生活和工作產生深遠影響。
OpenAI 的 GPT-4 目前是市場上最好的生成式人工智慧工具,但這並不表示我們不在期待未來。隨著 OpenAI CEO Sam Altman 經常暗示 GPT-5 的到來,看起來我們很可能在不久的將來看到一個新的、升級版的人工智慧模型。
至少,這是我們所希望的。目前對於 GPT-5 沒有確切的發布日期,而我們所知道的大多數信息都是從拼湊其他信息並嘗試將其連接起來得來的。
然而,無論到期日是何時,當 GPT-5 推出時,我們希望看到一些關鍵功能。
OpenAI 的 GPT-5是什麼?
GPT-5 是廣受期待的 OpenAI GPT-4 人工智慧模型的後繼者,被廣泛預期將是市場上最強大的生成模型。雖然目前尚無 GPT-5 的官方發布日期,但有跡象表明它可能在 2024 年夏天甚至更早就會推出。目前對於這個模型的細節知之甚少,但有幾點是可以比較肯定的:
- OpenAI 已經在美國專利和商標局申請了這個名稱的商標。
- 幾位 OpenAI 的高管已經討論或暗示了這個模型可能的能力。
- 在 2024 年 3 月的一次 YouTube 訪談中,OpenAI CEO Sam Altman 多次提到了這個模型。
這一切都指向一個令人興奮的現實:GPT-5 即將到來!話雖如此,目前仍有許多事情都是推測。但我們希望看到的一些功能,並且對於在模型中看到這些功能相當有信心。
1、更多的多模態性
GPT 系列人工智慧模型中最令人興奮的改進之一就是多模態性。為了清楚起見,多模態性是指一個人工智慧模型處理的不僅僅是文字,還包括其他類型的輸入,如圖像、音頻和視頻。多模態性將是未來 GPT 系列模型的一個重要的進步基準。
雖然 GPT-4 已經擅長處理圖像輸入和輸出,但涵蓋音頻和視頻處理的改進是 OpenAI 的下一個里程碑,而 GPT-5 是一個很好的起點。Google 已經在這種多模態性方面取得了重大進展,其 Gemini AI 模型。如果 OpenAI 不作出回應將是不尋常的。但是,當然,請不要完全相信我們的話。在他的 Unconfuse Me 播客中,比爾·蓋茨問 OpenAI CEO Sam Altman 在接下來的兩年中他對 GPT 系列所預見的里程碑是什麼。他的第一個答案——視頻處理。
因此,對於 GPT-5,我們期望能夠玩弄視頻——上傳視頻作為提示,即時創建視頻,使用文字提示編輯視頻,從視頻中提取片段,以及從大型視頻文件中找到特定場景。我們期望能夠對音頻文件進行類似的操作。這是一個很大的要求,是的。但考慮到人工智慧發展的速度,這是一個非常合理的期望。
2、更大且更有效的上下文窗口
儘管是市場上最複雜的人工智慧模型之一,但 GPT 系列的人工智慧模型卻擁有最小的上下文窗口之一。例如,Anthropic 的 Claude 3 擁有 20 萬個 token 的上下文窗口,而 Google 的 Gemini 可以處理驚人的 100 萬個 token(標準使用為 12.8 萬)。相比之下,GPT-4 的上下文窗口相對較小,為 12.8 萬個 token,實際上可供像 ChatGPT 這樣的界面使用的 token 大約只有 3.2 萬個或更少。
隨著先進的多模態性進入圖景,改進的上下文窗口幾乎是不可避免的。也許增加兩倍或四倍的因數就足夠了,但我們希望看到像是增加十倍的東西。這將使 GPT-5 能夠以更高效的方式處理更多的信息。然而,更大的上下文窗口並不總是意味著更好。因此,我們希望看到上下文處理效率的提高,而不僅僅是增加上下文窗口大小。
您可以看到,一個模型可能擁有一個百萬個 token 的上下文窗口(大約有 70 萬字的容量),但當被要求總結一本 50 萬字的書時卻無法產生全面的摘要,因為它無法充分處理整個上下文,儘管在理論上有這樣的能力。您能讀一本 50 萬字的書並不意味著您能夠回憶其中的所有內容或理性地處理它。
3、GPT 代理
也許 GPT-5 發布最令人興奮的可能性之一就是 GPT 代理人的首次亮相。雖然「改變遊戲規則」這個術語在人工智慧領域可能已被過度使用,但 GPT 代理人確實在每一個實際意義上都將是改變遊戲規則的。但這究竟會有多大的影響?
目前,像 GPT-4 這樣的人工智慧模型可以幫助您完成一項任務。它們可以幫您寫郵件,講笑話,解決數學問題,或為您撰寫博客文章。但是,它們只能完成特定的任務,不能完成一系列相關任務,這些相關任務可能是完成您的工作所必需的。
假設您是一名網站開發者。作為您工作的一部分,您需要做很多事情:設計、編寫代碼、疑難排解等等。目前,您只能一次將這些任務的一部分委派給人工智慧模型。也許您可以要求 GPT-4 模型為首頁編寫代碼,然後要求它為聯繫頁面進行編寫,然後為關於頁面,依此類推。您需要逐步完成這些任務。而且有些任務模型根本無法完成。
對於逐步提示人工智慧模型進行特定子任務的過程是耗時且低效的。在這種情況下,您——網站開發者——是負責協調和提示一次一個任務的人類代理人,直到完成一整套相關任務。
GPT 代理人承諾由 GPT-5(希望如此)協調的專門專家機器人,能夠自行提示並自主處理複雜任務的所有子集。著重於「自我提示」和「自主」。
因此,如果 GPT-5 配備了 GPT 代理人,您可以要求它「為 Maxwell Timothy 建立一個作品集網站」,而不僅僅是「為我編寫首頁的代碼」。GPT-5 理論上將能夠通過調用專家人工智慧代理來處理構建網站所需的各種子任務。它可能會調用一個 GPT 來在網上搜索 Maxwell Timothy 的信息,另一個代理人來為不同頁面編寫代碼,另一個代理人來生成和優化圖像,甚至是另一個人工智慧代理來部署網站,而無需重複提示。
4、減少幻想
想像一下這樣的情景:GPT-4 被整合到一個診斷系統中,用於分析患者症狀和醫學報告。一個幻覺可能會導致人工智慧自信地提供錯誤的診斷,或者基於想像的事實和錯誤的邏輯來推薦一種潛在危險的治療方案。在醫學領域,這樣的錯誤可能會帶來災難性的後果。
# On the "hallucination problem"
— Andrej Karpathy (@karpathy) December 9, 2023
I always struggle a bit with I'm asked about the "hallucination problem" in LLMs. Because, in some sense, hallucination is all LLMs do. They are dream machines.
We direct their dreams with prompts. The prompts start the dream, and based on the…
類似的保留態度也適用於其他高風險領域,如航空、核能、海事運營和資訊安全。我們不指望 GPT-5 能完全解決幻覺問題,但我們期望它能顯著減少這類事件發生的可能性。
當我們迫不及待地等待這款備受期待的人工智慧模型的正式發布時,有一件事是肯定的:GPT-5 有潛力重新定義人工智慧的可能範圍,開啟人機協作和創新的新時代。
總結
人們對於即將推出的 GPT-5 希望看到的四個新功能。這些功能的期待包括更多的多模態性、更大且更有效的上下文窗口、GPT 代理人和減少幻覺。這些新功能將有助於提高 GPT-5 的功能和實用性,進一步推動人工智慧技術的發展。期待著 GPT-5 帶來的創新和改進,以滿足不斷增長的人工智慧應用需求。
如對文章有任何疑問和建議請發送電子郵件到wanda.mytech@gmail.com,我會不定期更新文章內容,希望幫助更多的人解決問題。
本篇文章於最近更新修正過,以保證文章內容的有效性和全面性。