[AI發展]AI/大數據 ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布 #AI人工智慧#AI基礎建設 #台灣之光#台積電#護國神山#半導體#晶片#NVIDIA #2024總統大選立委選舉政黨票 #中華民國(民國)台灣臺灣 Taiwan #網路紅人 #網紅Youtuber #館長館粉必看#年輕人必看!台灣團結!台灣人必看!大學生必看!台商必看!－j的謎之無聊日常jOrz ｜Freebitcoin免費比特幣樂透純愛戰士轉生異世界成為世界最強館長最頂的柯粉館粉必看家長必看每天必看#流量密碼#流量怪物#超派

[AI發展]AI/大數據 ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布 #AI人工智慧#AI基礎建設 #台灣之光#台積電#護國神山#半導體#晶片#NVIDIA #2024總統大選立委選舉政黨票 #中華民國(民國)台灣臺灣 Taiwan #網路紅人 #網紅Youtuber #館長館粉必看#年輕人必看!台灣團結!台灣人必看!大學生必看!台商必看!

OpenAI連發兩則重量級消息，首先ChatGPT可以看、聽、說了。

新版ChatGPT開啟一種更直觀的對話模式，可以向AI展示正在談論的內容。

像是拍一張照片，詢問如何調整自行車座椅高度。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

官方還給出另一個實用場景：打開冰箱拍一張照片，詢問AI晚餐可以吃什麼，並産生完整菜單。

更新將在接下來的兩周內向ChatGPT Plus訂閱用戶和企業版用戶推出，iOS和Android都支持。

與此同時，多模態版GPT-4V模型更多細節也一併放出。

其中最令人驚訝的是，多模態版早在2022年3月就訓練完了……

ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布

看到這裡，有網友言外之意的問：有多少創業公司在剛剛5分鐘之內死掉了？

ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布

看聽說皆備，全新對話模式

更新後的ChatGPT行動APP裡，可以直接拍照上傳，並針對照片中的內容提出問題。

像是「如何調整自行車座椅高度」，ChatGPT會給出詳細步驟。

ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布

如果你完全不熟悉自行車結構也沒關係，還可以圈出照片的一部分問ChatGPT「說的是這個嗎？」。

就像在現實世界中用手指東西給別人看一樣。

ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布

不知道用什麼工具，甚至可以把工具箱打開拍給ChatGPT，它不光能指出需要的工具在左邊，連標籤上的文字也能看懂。

ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布

先前得到使用資格的使用者也分享了一些測試結果。

可以分析自動化工作流程圖。

ChatGPT image recognition is here and it is magical! pic.twitter.com/qImph9jVyq
— Muratcan Koylan (@youraimarketer) September 26, 2023

但是沒有認出一張劇照具體出自哪部電影。

ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布

語音部分的展示還是上周DALL‧E 3演示的聯動彩蛋。

讓ChatGPT把5歲小朋友幻想中的「超級向日葵刺蝟」講成一個完整的睡前故事。

▲ DALL‧E3展示

ChatGPT這次講的故事文字摘錄如下：

ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布

多模態GPT-4V能力大揭秘

結合所有公布的影片展示與GPT-4V System Card中的內容，手快的網友已經總結出GPT-4V的視覺能力大揭秘。

Capabilities of GPT-4V revealed!

Here are some details on the visual recognition capabilities of GPT-4V based on what is mentioned in the system card:

- Object detection: GPT-4V can detect and identify common objects in images, like cars, animals, household items, etc. Its…
— Carlos E. Perez (@IntuitMachine) September 25, 2023

物體檢測：GPT-4V可以檢測和辨識圖像中的常見物體，如汽車、動物、家居用品等。其物體辨識能力在標準圖像資料集上進行了評估。
文字辨識：該模型具有光學字元辨識 (OCR) 功能，可以檢測圖像中的列印或手寫文字並將其轉錄為機器可讀文字。這在文件、標誌、標題等圖像中進行了測試。
人臉辨識：GPT-4V可以定位並辨識圖像中的人臉。它具有一定的能力，可以根據臉部特徵辨識性別、年齡和種族屬性。其臉部分析能力是在 FairFace 和 LFW 等資料集上進行測量的。
驗證碼處理：在解決基於文字和圖像的驗證碼時，GPT-4V顯示出了視覺推理能力。這表明該模型具有進階解謎能力。
地理定位：GPT-4V 具有辨識風景圖像中描繪的城市或地理位置的能力，這證明模型吸收了關於現實世界的知識，但也代表有洩露隱私的風險。
複雜圖像：該模型難以準確解釋複雜的科學圖表、醫學掃描或具有多個重疊文字元件的圖像。它錯過了上下文細節。

同時也總結了GPT-4V目前的限制。