我先問一下,我們都知道它的綜整能力、推理能力,其實以 ChatGPT 來講,因為有全部的 Github,等於用程式語言跟程式的註解當作中介語言,才有這麼好的推理能力,但是我們現在如果以正體字為主,沒有納入全部的 Github 的程式語言,湧現出來的大概就沒有推理、綜整能力?
這個是 3 到 6 月就做嗎?還是 6 到 12 月做?
所以簡單來講,到 6 月的時候既不會拒絕不合理的要求,也不一定有什麼⋯⋯
就有一點像 playground 裡面的 gpt-3.5 一樣?
我有第二個問題,我們都用 3、6、9 月來當 check point。因為我們知道 3 月中,GPT4 就會釋出了,狀態是它推理能力比一般人力好了,所以我很難想像社群會願意用上一代的東西,因為大概 3 月中之後,所有人都會跑去用 GPT4 了。
我在講的就是這個,就是開 Bing、Windows、Skype 和 Azure 的 API 出來。
我們不如產地直送,直接跟 OpenAI 談還比較快?
微軟的目標跟 OpenAI Foundation 的目標不一定相同。
OpenAI 現在有一個企業專屬方案,只要跟它租一定程度的算力就保證不會當機,也就是微軟現在要推出類似的,但是後面是同一個,也就是 GPT4。現在的差別只是 OpenAI 的是感謝肯亞朋友有做過 RLHF,但是微軟拿去接 Bing 的是另一個版本。
商品化過的。
但是 OpenAI 也不是不可能自己賣,以我所知它的專屬授權是商業用的專屬授權而已,並沒有不能跟學術界合作。我剛剛的 point 是這個⋯⋯
對,OpenAI 的情況是付錢給肯亞同仁,但是臺灣社群的時薪高過肯亞不少,所以為什麼要免費幫你訓練這個?當到 9 月的時候,我們就假設 Azure 上所有的 modality 都已經是幾乎免費在提供了,因為這個是微軟主要的商業模式。為何 civtech 社群要理我們,這個是我想要問的。
這個很棒。
這就很像 1999。
現在 2 月。所以你的想法如我們談到的 1999,其實以我所知,台北的 1999 之前已經 全面導入 speech to text 了 。
通常打去也會講好幾輪。
1999 就是 data governance 的問題了。
假設導入 PETs,讓整個流程都無涉個資的話,你希望用這個 Bootstrap,把 Q&A 裡面 Q 的部分變成 Benchmark,你的意思是這樣子?
然後這個一路到 12 月做 Benchmark?
我有聽懂。但我的問題還是相同的,你這邊是用有興趣的人幫你訓練,你這邊是用他的工作就是要回答民眾問題,其實是同構,但 1999 這邊是比較有目的性。
假設我是市政府,我為何不在 3 月的時候去租用 GPT4,不管是微軟賣的或者是 OpenAI 賣的,把我的東西放進去,因為有一套可以計算的,這樣人家 GPT4 連到搜尋引擎,我們 BLOOM 是沒有連網的 GPT3,人家立刻就可以回答問題了,也就是用既有的 knowledge base?
地方政府還是可以買 MS Office,我們主要用 Google Workspace 和 LibreOffice(笑)。
瞭解。
但是百度比起 Bing 的商轉,能量弱很多。
好不容易用 Google Workspace 擺脫了微軟 Office,是不是要再來一次(笑)。
這個很好賣。目前我們看很多的分析,在微軟已經有優勢的領域,再加這一些東西,你就更難換掉它。但是有些比較沒有這麼優勢領域,也許有機會,像 Adobe,像 Premiere Pro 對 speech 也有著墨,雖然比不上 OpenAI Whisper,但在 video & photo domain 已經有一些人相信 Adobe 了,所以就算 Adobe 的品質稍差,只要有類似的東西,大家還是會繼續用。
因為你剛剛講兩個領域,一個是 text 的 Q&A,但是 1999 很多都是打電話進來的,就是 speech to text to 回應,另外一個是中、英文字編修,因為這兩個有一點不一樣的領域,一個資訊量在 input 跟 output 一樣多,所以這種領域比較沒有幻想的問題,像機器翻譯是比較沒有道德疑慮,要驗測看有沒有翻對是很容易的。但是有沒有答對是比較困難的,因為你只問了一句話,要回應幾個 kilobytes。
但是這個有要連到哪個搜尋引擎嗎?
對,因為 Bing 後面有個搜尋引擎。
那當然。
我有聽懂,但是這個是資訊量的問題,剛剛的意思是一個 kilobyte 進來、一個 kilobyte 還你,這種領域要拼得過 ChatGPT 滿容易的,只要資料量夠。但是這個進來 100 個 byte,然後你要回 10k 的資料,這個你要拼得過,因為後面沒有 Bing,所以這個是他幫你找來就好了,他只是負責換句話說,我們現在這個就算把換句話說弄到很好,但是也沒有更新的資料,這樣回答光是問他今天幾月幾日就會錯,你知道我的意思嗎?
因為這個是 input 跟 output 不對稱,要產生這麼多的不對稱只有兩個方法,一個是幻想、一個即時去搜尋引擎找,沒有別的做法。
對,但是到 Bing 的時候就有比較不幻想的模式了。
這個 tune 過的 modality 一定會變成 default modality 之一。而我們如果後面沒有一個搜尋引擎,我不太確定 1999 要用我們的,因為連日期都會答錯的情況…
像 Bing 那邊是每小時都更新快取,所以光貼的 twitter 都可以直接做⋯⋯
理解。
對,但是這樣體驗又更差。政府不做那就只是給民間做,我們自己做,但是比民間差太多的話,大家感覺就不好了。
我們有沒有可能專注做這種,最好輸出不要比輸入量多的那個領域?
就很像現在有很多人拿就業金卡來,但是他完全不會講華語,你可以支持他們,使用者所有用到的服務,這些英語使用者都可以用,還有移工作什麼的都可以使用。
國科會目前是打算提 2 億?
但是我們有另外一個想提的,就像你剛剛講的, 2024 年出的這個也是兩大塊,governance 對於 AI 在實際情境運用的這個跟稽核,我們也打算要提。
現在的困難是,我如果編下年度,但是你這邊 6 月做出來,我還沒有人可以測這個。
總不能說語言模型走到底了,我們還只能測無人載具。
我們目前都是在測無人載具。我的意思是,如果今年國科會要主推這個,數位部今年卻只測無人載具,就沒有 alignment,你知道我的意思嗎?
這兩個其實是完全不一樣,我們這邊是無人載具和空間的互動,你剛剛這邊講到的是意識形態滲透的。
所以這兩個需要的驗測能量,是完全不一樣的。
對,因為我們最近都在做無人載具,但是現在去弄無人載具的,要來驗測語言翻譯品質,那 99%都用不上。
那我們今年無人載具先等一下?
意思是 TTC 的人不能調過來做這個,那就需要額外調度資源。
當然。