我理解。但是我的點是,如果 Q 的 bytes 遠小於 A 的 bytes,我們再怎麼蒐集 Q&A,也比不上搜尋引擎,這個是我剛剛的點,我不可能蒐集到 Bing 的資料量,這樣還不如買 Bing 的 API。但是如果買 Bing 的 API,不如連 Azure GPT 一起買了。當你一起買了,這整個計畫就⋯⋯
但是我們很確信 3 月中,OpenAI 和微軟就都會全面發表 GPT 4,所以我們就是要在這個環境當中找一個⋯⋯我還是覺得要找 Q 的資料量大於、等於 A 的這種。
OpenAI 目前是沒有完全支援我們各種國家語言,還有新住民語言的翻譯。
如果來做 low-resource languages,這樣和 OpenAI 也比較互補。
我理解。那個點是在修辭上,就是措詞、用語跟逗點,但是你最在意這個 Prompt Engineering 的部分,這個已經證明是可以跨語文的。就很像我現在跟你講話,其實我腦裡是用英語想,但是我講出來的是華語,目前看起來 ChatGPT 3 跟 4 這一塊很像都是透過 Github 上的程式碼當作中介語言,所以在英語受到的訓練,自動在中文那邊用,這是一個湧現狀態,其實學界也還在研究要怎麼解釋。
有一點這種感覺。如果我們 focus 在這個,然後找一些不太花錢的來源,你覺得怎麼樣?我舉例:像剛剛講的國教院、中英翻譯,都已經有很大量的資料。
也有老師做 speech domain?
因為有些語言,像台文是有些書面材料,但是語音資料也滿多的。
所以如果你要用是可以立刻用?
對,還有客語這些。
因為這樣就跟 Bing 區分開了,目前跟 Bing 透過 Cortana,除非咬字字正腔圓,不然你剛剛講的 Mixed 台語什麼的,其實他並不理你,也很難想像 3 月就會理你。
但是剛剛講說 FB 跟 Meta 那一段不用付授權費,也就是不用到 2 億的話,所有的台語使用者應該都很高興,從語言社群的角度來看。
看闕次。
我們就說委員現在直接用台語或者是客家話質詢我,我都聽得懂?
我覺得左邊這個(1999 Q&A)不太可能三個月完成。
百分之百是這樣。
如果在 12 月前驗測不進場的話,那就又出現不能控制他打什麼問題進去,第一天就說發現太陽系外行星的望遠鏡是什麼,然後就市值下滑。政府是沒有市值,可能就是民調下滑。
當然,因為 frame 成跟你閒聊的樣子,不是搜尋引擎,要做期待管理。
後來它數學就變好了,也就是解決運算的問題。
但是現在縱算是 2 月,GPT4 還沒有出來,Bing 現在已經會說「我們這個話題到此為止」,所以這就是告訴使用者說,這個談話到沒有辦法回答,而且是到幻想的範圍內。
但是如果注入道德這一段不做驗測,然後 12 月先來 public demo 說數位部明年負責驗測它,然後結果是 12 月 demo 時要先提醒自己不要問哪一個問題,但是當時會拒絕不恰當問題的微軟 Bing 已經運行 9 個月,我們到時候看起來不是更糟嗎?我的 point 是這個。
我們的點是,我們是不是挑有信心的領域來做?我剛剛一直強調的是,只要你進來的 bits 大於等於出去的 bits,我們就有信心做驗測,但是進來的只要小於出去的 bits,我們就沒有信心做驗測。
像我有跟 Digital India 的執行長聊,他們很清楚沒有錢請翻譯員的印度另外 24 種語言,叫他接電話翻譯,他認為就算偶爾翻錯,也比這些人沒有辦法接取到政府的服務好,好比他沒有想說要跟 1999 合作,因為他覺得那個是關乎正確性的部分。
我現在的狀態是,因為你沒有辦法禁止社群也好、大公司也好去用微軟,而且微軟現在就是在搶 Google 反應不及的時間,所以會幾乎不收錢。
對,所以在這一段當中,人家甚至是付錢請你用的情況。我們如果要做完全相同的事,有點逆風,我的意思是這樣。
但是像剛剛講的 mixed 語言,在臺灣的臺語社群、客語社群、原住民族語,甚至還可以擴大到移工社群,他們很願意訓練,因為這個是有關文化存續的問題,這個不管是文化部、教育部、原民會、客委會都有經費,就不需要我們這邊講說要多少錢。
我知道。但是如果出來是翻譯的 model,我們這邊多元司、產業署都可以幫忙。
但是資科司你有瞭解嗎?
對,就是做個 model,反正一定有研究的成果。
我具體建議是,我們 support 這兩塊的部分,也就是驗測跟幫你找這種 mixed speech 的應用情境。
除非輸入的資料量大過回答,那樣才能做,如果問題的量比較少,我就沒有辦法。
對,但是我現在滿確定到 3 月中之後,我如果是地方政府,一定接現成的,很難想像他們會有別的做法。
也可以,我們就提驗測,申請跨部會署,是不是?也可以。
因為你剛剛說,我們不能移 TTC 無人載具的資源來做這個(笑)?
這我也完全同意,因為無人機驗測的人來做這個,其實不 work,這應該要一組新的人。
你覺得呢?產業署也可以找資安院做,但是概念會不一樣,如果找資安院做,主要就是安全性。
這個也要叫「訊息防護」嗎?
這真的有一個好處,大家在印象上就立刻從技服轉向資安院。
「合成訊息防護」?
有,我當時跟國網的同仁說:「你們算力夠,很適合來做隱私強化技術。」因為這個很花算力,而且已經買了設備。
我覺得這樣子很好,本來在資安院的章程也可以做驗測和 PETs,這也是在「安全、安心及安穩的數位環境」範圍裡,我這幾天再跟何院長討論看看。
至於 1999 這類的 Q&A,我並不反對去找 use case,但在跨部會署提驗測時,我應該不會放進去。
資安院如果要有一組人來做,就是專門做資訊量對稱的,特別是翻譯跟校對、mixed 國家語言的正確性、AI 安全性,用你剛剛講的 NIST 那套的框架做驗測中心,這樣就跟 TTC 的無人載具完全分開了。
對,不要一邊開發、一邊驗自己的,這也是我自己想說我們最多是協助驗測的角色。很難說自己開發、又自己驗開發的東西,感覺有一點奇怪。
對資安院的 credit 也會變好,也許比較可信。
聽起來是要自己提,就不是和國科會合提?
因為台語 speech 並不是我們手上有的,我們多元司有 open data 的清單,但是國科會的資料市集那邊也有複製的方式,就直接用資料市集就好了。
因為多元司清理好授權,以我所知,國網已經有一份,你就說從多元司過來的資料你要用,這樣就好了,這個是開放授權的好處。
我們通常要多元司申請案子的話,是要去清資料,但是國網也有人清資料、國研院也有人清資料,你不一定要用我們這邊清資料的能量。
我的具體建議是,國網之前辦過 Grand Challenge,所以對 speech 跟 text 的 domain 非常熟。