我們行政層級的配套,無論是改要點、行業表或者是內容分類原則,理論上行政層級的作業不應該比三讀動作的法律慢,如果同時開始的話,行政層級在法律通過時,理論上都要準備好,這一個部分請儘快跨部門的協調。
我們都是並行處理,既沒有 NCC 要等商發署,也沒有商發署等 NCC,然後警政署、金管會都是一樣的道理,全部都是並行處理。
看大家有沒有想要詢問或者是補充的?
在這次本部免費獲得報紙版面之前,很多朋友不知道資安院做這個,我們這樣子 po 出去之後,很多人知道有在做事,主動面對防詐的問題。
我是覺得這次是滿好的機會,一次性把我們從去年年底到現在,像有一些量化指標,當然不能講太細,但是至少那個形狀、框架,像剛剛的記者會都有主動說出來,其實外界反應都滿好的,謝謝大家。接著往下。
這個應該沒有問題,看大家對於書面報告有沒有其他的意見?
看大家有沒有其他的意見?
我有看到大概格式,這是有必要,先用這個版本來做。
看大家有沒有其他的更新?
就照此辦理。有沒有其他的更新?沒有的話,我們就洽悉。
這個應該沒有問題。看有沒有其他要分享的?
我想這對廠商來說,主要是成本考量。先前,包括像數政司的加密分持等等的這些計畫,都有評估過長期冷儲存服務。我們可以輔導民間的廠商,瞭解到儲存技術各種不同的用法,這個也是在促進各行各業數位轉型的工作當中,可以讓民間知道幾乎不花額外的情況,就把相關的紀錄檔、數位跡證來做完整保存,其實只要他們切換到這樣子,之後就不需要做額外的投資。
如果已經用成熟解決方案,應該可以比較順利導入。這個部分我們之前在規劃分持備份時,都已經研究過了,相關的數據跟技術解決方案也可以試著分享給廠商,儘量以不造成額外負擔為目的。
另外,本部主動排專案報告,等於類似今天主動講防詐是一樣的意思。民主司專案報告出國效益,也就是如數產署對防詐,以堂堂正正態度應對,聚焦在大家所關心的事情上,例如資安演訓、國際談判等等。
感謝大家的協助,今天就到這邊,謝謝。
像我剛才用 Llama,就是 TAIDE 的基礎模型,我說請翻譯成英文「他讓我很窩心」。Llama 2 就算是最大的 70b instruct code,它都翻成 “He made me feel very nervous.”
但如果是 TAIDE,就會翻成 “He made me feel very touched” 或者 “He really warms my heart.” 但那這兩個其實是反義的。
一個是 nervous,一個是 touched。因為「窩心」是 touched,這是臺灣的用法,而「窝心」是 nervous 或者不舒服,是北京話的用法。
其實像 TAIDE 當時訓練的時候,就很公開説它的目的是要能夠做五個任務:自動摘要、寫信、寫文章、中翻英、英翻中。在這五件事情上面,特別以翻譯來說,包括中翻英、英翻中,特別需要準確性。
其他的時候你還可以說「這是它的創意」、「說個笑話來聽聽」之類的,但是在翻譯上面,當然不會希望翻譯者自己在裡面,插入本來沒有的意思。
所以像如果本來寫「我覺得很窩心」是「很高興」的意思,你不會說把它翻成 nervous 是有創意,這不可能,因為這樣它就是不準確,所以特別是在中翻英、英翻中這兩個用途上面,我們對準確性的要求特別高。
當然除了「窩心」之外,還有像「我對他很感冒」,也有「很不喜歡」跟「很喜歡」的兩個反義。在臺灣這裡是很不喜歡,但是在北京話是很喜歡的意思。或者「土豆」,也是很常舉的例子。「我今天吃了土豆」,到底講的是花生還是馬鈴薯呢?
像這些都是繁簡轉換無法解決的問題,它真的就是這個字,只是有沒有準確的反映它所使用的文化環境。
當然,因為其實像我們常常看一些外國的影集,以前可能是不同的字幕組,簡體跟繁體,分別是找兩組人去翻譯。
但是現在,因為這個工作已經越來越自動化了,也越來越多交給語言模型。不管是先語音轉簡體、然後簡轉繁,或者是他一開始是語音轉繁體、然後繁轉簡,這都會變成對後面的那一個語言來講,像剛剛講到的「窩心」、「感冒」、「土豆」,這在簡繁轉換的時候,通常是不會代換的。
所以就會變成是,從小小孩看到這些,他聽到英語然後看到這些字幕的時候,這個字幕就是不準確的。當然無論你剛剛講的兒少,或者是其實對成人教育都有影響,因為當我們在隨時看影集的時候,如果反覆看到的字雖然是繁體,但他的字幕用法都是不準確的,久而久之大家也就習慣這些不準確的用法了,就會造成溝通上很多的誤解。
也不是完全都這樣講,入侵應該是指其中故意的成份。實際上,我們如果沒有一個我們自己的語言模型,或者是我們沒有辦法對國外的語言模型,要進入我們市場的時候,有準確性的評測能力,應該是講說我們自己不做要求吧?
我們不做要求,當然人家就覺得隨便,反正都是漢字,簡繁轉換一下就好了,我們不做要求,就會導致這樣的結果。我也不覺得那些用了其他的語言模型的,好萊塢或者是其他的 AI 開發公司,這些社群大型平台,好像一定是故意用文化入侵我們。很明確地應該是說:我們如果沒有做這樣的要求、評測的話,對方一定都是用最便宜的方式應付。
這要看用在什麼事情上。也就是說,像剛剛講五大功能,中翻英、英翻中,是特別需要準確性的。但如果現在是寫文章,而且寫的都是像你之前題面裡有問到的,如果都是幻想、童話故事之類的,這時候它的準確性的重要性,還會不會排第一就難講了。
它可能想法比較創意、比較自由,也沒有什麼太大的問題。但是翻譯或者是摘要的話,當然就會特別要求準確性,所以我覺得我們評測,是給出一個綜合的評估、一份報告。但是這份報告裡面,哪個測項比較重要,要看它的任務而定;當然翻譯是特別需要準確性的任務。
對,但你可以想像它如果現在是要寫一個故事,就是要把「窩心」的兩個不同的意思當作故事的核心,它想要講這件事情等等,這會很有創意。但當然,它還是得掌握「窩心」在我們臺灣這邊是 very touched, warms my heart 的意思。如果它沒有掌握這個準確的先備知識,它後面也沒有辦法用這個當素材去創作出東西來。
所以很難說對於字的意思的準確性的掌握,好像在創作上面不重要;相反的,如果有寫文學作品的話,對字的意思要掌握得很精確,那是創作的前提。
對,所以我會覺得最多可以說當它在做創作的時候,準確性未必是最重要的要求,這樣是可以的。如果你現在寫首詩,裡面有些文法或者字義不規範,那就這樣吧!我們還可以說這是詩人的特權;那如果今天是翻譯,那就沒有什麼特權可言。
所以你最多只能說,他重要性也許略微下降,但是你很難說準確性對於創作有害,好像不是這樣。
這裡在講的是說我們評測時候的那些題目,我們評測題目就是有問題的?還是機器學習它訓練的原始資料是有問題?這是兩回事。
一個是考題本身就出錯了,大考中心這題應該送分,另外一個是它當初看的參考書、教科書就是錯的。這是在問哪一個?
好的。特別是在講用詞的部分,因為有權威的機構,像是國家教育研究院,不管是樂詞網或其他的,對於各個學術的名詞,或者有一些相關詞、書的資訊,也會把字典詞典都收進來,這部分的問題倒比較小。
基本上我們對 AI 的要求,也就是我們對教育單位的要求、學校的華語文教什麼,我們就同樣來這邊要求 AI。所以,如果我們的上游定義有錯誤,就表示我們整個語文教學都有錯誤,這個機率是比較小的。
所以我們不會自己憑空發明題目,我們找這種準確性題目的時候,後面都會盡量用現有的,而且是有教育規範效力的。像剛剛講到國家教育院的雙語詞彙、學術名詞、詞書資訊網或教育部其他的資訊網等等,都可以當作我們出題的方法。
你剛剛提到如果一開始訓練的資料,就像我剛剛舉的例子,Llama 一開始訓練的資料裡面,顯然「窩心」是不舒服的意思的原始資料比較多,它才會選擇這樣翻譯。但你要說它錯誤嗎?也不是錯誤,只是它沒有符合我們這邊的準確性要求而已。
因為它這個預設的回答,顯然符合北京話的準確性的要求。他們那邊也可以有準確性要求,所以你不能說它原始資料有誤,你應該是說它的原始資料不是符合我們這邊的準確性的要求。這時就要透過對齊的方式。所以,像 TAIDE 在 Llama 的基礎上繼續訓練,去調整、讓它對齊,變成能夠符合我們這邊準確性要求。
因為等於是它幫我們做了,是守門員的概念嗎?可是「字的意思」好像無關乎道德,對不對?
我們在這邊講的只是「土豆」這個字跟「花生」這個字比較近,還是跟「馬鈴薯」這個字比較近?或者是「窩心」這個字,它跟「溫暖」比較近,還是跟「不舒服」比較近?這種字的距離,好像跟我們在應用上面,所謂道德倫理,關係好像比較小一點。
對,我們說隔行如隔山。其實每一個行業裡,都有類似於剛剛土豆或窩心的狀況,一個詞語都在臺灣使用,但是跨了學門意思就不一樣了。又或者是可能有一些公司或者是一些事業,它內部有一些自己約定俗成的詞或者一些簡稱,這些在外面的字典是找不到的。
當它有一些自訂的詞彙、一些行話(jargon)的時候,不管是 TAIDE或者其他是對著教育部詞彙訓練的模型,都沒有辦法完全達到在那個特定行業,或特定場域裡面要的準確性。
所以也不要覺得 TAIDE 就這樣對齊,一切事情都解決了。而是我們自己在部署在應用的時候,我們還可以再做第二次的調校跟對齊。
好比,我們現在很多翻譯社,在你給他翻譯文章的時候,你可以給他一個 glossary、一張詞彙表,然後說在我們的用法裡面,這個英文字就是要這樣翻,而不是那樣翻。所以,等於再給他一張額外詞彙表的這件事情,再進一步對齊。
所以,今年一個很重要的研究方向,是因為現在開放的模型、大家可以自己下載模型,已經早就超過 GPT 3.5 的能力了,而且事實上已經非常接近 GPT 4 的能力了。很多人會說,今年一定就會超過 GPT 4 的能力——至少在純文字上——所以這個時候你就不需要去做取捨。
以前是你要能夠自己再調校,它能力就會比 GPT 差,但你如果不能自己調校,GPT 容許的調校範圍很窄的。這時GPT 就可以享受到比較好的功能,但你對它的控制力比較低,對不對?
去年是有這個權衡,你要就調一個比較厲害的,但你能調的範圍真的很有限。你如果想要自己從頭調過,那威力就不怎麼樣了,能力就不怎麼樣了。但在今年,特別因為是2月這波新開放的模型出來,大家發現說你在可以自行調校的前提上,它的能力都沒有比 GPT 4 差多少,或甚至一樣,這時我想就會有越來越多人,因為要自己調校的關係,會去選擇這種比較開放的模型。