數政司同時是發 6,000 元的 PM,同時也是網頁無障礙的主管單位。我記得當時視障、輪椅、無障礙都有各自的資料集,這樣對於障礙者來說,不會跑去一個不會用的 ATM,不管是金管會或者是財政部,他們覺得這個值得做。這應該也算是高價值?
同樣是資料脈絡的問題,瞭解,這個很重要,可能要註記上去,像是「由協辦機關自行認定為高價值應用」等等。看大家有沒有其他要詢問的?
有沒有定期更新的打算?
我確認一下你的意思,當然有災害的這種飛,假設什麼災害都沒有發生,明年還是會定期建置新的圖磚嗎?
對。
航遙測飛機的圖磚也會放到平臺上嗎?
所以這個就回答老師的問題,雖然寫「不定期更新」,但是未來會有健康狀況良好的,雖然不是 UAV,但是也可以當圖磚用的資料,這個一定會放在內政部那邊。
看有沒有其他的意見?如果沒有的話,我們就往下。
所以聽起來的意思是,我們可以先看一下四個子類別的量,像普查資料,這個問題就比較小,因為至少取得的方式比較一致,但是當你分一個類,前面都說非常重要,那就跟沒有分類差不多是一樣的意思,所以你剛剛講的這個疑慮,聽起來是社會跟經濟、統計當然目前比較難以去區分,聽起來是這樣子。
多元司很像有準備一個簡報,要做一些分析,請一併當作同一個報告案。
所以可以簡化成一句話,主總在時程計畫裡面提到很重要的一點,要加強優化那些統計的項目,優先把它當作重點,因為至少主總在施政方針覺得重要,其他的部分就按照各個參與部會看有沒有覺得也要靠這個新的類別讓大家瞭解,都沒有的話,暫時不列進去,這個聽起來是數位部多元司的具體建議。
我們先不急著回答,先看委員們的想法。
我記得以前還在當政委的時候,我接到國外的研究員說為何臺灣沒有按照性別區分的統計,我說當然有,重要性別統計資料庫裡面都有,而且比要的更細,但是重要性別統計資料庫就沒有英文版,對方就不知道有這個網站的存在。後來經過我們協調之後,整批全部介接到 data 平臺,就比較容易被發現。
這樣聽起來意思是,我們已知我們的統計有用在國際評比上的,甚至還可以有一個引用說這個是第幾年,然後說前面三年都用這個等等,這樣我們也不用做額外的事情,就變成這個高應用價值的統計專區裡面的分項。意思是這樣?
變成一個次分類,也就是國際評比的相關指標,很有意思的想法。
等於我們的 schema 也要有所謂的雙語詞彙,意思是這樣子,這個是 TAIDE 可以幫忙的地方。
剛剛聽起來,一、二、三是 SDGs 的粗分類,如果剛好有細分類在手邊的話,也不妨把細分類加上去?
是早稻田。
我們先請主總。
所以主總的意思是,完全改成需求端,然後這種供給端的就忘記。雖然有很多項,但是不要硬去説由主總或者數位部做,這個比較重要或那個比較重要或那部分在不在施政方針裡。意思是覺得不適合?
瞭解。
不過像剛剛提到雙語的版本或者是國際排名,應該要反應出實際的狀態,而不是缺少哪一項之後,突然那一項扣到零分,我們就會覺得非常冤枉,這一件事是各部會共同的,就比較不會有施政方針的問題。
理解。不是反對類別,而是反對次類別,我瞭解,我也有上去看留言。
剛剛主計總處提出哪一些不是用施政方針,而是由主計總處認為及委員提及的需求,貴精不貴多,就是一開始只有兩個次類別,裡面只有幾百個,總之絕對不到一千個,那樣子主總覺得比較有意義,其實我是傾向同意,我也覺得那樣比較有意義。
看大家覺得我們是不是先從這個方向辦理看看?如果需要再長出次類別再長出來。
只是說裡面的次類別是由你們訂的。
名字也可以改掉,變成「國際統計評比資料」?
沒問題。我想多元司同仁跟國發會同仁都很熟,不需要在這邊做成一定要馬上給國發會的決定,尤其他們今天不在場。
但是如果以委員剛剛所提的,不管是國際上明列需求等等,我們也同意國發會一定要表示意見,所以我們是不是可以先階段性這樣做,也就是今天所分的四個次類別就算了,上面的統計資料是不是要往國際評比或者主總發言的這一段,這部分我們就請國發會表示意見,請國發會表示意見之後,再回來處理這個大類別。
再往下就臨時動議。
如果沒有的話,今天就到這裡,謝謝大家。
你們已經有固定的中譯了嗎?Superalignment 你們已經翻成「超智慧對齊」了?
OK。對我來講,它的意思比較像「自動對齊」,也就是先從半自動,然後慢慢到全自動的對齊。這種對齊方法,並沒有說它只能用在所謂的超智慧,因為超智慧定義每個人不一樣。
精確地來講,它是讓這一代的 AI,去幫忙對齊下一代的 AI。所以這不是什麼全新的東西,已經進行一陣子了。
製作生成式 AI 系統,基本上有三個基本步驟:預訓練、微調、部署。
「預訓練」就像是你拿一堆教科書、文字或影像等,把它壓縮成一個模型。因為輸入的資料非常多,壓縮出來的量非常小,但是你又希望它能夠解壓縮到全部的資料。這個按照定義是不可能沒有損失的,就是壓縮率有個極限。那超過某個極限之後,機器學習的特色,就是它會發明新的壓縮法。
早期網路上面有些 JPEG 圖檔,當太複雜的圖檔,要用很小的頻寬傳輸的時候,壓縮後的顏色會混在一起;或者字的邊緣開始出現雜訊。同樣的,影片如果傳輸的頻寬不夠,好比像說我們現在在視訊,如果忽然間頻寬不足,你也會看到我有點抽格,臉變成一格一格的,或者是有毛邊等等。
所以在這個情況下,生成式 AI 的特色是,它會去找出新的壓縮法,好比它會注意到人的臉大概都長這個樣子,然後它就不用記住所有你臉上像素的顏色,它只要記得你特徵的地方的顏色,在解壓縮的時候,重新畫一張人臉出來就好。
在這個情況下,它畫出來的,有的時候就是幻覺、無中生有。也就是本來壓縮資料裡面有的東西,在它歸納特徵之後,覺得絕大部分都有這種特徵,但是你在問它問題的時候,因為它沒有完整的原始資料,所以就還原成它想像出來的樣子。如果你跟 ChatGPT 聊過,你會發現說,它可能講得頭頭是道,甚至說誰誰誰哪一年說了什麼,可是根本沒有這件事情,這就是它的幻覺。
所以預訓練的時候,它只能回答出它輸入的那一大堆資料裡面,最有可能的那種模式。這是第一步。
「微調」是指我們告訴它什麼樣的答案才是好的,什麼樣的答案我們不想接受。舉例來說,不誠實的答案是不好的,誠實的比較好,意思是如果訓練資料裡沒有,乾脆說沒有,不要無中生有一些東西。又好比損害人的是不好的,關懷人的是好的。
好比就算預訓練資料裡面,有很多可以用來做奸犯科、製造全世界流行的生物病毒,或製造癱瘓全世界網路的那種電腦病毒等等,但是不要這樣回答,因為會損害跟你對話的人類。反之,模型應該勸勸他說,不要問這種問題之類的。這是指AI無害的部分。
當然除了誠實、無害之外,還是多多少少要對人有點幫助。因為達到誠實、無害是最簡單的方法,也就是每個問題都回答「無可奉告」,這樣不會傷害你,但也沒有什麼意義。所以在誠實、無害的前提下,多少還是透露一點預訓練資料裡的東西給人類,這樣比較有幫助。
所以大概就是誠實、無害、有幫助,這三個是微調的重點。所以要把預訓練的模型微調,往往不是增強它的能力,相反地可能會減少它的能力,減少它用在不誠實、有害、沒幫助的地方。
有很多產出微調的方法。有個方法叫做 LoRa,可以想成一個濾鏡,就是本來模型在這裡,原本打算輸出這個結果,但是微調出某個接在它後面的處理器,來改變這個結果。這樣就不是它的答案直接給你,而是經過這一層過濾再給你。在篩選過後,或者是調整過後,它本來要這樣講的,但是把裡面可能會造成損害的部分改掉。
當然也可以在微調時把它合併回去,讓整個模型變成經過微調的模型,有各種技術上的方法,但概念上把它想成濾鏡,是比較容易的。
「超智慧對齊」在問的是整個微調的過程,能不能主要讓上一代的 AI 來做,而不是讓人類來做?
好比,你是智慧法庭的法官,碰到很複雜的專利侵權案,法官未必是那個領域的專家。但我們在法院或仲裁案上面用的方法,並不是要法官變成該領域的大師或者是專家,這是不可能的。相反的,你是讓指控的那一方跟防禦的那一方,就是原告跟被告,雙方都請最好的專利律師來,然後讓他們在那邊辯論給你聽。
這時,雙方都會提出很多證據,每次開庭的時候都會再提出一批新的證據,說上一次攻防的時候,對方講的其實沒有道理,因為這邊有 prior art、有證據等等。所以,到最後法官需要做的判斷,就不是關於這個案子全部細節的判斷,主要是關於確保這兩方辯論品質的判斷。
運用這個模式,法官需要做的事就變少了,因為他不需要是那個領域的專家,他只需要是這種辯論格式的專家。這樣大概可以了解?