首頁Home
講者Speakers
對話Speeches

/

唐鳳

1206

出現次數Appearances

96986

發言數Speeches

"美國跟中國之間，現在不管是經濟、技術，都有對立、分裂、脫鉤的..."

最長發言Longest speech

發言Speeches

- 2024-02-29 數位發展部第十七次部務會議逐字稿
我們行政層級的配套，無論是改要點、行業表或者是內容分類原則，理論上行政層級的作業不應該比三讀動作的法律慢，如果同時開始的話，行政層級在法律通過時，理論上都要準備好，這一個部分請儘快跨部門的協調。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
我們都是並行處理，既沒有 NCC 要等商發署，也沒有商發署等 NCC，然後警政署、金管會都是一樣的道理，全部都是並行處理。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
看大家有沒有想要詢問或者是補充的？
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
在這次本部免費獲得報紙版面之前，很多朋友不知道資安院做這個，我們這樣子 po 出去之後，很多人知道有在做事，主動面對防詐的問題。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
我是覺得這次是滿好的機會，一次性把我們從去年年底到現在，像有一些量化指標，當然不能講太細，但是至少那個形狀、框架，像剛剛的記者會都有主動說出來，其實外界反應都滿好的，謝謝大家。接著往下。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
這個應該沒有問題，看大家對於書面報告有沒有其他的意見？
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
看大家有沒有其他的意見？
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
我有看到大概格式，這是有必要，先用這個版本來做。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
看大家有沒有其他的更新？
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
就照此辦理。有沒有其他的更新？沒有的話，我們就洽悉。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
這個應該沒有問題。看有沒有其他要分享的？
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
我想這對廠商來說，主要是成本考量。先前，包括像數政司的加密分持等等的這些計畫，都有評估過長期冷儲存服務。我們可以輔導民間的廠商，瞭解到儲存技術各種不同的用法，這個也是在促進各行各業數位轉型的工作當中，可以讓民間知道幾乎不花額外的情況，就把相關的紀錄檔、數位跡證來做完整保存，其實只要他們切換到這樣子，之後就不需要做額外的投資。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
如果已經用成熟解決方案，應該可以比較順利導入。這個部分我們之前在規劃分持備份時，都已經研究過了，相關的數據跟技術解決方案也可以試著分享給廠商，儘量以不造成額外負擔為目的。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
另外，本部主動排專案報告，等於類似今天主動講防詐是一樣的意思。民主司專案報告出國效益，也就是如數產署對防詐，以堂堂正正態度應對，聚焦在大家所關心的事情上，例如資安演訓、國際談判等等。
前後文Link in context 連結Link
- 2024-02-29 數位發展部第十七次部務會議逐字稿
感謝大家的協助，今天就到這邊，謝謝。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
像我剛才用 Llama，就是 TAIDE 的基礎模型，我說請翻譯成英文「他讓我很窩心」。Llama 2 就算是最大的 70b instruct code，它都翻成 “He made me feel very nervous.”
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
但如果是 TAIDE，就會翻成 “He made me feel very touched” 或者 “He really warms my heart.” 但那這兩個其實是反義的。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
一個是 nervous，一個是 touched。因為「窩心」是 touched，這是臺灣的用法，而「窝心」是 nervous 或者不舒服，是北京話的用法。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
其實像 TAIDE 當時訓練的時候，就很公開説它的目的是要能夠做五個任務：自動摘要、寫信、寫文章、中翻英、英翻中。在這五件事情上面，特別以翻譯來說，包括中翻英、英翻中，特別需要準確性。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
其他的時候你還可以說「這是它的創意」、「說個笑話來聽聽」之類的，但是在翻譯上面，當然不會希望翻譯者自己在裡面，插入本來沒有的意思。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
所以像如果本來寫「我覺得很窩心」是「很高興」的意思，你不會說把它翻成 nervous 是有創意，這不可能，因為這樣它就是不準確，所以特別是在中翻英、英翻中這兩個用途上面，我們對準確性的要求特別高。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
當然除了「窩心」之外，還有像「我對他很感冒」，也有「很不喜歡」跟「很喜歡」的兩個反義。在臺灣這裡是很不喜歡，但是在北京話是很喜歡的意思。或者「土豆」，也是很常舉的例子。「我今天吃了土豆」，到底講的是花生還是馬鈴薯呢？
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
像這些都是繁簡轉換無法解決的問題，它真的就是這個字，只是有沒有準確的反映它所使用的文化環境。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
當然，因為其實像我們常常看一些外國的影集，以前可能是不同的字幕組，簡體跟繁體，分別是找兩組人去翻譯。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
但是現在，因為這個工作已經越來越自動化了，也越來越多交給語言模型。不管是先語音轉簡體、然後簡轉繁，或者是他一開始是語音轉繁體、然後繁轉簡，這都會變成對後面的那一個語言來講，像剛剛講到的「窩心」、「感冒」、「土豆」，這在簡繁轉換的時候，通常是不會代換的。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
所以就會變成是，從小小孩看到這些，他聽到英語然後看到這些字幕的時候，這個字幕就是不準確的。當然無論你剛剛講的兒少，或者是其實對成人教育都有影響，因為當我們在隨時看影集的時候，如果反覆看到的字雖然是繁體，但他的字幕用法都是不準確的，久而久之大家也就習慣這些不準確的用法了，就會造成溝通上很多的誤解。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
也不是完全都這樣講，入侵應該是指其中故意的成份。實際上，我們如果沒有一個我們自己的語言模型，或者是我們沒有辦法對國外的語言模型，要進入我們市場的時候，有準確性的評測能力，應該是講說我們自己不做要求吧？
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
我們不做要求，當然人家就覺得隨便，反正都是漢字，簡繁轉換一下就好了，我們不做要求，就會導致這樣的結果。我也不覺得那些用了其他的語言模型的，好萊塢或者是其他的 AI 開發公司，這些社群大型平台，好像一定是故意用文化入侵我們。很明確地應該是說：我們如果沒有做這樣的要求、評測的話，對方一定都是用最便宜的方式應付。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
這要看用在什麼事情上。也就是說，像剛剛講五大功能，中翻英、英翻中，是特別需要準確性的。但如果現在是寫文章，而且寫的都是像你之前題面裡有問到的，如果都是幻想、童話故事之類的，這時候它的準確性的重要性，還會不會排第一就難講了。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
它可能想法比較創意、比較自由，也沒有什麼太大的問題。但是翻譯或者是摘要的話，當然就會特別要求準確性，所以我覺得我們評測，是給出一個綜合的評估、一份報告。但是這份報告裡面，哪個測項比較重要，要看它的任務而定；當然翻譯是特別需要準確性的任務。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
對，但你可以想像它如果現在是要寫一個故事，就是要把「窩心」的兩個不同的意思當作故事的核心，它想要講這件事情等等，這會很有創意。但當然，它還是得掌握「窩心」在我們臺灣這邊是 very touched, warms my heart 的意思。如果它沒有掌握這個準確的先備知識，它後面也沒有辦法用這個當素材去創作出東西來。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
所以很難說對於字的意思的準確性的掌握，好像在創作上面不重要；相反的，如果有寫文學作品的話，對字的意思要掌握得很精確，那是創作的前提。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
對，所以我會覺得最多可以說當它在做創作的時候，準確性未必是最重要的要求，這樣是可以的。如果你現在寫首詩，裡面有些文法或者字義不規範，那就這樣吧！我們還可以說這是詩人的特權；那如果今天是翻譯，那就沒有什麼特權可言。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
所以你最多只能說，他重要性也許略微下降，但是你很難說準確性對於創作有害，好像不是這樣。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
這裡在講的是說我們評測時候的那些題目，我們評測題目就是有問題的？還是機器學習它訓練的原始資料是有問題？這是兩回事。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
一個是考題本身就出錯了，大考中心這題應該送分，另外一個是它當初看的參考書、教科書就是錯的。這是在問哪一個？
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
好的。特別是在講用詞的部分，因為有權威的機構，像是國家教育研究院，不管是樂詞網或其他的，對於各個學術的名詞，或者有一些相關詞、書的資訊，也會把字典詞典都收進來，這部分的問題倒比較小。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
基本上我們對 AI 的要求，也就是我們對教育單位的要求、學校的華語文教什麼，我們就同樣來這邊要求 AI。所以，如果我們的上游定義有錯誤，就表示我們整個語文教學都有錯誤，這個機率是比較小的。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
所以我們不會自己憑空發明題目，我們找這種準確性題目的時候，後面都會盡量用現有的，而且是有教育規範效力的。像剛剛講到國家教育院的雙語詞彙、學術名詞、詞書資訊網或教育部其他的資訊網等等，都可以當作我們出題的方法。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
你剛剛提到如果一開始訓練的資料，就像我剛剛舉的例子，Llama 一開始訓練的資料裡面，顯然「窩心」是不舒服的意思的原始資料比較多，它才會選擇這樣翻譯。但你要說它錯誤嗎？也不是錯誤，只是它沒有符合我們這邊的準確性要求而已。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
因為它這個預設的回答，顯然符合北京話的準確性的要求。他們那邊也可以有準確性要求，所以你不能說它原始資料有誤，你應該是說它的原始資料不是符合我們這邊的準確性的要求。這時就要透過對齊的方式。所以，像 TAIDE 在 Llama 的基礎上繼續訓練，去調整、讓它對齊，變成能夠符合我們這邊準確性要求。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
因為等於是它幫我們做了，是守門員的概念嗎？可是「字的意思」好像無關乎道德，對不對？
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
我們在這邊講的只是「土豆」這個字跟「花生」這個字比較近，還是跟「馬鈴薯」這個字比較近？或者是「窩心」這個字，它跟「溫暖」比較近，還是跟「不舒服」比較近？這種字的距離，好像跟我們在應用上面，所謂道德倫理，關係好像比較小一點。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
對，我們說隔行如隔山。其實每一個行業裡，都有類似於剛剛土豆或窩心的狀況，一個詞語都在臺灣使用，但是跨了學門意思就不一樣了。又或者是可能有一些公司或者是一些事業，它內部有一些自己約定俗成的詞或者一些簡稱，這些在外面的字典是找不到的。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
當它有一些自訂的詞彙、一些行話（jargon）的時候，不管是 TAIDE或者其他是對著教育部詞彙訓練的模型，都沒有辦法完全達到在那個特定行業，或特定場域裡面要的準確性。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
所以也不要覺得 TAIDE 就這樣對齊，一切事情都解決了。而是我們自己在部署在應用的時候，我們還可以再做第二次的調校跟對齊。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
好比，我們現在很多翻譯社，在你給他翻譯文章的時候，你可以給他一個 glossary、一張詞彙表，然後說在我們的用法裡面，這個英文字就是要這樣翻，而不是那樣翻。所以，等於再給他一張額外詞彙表的這件事情，再進一步對齊。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
所以，今年一個很重要的研究方向，是因為現在開放的模型、大家可以自己下載模型，已經早就超過 GPT 3.5 的能力了，而且事實上已經非常接近 GPT 4 的能力了。很多人會說，今年一定就會超過 GPT 4 的能力——至少在純文字上——所以這個時候你就不需要去做取捨。
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
以前是你要能夠自己再調校，它能力就會比 GPT 差，但你如果不能自己調校，GPT 容許的調校範圍很窄的。這時GPT 就可以享受到比較好的功能，但你對它的控制力比較低，對不對？
前後文Link in context 連結Link
- 2024-02-06 商周二月專欄訪談唐鳳部長逐字稿
去年是有這個權衡，你要就調一個比較厲害的，但你能調的範圍真的很有限。你如果想要自己從頭調過，那威力就不怎麼樣了，能力就不怎麼樣了。但在今年，特別因為是2月這波新開放的模型出來，大家發現說你在可以自行調校的前提上，它的能力都沒有比 GPT 4 差多少，或甚至一樣，這時我想就會有越來越多人，因為要自己調校的關係，會去選擇這種比較開放的模型。
前後文Link in context 連結Link

← 上一頁Previous1...899091...1939 1940下一頁Next →

本站由唐鳳與唐宗浩共同維運，除另有標示外，內容以創用 CC0 授權條款釋出This site is co-maintained by Audrey Tang and Bestian Tang. Unless otherwise indicated, the content is released under the terms of the Creative Commons CC0 license.