【縛雞之論】英文拷到 G / D 找中文翻譯
Garbage in, Garbage out. 所謂的聊天機器人,是整合大數據、搜尋引擎,加上語言軟體分析整合後的成果,一些是既有技術,一些是新近加入的。
所謂偏差,會出現在資料庫偏差,與分析整合時有意的政治篩選功能。後者,若採用中國的軟體無法避免。但,就資料庫偏差上,嚴重的例子是中國:中國實施言論管制,人們沒有發言的自由,只能轉發政府的宣傳。於是,表面上有一千個網頁,其實只有同一篇新華社的內容。這種以量取勝的現象,容易導致大數據內容的偏失。從而導致AI的失真。
解決辦法,就是以英文發問ChatGPT,然後,再請AI翻譯為繁體中文。
Garbage
in, Garbage out. The so-called chatbot is a combination of big data, search
engines, and language software analysis. Some are existing technologies, while
others are newly added. Deviations may arise from database biases and
deliberate political filtering during analysis and integration. The latter
cannot be avoided if using Chinese software. However, with regard to database
bias, a serious example is China, where speech censorship is implemented, and
people do not have the freedom to speak and can only forward government
propaganda. Thus, although there appear to be a thousand web pages, there is
only the same content from Xinhua News Agency. This phenomenon of relying on
quantity can easily lead to bias in the contents of big data, resulting in the
distortion of AI. The solution is to ask ChatGPT in English and then have AI
translate it into Traditional Chinese.
防中置入偏見 國科會推台版ChatGPT
自由 20230214
吳政忠︰預計年底推出類ChatGPT語言工具模組
美國OpenAI開發出聊天機器人「ChatGPT」,短短兩個月吸引超過一億個註冊用戶,中國百度也宣布推出類似的應用,國科會主委吳政忠昨表示,預計年底推出台灣版本、類ChatGPT的語言工具模組,避免讓訓練出來有思想偏差的AI引導台灣業界,或防止詢問AI後,產生有偏見的內容與結果。
ChatGPT會依照輸入者輸入的內容調整最後產生的文件內容,目前使用的語言工具以英文為主,實際使用中文提問ChatGPT後,得到的回覆會出現簡繁體中文混雜的情況,對於敏感政治問題,ChatGPT目前回應都是持相對中立的立場。
吳政忠表示,國科會密切注意ChatGPT,他去年走訪歐美等國後,深感民主自由陣營和威權獨裁陣營已出現明顯分割趨勢,雖然ChatGPT使用公開資源,但因為人工智慧有「使用者教它什麼就學什麼」的特性,可能會有「偏見」,考量未來台灣中小企業會多利用此種語言模型工具,為了避免偏見產生與誤導,台灣有發展自己版本ChatGPT的必要性,一個月前也已請科技辦公室積極布局。
百度文心一言將迎合中國論述 台灣有必要發展自己的繁中版
中國網路公司百度預計三月推出類似ChatGPT的模組,取名為「文心一言」。國科會科技辦公室副執行秘書沈弘俊表示,此產品可能會用很多方式迎合中國的論述,引發台灣學界關切,台灣必須想辦法發展自己的繁體中文版ChatGPT。
許多科技巨擘都投入類似語言工具模組開發,台灣如何用有限預算步步為營?吳政忠說,人工智慧是重大問題,台灣的科技預算,很難跟谷歌、微軟、美國相比,但台灣從來不用預算數贏過他人,都用努力與腦力決勝負,他指出,ChatGPT目前主流語言為英文,中國百度AI使用簡體中文,台灣可善用繁體中文及本身是民主政體的優勢。
台版ChatGPT/燒錢沒市場? 專家樂見政府主導
自由 20230214
主掌我國前瞻技術研究的國科會昨宣布,為避免讓有思想偏差的AI引導業界,將推出台灣版ChatGPT;專家和分析師多認為,從保護繁體中文、資安防護、減少偏差等三個優點來看,樂見政府主導相關研發,但可能面臨燒錢、卻又沒有市場的難題。
「不一定有商業價值,但一定要做」;人工智慧(AI)專家吳定謙認同國科會此舉。他指出,聊天機器人的建置重點在於語料庫和資料庫,以簡體中文來說,公開資料齊全、市場又大,相信中國的聊天機器人很快會建置完成;雖然台灣的繁體中文語料庫相較香港、新加坡齊全,這是我國的技術優勢,可惜繁體中文使用者較少,沒有市場優勢。
尤其像ChatGPT這樣的聊天機器人,越多民眾使用,資料庫就會越豐富,影響力也越大,就像滾雪球一樣;吳定謙說,台灣要面臨的問題是,即便具備先進技術,但使用者少,滾雪球速度很慢,最終效率不高。
另一個挑戰是開發聊天機器人非常「燒錢」,微軟就傳出對ChatGPT開發商OpenAI投資一百億美元。吳定謙指出,ChatGPT是多元的開源平台,需要大量的硬體設備和雲端支援,加上要把模型訓練成可解讀的語言,需要很多研究員協助,處處都要投入資金。
一名專精AI領域的不具名分析師也樂見國科會研發。他表示,ChatGPT應用上所謂的「偏差」的確存在,若詢問方式不對,即可能得到不正確的答案,對企業來說,必須撥出人力和時間查核;更不用說一旦政府和企業採用這些錯誤資訊,可能進一步產生損害。
防堵偏差、維護資安 一定要做
未來國內政府部門、學術單位若要使用這類生成式AI,必須先輸入大量資料來訓練;如果使用外部模型或向OpenAI購買API(應用程式開發介面),當政府餵給它公部門資訊時,可能產生資安、資料外洩的疑慮。
他也提到,是否要由國科會從零開始自行研發,值得討論,現在已有開源專案提供類似功能,也許我國可以站在巨人肩膀上做延伸。
沒有留言:
張貼留言
請網友務必留下一致且可辨識的稱謂
顧及閱讀舒適性,段與段間請空一行