
(圖/ 數位發展部)
在全球人工智慧(AI)加速發展之際,數位發展部今(24)日宣布「臺灣主權AI訓練語料庫」正式上線,整合高品質正體中文語料,支援AI模型訓練更貼近臺灣的語言使用、文化內涵與生活情境,提升模型對本土語意的理解與辨識能力,回應我國社會與產業發展需求。
數位發展部指出,目前已有超過200個政府機關參與語料建置與釋出,上架逾2,000筆資料集、總量超過6億tokens,內容涵蓋語言、文化、教育、生物、地理環境等多元領域,並納入具臺灣文化特色的高品質資料,作為AI模型理解臺灣社會的重要訓練素材。

(圖/ 數位發展部)
文化部與教育部亦參與語料提供。文化部表示,上架的公共藝術及文化資產相關資料集,展現臺灣多元且豐富的藝文樣貌,可作為AI學習臺灣文化內容的重要基礎;教育部則指出,其提供的語言辭典資料涵蓋臺語、客語與國語等,有助於強化AI模型在用詞精準度與語意理解上的表現。
為兼顧資料釋出與使用的法制安全,數位發展部並與經濟部智慧財產局合作,推出《臺灣主權AI訓練語料授權條款-第1版》,為語料使用提供明確授權依據,降低逐案協商著作權的行政成本,減少AI訓練可能衍生的智慧財產爭議,藉此加速主權AI的研發與應用。

(圖/ 數位發展部)
數位發展部進一步說明,該語料庫也串接政府資料開放推動十餘年的成果,將既有的文本開放資料同步整合,使用者可依需求查詢與下載所需語料,提升資料可近性與應用效率。
未來,語料庫內容將持續擴充,逐步從中央機關延伸至地方政府與民間機構,透過公私協力模式,擴大臺灣主權AI的發展基礎。數位發展部也邀請AI模型訓練者與相關研究單位,至語料庫平台(https://taic.moda.gov.tw)申請使用,以臺灣語料打造更理解臺灣的AI應用。
中華超傳媒
(文/ 黃俊憲)
回覆
刪除回覆投票表決
最新消息
獲取最新新聞
訂閱我們的新聞,以獲取最新新聞和獨家更新。
最近評論
-
由 Anonymous
...沒有官商勾結...沒有中飽私囊
-
由 Anonymous
包租代管!
-
由 Anonymous
成也花園 敗也花園



