數據科學是當今世界智慧運行的中樞神經系統。從數據的抓取、應用到轉化,這一學科正滲透社會脈動。澳門大學順應時代趨勢,開辦數據科學研究中心,構建數據科學的交叉融合平台,深耕跨領域數據研究,以貫穿數據科學全鏈條,致力構建可持續智慧未來。

數據海洋中探索規律

數據是驅動社會發展的重要燃料,數據挖掘則是其關鍵探勘技術——透過算法與建模,穿過數據的表層噪音,提煉出隱藏信息,從而重塑社會各個領域的邏輯與邊界。澳大社會科學學院副院長、數據科學研究中心蔡天驥教授的研究團隊,便借助數據挖掘技術,從海量裁判文書中探索司法運行規律。

自2015年起,蔡教授團隊從中國裁判文書網抓取各級人民法院的生效裁判文書(不宜在互聯網公佈的裁判文書除外),至今已累計抓取超過2,000萬份,並展開系統性分析,研究中國司法量刑的影響因素及識別犯罪模式。基於海量的裁判文書,團隊已於《定量犯罪學雜誌》《國際藥物政策雜誌》等頂尖期刊發表了十餘篇論文,主題涵蓋人口販賣、毒品販運、性侵等。這些研究通過大規模實證分析,揭示了不同類型刑事事件的量刑規律。

以蔡教授與其博士生辛晏毓(現西南財經大學社會發展研究院講師)合著論文《以錢買刑:中國交通肇事罪中賠償對量刑之影響》為例,以逾14萬份有效裁判文書為基礎,應用零截斷廣義膨脹模型對刑期分佈呈現的非零正整數、多點集中等特徵進行建模分析,揭示了賠償行為對交通肇事罪量刑可能存在的重要影響。

從「數據匱乏」邁向「數據驅動」頗具挑戰。因應中國裁判文書網改版,團隊持續調整代碼及策略,在合法的前提下提升數據挖掘效率,目前已抓取逾10 TB數據,並將儲存系統從傳統硬盤升級到更安全便捷的網路儲存伺服器(NAS)。蔡教授指出,從龐雜數據中提取有效文本更具難度,如刑期提取需運用命名實體識別(NER)技術,再通過詞頻計算分離具體數值。

得益於澳大包容開放的研究環境,團隊得以在交流中精進技術。目前,團隊正嘗試運用AI技術輔助文本提取工作,朝著為研究人員構建全面可靠的量刑數據庫這一目標邁進。

從大規模數據到高效決策

在社會進步與知識創新的交匯點上,大規模數據處理可為集體決策與前沿知識構建可量化、可模擬、可持續優化的實證基礎,拓展人類的認知邊界。

澳大數據科學研究中心主任余亮豪的研究團隊聚焦大規模數據處理與智能決策理論的前沿問題,深入探索結構化數據、時空數據與圖結構數據的高效分析與優化,持續突破強化學習在高維動態環境中的數據效率與計算效率瓶頸。其中一項代表性成果是 LIBKDV——一個核密度可視化庫,可對大型數據進行高解析度的地理空間分析。

團隊項目已成功應用在交通信號控制、交通運輸系統、資源分配等數據密集型場景的智能決策技術中,透過顯著降低數據需求與計算成本,加速強化學習系統的落地與規模化部署,助力智慧出行、城市治理等產業升級。

在學術層面,團隊在算法創新、理論推導與可擴展系統架構設計方面取得重要進展,為數據密集型智能決策體系建立起堅實且具前瞻性的技術基礎。研究成果屢獲國際頂級AI學術平台肯定,多篇論文獲評為亮點成果及口頭報告,最新成果更持續拓展至跨場景泛化與大規模部署等關鍵議題。

研究之所以獲突破,皆因團隊採取複合策略應對兩大挑戰:面對極高的計算資源需求時,團隊優先設計數據高效且計算靈敏的算法,在維持性能的同時減少資源消耗;構建可複用的軟件框架與模塊化組件,以控成本兼提效率;面對兼具紥實的算法基礎與出色的編程能力的複合型人才短缺,則透過跨學科培養機制培育。

余教授強調,澳大的經費支援、博士培養體系,以及智能超算中心的先進GPU資源,是研究推進的關鍵。未來,團隊將聚焦「AI for Data」,整合數據智能技術與現實數據系統,並以數據驅動、自適應的方式優化控制策略,圍繞澳門交通趨勢分析與智能信號控制展開重點探索。

數據科學「譯」展所長

從學術傳譯到古老部落歌謠重現,從醫學研究的多語種試驗數據標準化,到醫護救援現場的語言溝通;機器翻譯正悄然重塑知識的流動軌跡與文明的對話模式。澳大自然語言處理與中葡機器翻譯實驗室(NLP2CT Lab)主任、數據科學研究中心教授黃輝深耕計算語言學與自然語言處理領域,帶領團隊重點攻克低資源語種翻譯難題,服務澳門語言翻譯需求。

依托該實驗室,團隊開發了澳門首套中葡互譯機器翻譯系統「中葡通」(PCT)及融合澳門語言文化邏輯的「線上中葡英輔助翻譯平台」(UM-CAT),已被澳門特區政府多個部門用於公文翻譯,衍生技術於2012年及2022年獲澳門科技獎。此外,實驗室畢業生創立、澳大創新創業中心孵化的優創譯科技有限公司,以自主研發技術開發出葡、英、普、粵等多元化產品及服務。

碩果背後是逾20年的攻關之路。黃教授解釋,澳門屬於典型低資源、多語種的環境,中葡或粵普語對,皆缺乏大規模、高質量平行語料,且各領域在表述方式、術語乃至語用習慣上均呈現高度碎片化,加上應用需結合多語、多模態與本地知識庫,從而推高算力門檻。面對限制,黃教授介紹,澳大協同創新研究院聯動了計算機科學、語言學、數據科學等領域,解決平行數據缺失問題,大幅拓寬研究維度;內外聯動的科研資助體系則為經費提供了有力支撐。

隨著語言需求的演變,團隊正致力將機器翻譯變成助力中華文化揚帆出海的工具。由團隊搭建的適用於中國文學的翻譯管線,獲得了WMT 2024年國際機器翻譯大會文學翻譯任務第一名。NLP2CT Lab將以翻譯技術為基礎,針對AI生成內容研發高精度檢測工具,以應對AI可信度挑戰,同時推動AI在科研、教育和文旅領域的深度應用。

於稀缺處尋突破

在數據海洋萃取規律,於海量信息凝練決策,至稀缺之處創造可能——除了技術,還需要敏銳的洞察及不懈的毅力。澳大正以前瞻性的科研戰略,為社會可持續發展注入源源不斷的動力。

文:梁曉珊、校園記者張同羽

圖:編輯部,部分由受訪者提供

英文翻譯:謝菀菁

來源:《澳大新語》第33期

澳門大學45周年校慶特刊系列文章:

校長的話

前瞻性視角深剖中藥功效與作用

卅載「芯」耕築就產業創新

萬能物聯網繪畫智慧城市新圖景

個性化治療開拓健康新路徑

材料工程多點突破顯實力

以科研護航區域海洋可持續發展

開創安全先進的人工智能時代

腦智探索解構人類認知奧秘

以跨學科視野服務社會發展

未來藍圖與展望

澳門大學45周年校慶特刊附錄:

澳門大學45年大事紀要

校慶標誌與口號