在每次點讚、每筆買賣甚至每次心跳都可化為數據記錄下來的今天,澳門大學的專家和學生正在將數據化為實用見解,涵蓋人文、工商管理、教育、健康科學、法學、科技和社會科學等領域,觸及全校所有學院,不僅引發學術創新,也對澳門和其它地區的進步有所貢獻。
以數據規劃未來
「現在的時間與過去的時間,或許皆是未來的時間。」從詩人T·S·艾略特這句話,我們或可領略到數據的關鍵之處。它們不只是歷史的殘跡,也是解讀當下和規劃未來的要素。澳大協同創新研究院數據科學研究中心主任余亮豪教授指出:「科技進步使數據能不僅能反映事物和環境,也成為推動創新的重要力量。無論是數字、文字、圖像、聲音或影像,各類數據都促使我們取得了十年前難以想像的科技突破。」
余亮豪是電腦及資訊科學系副教授,研究專長包括大數據處理與強化學習。他表示,數據科學家不斷開發新方法來更有效地解讀數據,獲得新的洞見。「這個領域融合統計、數據分析、機器學習與計算機科學,可在我們日常生活與工作中廣泛應用。此外,機器學習與數據科學密不可分。機器學習主要是指電腦算法通過數據來學習,提升執行任務的效能,其進展也能反過來提高收集和分析數據的效率。」
新一代數據科學家
數據科學研究中心與澳大七所學院合辦理學碩士學位(數據科學)課程,是澳門首個跨學科大數據課程,自2019年8月推出起報讀人數逐年攀升。學生須從八個專業範疇中選擇其一,分別是人工智能應用、市場營銷分析、金融科技、數據戰略與合規管理、精準醫學、計算語言學、教學分析和智慧政務。
學生須修讀由澳大科技學院開設的四門基礎科目,學習數據科學編程、數據可視化、數據庫技術、機器學習工具的知識與技能,並且選修四門屬於其專業範疇、由相應學院開設的科目。他們亦會探討從數據使用與收集而衍生的私隱、安全和倫理問題,研究數據科學技術對社會各方面的影響。
余教授說:「每名學生畢業前要完成一個研究項目,融會數據科學技巧與專業範疇知識。畢業生可望在各行各業擔任數據工程師、分析師或科學家等。」
跨學科數據研究
除了促進教育,數據科學研究中心也是一個跨學科研究平台,有16名來自各學院的成員參與研究。其中,該中心聯合法律與資訊技術領域的專家,探究科技在私隱保護上的角色、發展相應的科技和提出政策建議。中心的學者還結合健康科學、科技和藥物方面的研究,開發針對罕見疾病和常見癌症的精準療法。
在澳門積極發展現代金融業之際,數據科學研究中心也扮演支持角色,透過數據分析和研究促進金融業發展,包括以大數據技術開創嶄新的應用、流程、產品和商業模式。該中心也協助澳大各學院在語言學、公共行政和數據合規等領域應用數據科學。余教授指出:「新冠疫情期間,我們中心的研究人員設計了澳門新冠疫情數據可視化系統,協助市民了解和應對疫情變化。」
在教育與研究以外,中心也促進跨學科對話與合作,例如曾舉辦關於跨境數據使用的圓桌會議和學生治理數據分析比賽。2023年9月,中心還主辦「第一屆澳門數據科學研討會」,匯聚大數據處理、市場營銷分析、精準醫學、智慧政務等多領域的專家。
解讀和改善社會
社會現象複雜多變,過去缺乏全面和系統的預測方法,但數據科學的進步正帶來轉變。社會科學學院副院長、社會學系主任蔡天驥教授是數據科學研究中心的成員,不斷開展計算社會科學研究:「我有兩個主要研究方向,首先是運用數據科學來解決社會問題,其次是將預測性分析融入社會科學研究。在數據能實時更新的今日,我們也可實時驗證社會現象預測的準確性。」
蔡教授說,數據與機器學習模型在提供及研究公共服務上已不可或缺。例如,他在近年一項關於預測澳門固體廢物量增長的研究中,開發了多種機器學習模型,發現「廣義加性模型」的預測最為精確。「澳門固體廢物來源眾多,受家庭結構、遊客流量和建築業發展的影響,人均固體廢物量在世界前列,遠超香港、上海和新加坡等地。」
蔡教授進一步指出,澳門家庭結構的變化與少子化不僅會影響未來的廢物總量,亦會改變廢物種類的比例:「一些小家庭,特別是沒有子女的家庭,可能常常點外賣,而非在家裡煮飯,塑膠餐具用量因此增加。」他期望開發更全面的模型,預測廢物總量及各類廢物的數量,協助規劃廢物分類與處理設施。
探究傳播過程
數據科學也深化了我們對個人和群體溝通的認識。傳播系講座教授、數據科學研究中心成員趙心樹致力運用大數據分析方法探索傳播學議題。他說:「在網絡發達的今日,人們可獲得豐富和即時的資訊,但也更容易只接收到與自己觀點相符的資訊,這可能使大眾意見愈趨分歧。研究這些問題時必須借助大數據作精確分析。」
趙教授進一步說,在社交媒體環境中,資訊的發佈、接收和轉發都會形成「選擇螺旋」:「在我們研究的內地社交媒體平台,帖文發佈者在初期的『選擇螺旋』中較能主導螺旋的走向,但後來的螺旋會愈來 受點讚、轉發及讀者的偏好影響,形成網絡輿論的『同音效應』。」
在近年一項研究中,趙教授等學者透過大數據技術收集和分析社交媒體帖文,了解標題長度對點讀率和點轉率的影響。研究發現,點讀群體偏好中等長度的標題,約28字為最佳;但點轉群體傾向更短的標題,最好不過20字。「這些發現有助我們理解內地網絡輿論,也為市場推廣提供參考。」
各行各業應用數據科學
數據科學不僅串聯過去、現在和未來,也能連接不同的人物和事物。余亮豪教授指出:「透過充分的跨學科合作,數據科學研究中心正在培養新一代數據科學家,並且廣泛開展跨學科研究,推動深度知識探索和建立預測機制與模型,引導數據科學在生活各層面的應用,提升新興科技產業發展,貢獻社會。」
文 / 葉浩男
圖 / 何杰平、編輯部
來源:《澳大新語》第28期