星雲大師全集走進國際AI領域 有恆法師發表人間佛教語料庫
5月20日至25日,由語言資源與評測大會(LREC)和計算語言學大會(COLING)聯合舉辦的2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation(LREC-COLING)國際頂尖學術會議,於義大利都靈(Turin)隆重召開。84個國家地區、超過4,000名頂級研究員、專家學者齊聚一堂,共同展示並討論人工智能、自然語言處理領域的最新研究成果。佛光山有恆法師於第一場論壇中,發表〈人間佛教語料庫〉(Humanistic Buddhism Corpus)論文,將《星雲大師全集》投入人工智能領域,受到熱烈反響。
自1965年在紐約首次舉辦以來,COLING已成為計算語言學領域的重要盛會。今年第30屆的會議與LREC聯合舉行,吸引了來自3471篇論文投稿,最終1554篇入圍。主會場由26個專門領域(Tracks)組成,包括275篇現場論壇發表、837篇現場海報展示和442篇遠程報告。此次大會由52位高級領域主席、288位領域主席、2745位審稿人和68位論壇主席共同主持。更設有49個工作坊、產業論壇、還有4場由來自麻省理工學院利維(Roger Levy)教授和清華大學李涓子教授等業界首屈一指的專家主題演講,為歷年之最。
芝加哥佛光山監寺有恆法師作為伊利諾大學芝加哥分校(University of Illinois Chicago)電子與電腦工程博士候選人,發表全學術會議極為罕見與宗教相關的論文:〈人間佛教語料庫:英譯古典與現代中文的挑戰性專業領域數據集〉。有恆法師作為論文第一作者,與其指導教授帕爾德(Natalie Parde)和科雲居(Erdem Koyuncu)共同撰寫。人間佛教語料庫是高質量、完全免費,兼備古漢語與現代漢語複雜的宗教研究語言模型,未來可以廣泛運用在各個複雜專業領域。該研究論文更將人間佛教語料庫以Transformer 模型訓練,提供了神經機械翻譯的基本評測準則,以便未來研究使用。
人間佛教語料庫的三大創新貢獻,驚艷全場。瑞士蘇黎世大學,義大利特倫託大學和英國的學者紛紛表達對這個研究的關注和興趣,並希望討論合作的方式。此語料庫包含81,000個繁體中文和英文的對應語句,由李陳滿、許珍蓉、李性銘、林安曦、徐繡鑾等20多位資深佛光人用2年時間協助分句對比,供神經機器翻譯研究使用。除收錄常用佛教經典,以及100多位古代佛教學者的詩詞和偈語外,語料庫以佛光山開山星雲大師著作為中心。星雲大師一生致力於推廣人間佛教,其395冊全集在線上免費讓大眾閱讀,加上他大量作品已有英譯出版書籍,因此啟發了這項研究的語料庫名稱—人間佛教語料庫。
本次LREC-COLING學術會議除了牛津大學、劍橋大學、史丹佛大學和北京大學等世界各大學師生們參加,更有Google、Microsoft、騰訊、百度等頂級機構參與,把全世界人工智能技術之語言處理的知名學者都匯聚在一起。伊利諾大學芝加哥分校有11篇論文入選此次會議,其中帕爾德教授更是其中一場論壇的主席。這次學術會議的所有錄取論文皆在著名的aclanthology.org線上刊登,而〈人間佛教語料庫〉論文詳情可至https://aclanthology.org/2024.lrec-main.737 閱讀。(人間社惟慈義大利提供)
留言