小說頻道 購物頻道 聊天室 MyGCH 討論區 電子報專區 加入會員 設為首頁 加到我的最愛
遊戲頻道
暱稱:
密碼:
Google
今日熱門話題
天氣溫暖的4月 -- 音樂板 (1)

會員註冊 MyGCH 看新文章 搜尋文章 行事曆 登出系統 新手必看

  遊戲頻道討論區談天說地討論主題 (轉)資料科學中的語言饗宴

作    者 WUALF  E-mail   日    期 2018/02/22 23:37
摘要 (轉)資料科學中的語言饗宴 IP 61.228.172.*

回本討論區 | 寫新話題 | 上一則 | 下一則 | 最後一則 | 則次:588/600    •回討論區目錄到精華區
2016年01月 科學人雜誌 SCIENTIFIC AMERICAN 中文版167 第24頁
網路不打烊 Always Online
撰文/謝舒凱、張俊盛

資料科學中的語言饗宴
語言分析將是巨量資料時代的主菜,語言學家沒有理由悲觀。
撰文/謝舒凱、張俊盛

台灣語言學會在2015年11月舉辦會員大會,會場中瀰漫著對於語言學的現況與未來發展的擔
憂,各大學的語言學研究所都面臨了招生困難的生存危機。大會特別邀請美國國家科學基金
會(NSF)語言學門執行長梅林(Joan Maling)與會,她指出實驗與計算逐漸變成整體語言學發
展的領頭羊,或許代表語言學的危機與轉機。

  
回應
摘    要 RE:(轉)資料科學中的語言饗宴 日期 2018/02/22 23:37
回應人 WUALF 回應對象 ─ WUALF  IP 61.228.172.*
如何從巨量資料發掘知識、輔佐決策、預測未來,大部份要仰賴語言分析。


在下午的計算語言學分項場次,幾位計算語言學者也就「語言學與資料科學」這個主題,從
不同角度分享。首先,台灣大學的高照明與謝舒凱都在「語言學」內融入「資料科學」的可
能性與方向。語言學是研究語言的科學,要回答包羅萬象的語言問題,包括幼童如何習得與
發展語言、語言自身的結構與功能、人類大腦與心理機制如何處理語言、語言的社會及歷史
變異與演化等。隨著巨量資料時代的到來,語言與文本語料中蘊含的訊息,包括文化歷史記
憶、社會心理趨勢、政治輿情傾向、情緒偏好分佈、人格特質與決策,甚至疾病徵兆,都在
在吸引研究者躍躍欲試,想要從中採礦挖寶。不斷產生、累積的巨量資料,其實還是以文字
佔最大宗。所以,如何從巨量資料發掘知識、輔佐決策、預測未來,大部份要仰賴語言分析。

此外,語言學是結構與知識導向的科學,並非需要完全依賴大規模的資料才能運作。美國馬
里蘭大學語言科學研究中心主任飛利浦(Colin Philips)為了長期推動語言學創新研究的人才
培訓,提出一項為期五年的「超越巨量資料」(Beyond Big Data)計畫,獲得NSF 300多萬美
元資助。他在受訪時表示,此計畫目標是「要在沒有巨量資料時,透過人與機器的合作達到
最佳成效。……我們對於人與機器如何共同學習高維、多尺度的資料非常有興趣。今天大家
誇言巨量資料,但是語言科技的未來必須依賴以少搏多。」為了達到破壞性創新,馬里蘭大
學語言學系所也進行了自1960年以來僅見的課程改革,拿掉傳統核心必修課。透過跨學門設
計的新創課程,提升學生的視野、興趣、動手做的能力。

  
摘    要 RE:(轉)資料科學中的語言饗宴 日期 2018/02/22 23:38
回應人 WUALF 回應對象 ─ WUALF  IP 61.228.172.*
這種「讓語言學發揮作用」的想徒也開始影響到最近一、兩年的自然語言處理研究。2015年
最重要的國際計算語言學ACL年會,就把最佳論文獎頒給了一篇結合深度學習與詞彙知識庫
(Word Net)的研究。中央研究院資訊所研究員馬偉雲也提到,該團隊已開始著手詞彙語意知
識庫與深度神經網絡演算法的結合,希望能因而提升語意計算的效能。「知識」與「統計」
的整合,似乎標誌了人類心智能力與機器運算能力攜手合作的願景。

最後,清華大學的張俊盛從機器翻譯的角度,反省了Google翻譯代表的巨量,資料做法。他
以大學考試的一道簡單翻譯題
(some packaged foods we consider safe may contain ingredients harmful to humans.)
為例,凸顯了統計式的巨量資料機器翻譯系統忽略結構,很容易導致可笑的翻譯錯誤
(一些包裝食品,我們認為安全可能含有的成份,對人體無害)。張俊盛從英國語言學家的樣
式文法(pattern grammar)、構式文法(construction grammar)得到啟發,提出語言不僅透過
詞彙傳達意義,結構也承載著意義。他因此倡議用同步樣式文法
(Synchronous pattern grammar)來提供翻譯的結構化模型,也強調不再排除人為語言分析。
所引發的機器翻譯革命憧憬,激勵了在場許多的語言學家。

綜合大家的看法,多年來受到忽略與誤解的語言學,在資料經濟上桌的時代一定會變成主菜
,不會是可有可無的小菜或飯後甜點。台灣與全世界的語言學家,都沒有理由悲觀!

張俊盛是清華大學資訊系教授與中研院台灣國際研究生院教授。

Sa.ylib.com
科學人 24
2016.01

  
回本討論區 | 寫新話題 | 上一則 | 下一則 | 最後一則 | 則次:588/600    •回討論區目錄到精華區

您必須先登入會員才能發言


  本站所報導之產品、畫面及商標、版權分屬各產品公司所有,
其餘圖文版權為本站所有,非經書面同意不得轉載節錄。