數位人文雜談：文本分析、細讀與遠讀、詞彙標記

「文本分析」對我來說是一個非常有趣的課題，早在高中時代就非常喜歡「讀者反應理論」，覺得這些文學批評的學者真的是太厲害了XD

現在從事計算機相關領域還可以接觸到這些「先知般」的學科真是很有福份呀 : )

一、淺談文本

講到人文、文本探勘中的核心思想，一定要了解「文本」的概念；究竟什麼是文本呢？

「文本」是「一組再現的符碼所組成的表意結構」；文本(text)拉丁文字源──意為「編織」，用來指作品的「原文」。

過去習以「作品」來稱文學的書寫成果，強調的是「作者」的創造，在 60 年代法國羅蘭巴特提出「作者已死」，認為作品有自己獨立的生命，強調讀者閱讀的愉悅之後，「作品」的說法逐漸被「文本」一詞取代。

傳統語言符號認為符徵有表意作用指向意義的符指；但解構學者認為符徵互相指涉，在它們形成的空間中充份運動，作意義和結構的無窮變化。

文本的三個層次：

文字作品(Written work) : 最傳統的定義。
文化作品(Cultural work) : 廣告、電視劇、電影、攝影、網頁…
文化實做(Cultural practice) : 有但書的，一旦他表達了某種意義，就可以是個文本。可能是建築、可能是衣著... 而到此文本的意義已經被放大了，要解讀這樣層次的文本更需要脈絡的分析。

文本的三個特質：

文本是詮釋的、要被讀
文本是互相關聯的(interrelated)
文本是社會化的，受到不同的社會類屬所影響。例如我們說教育是最重要的社會化過程，而這個過程中就充滿了各種社會化所需要的文本。

二、數位人文的動機：細讀與遠讀

數位人文的動機，起緣於過去在圖書館工作的人文學者對大量文件進行分析；而這些大量文件的分析藉由數位時代的「強化」，可以做到過去難以企及的解析。數位人文相關的論文，主要有以下分類：

單一文件分析(single text)
平行文件分析(parallel text)：與譯文並行放置的文本。
語料庫分析(Corpus)：大量的文本，通常經過整理，具有既定格式與標記

1980年至2015年，從文本編碼運動(Text Encoding Initiative)開始到視覺化(Visualization)，現今在大數據(big data)的推波助瀾下，視覺化已然成為顯學。簡單的說，數位人文可以看作細讀(Close Reading)和遠讀(Distant Reading)的「戰爭」。

細讀：去挖掘文字之下不同的層次，帶來更深的理解。

遠讀：不去「閱讀」，而是用數學工具等方法去拆解重組(可能破壞原始文本)。

細讀和遠讀的結合可以引導讀者進行更深入的認識。視覺化真的帶來知識嗎？人文有形塑生產流程的可能嗎？以數位人文的觀點，我們得以重新檢視人文、歷史等學門的未來與價值。

三、極簡易標記工具簡介：MARKUS、詞夾子工具

1. MARKUS

MARKUS利用已知之詞彙資料庫(人名、別名、地名、官職、時間)去文本中找尋該詞彙是否有出現，若有出現則將之標記起來。

http://dh.chinese-empires.eu/beta/index.html

2. 詞夾子

利用已知詞彙找出夾住該詞彙的前後詞（詞夾）。

http://dev.digital.ntu.edu.tw/DADH-2015/

初始種子詞彙 : 花蓮,太魯閣,金門,沙美,金城鎮,尚義機場,雕塑文化園區,桑園工坊

輸入初始種子詞彙後得到候選詞夾，藉由人工選擇「好」的詞夾

藉由詞彙、詞夾的迭代產生所有的名詞種類(如地名、美食名等)

一共大約跑 3 ~ 5 次迭代即可找到大多數所欲查找的詞彙，這種非常簡單的機器檢索與人工反饋結合效果驚人，大概到第 3 次迭代就可以找到大量正確的詞彙

References

人文學者與數位人文研究 ─ 翁稷安博士 : On close and distant reading in DH a Survey

MARKUS
http://dh.chinese-empires.eu/beta/index.html

拉唧筒 - 文本分析
http://samsaratata.pixnet.net/blog/post/18360844-%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90

詞夾子
http://dev.digital.ntu.edu.tw/DADH-2015/

Pages

2016年4月12日星期二