「文本分析」對我來說是一個非常有趣的課題,早在高中時代就非常喜歡「讀者反應理論」,覺得這些文學批評的學者真的是太厲害了XD
現在從事計算機相關領域還可以接觸到這些「先知般」的學科真是很有福份呀 : )
一、淺談文本
講到人文、文本探勘中的核心思想,一定要了解「文本」的概念;究竟什麼是文本呢?
「文本」是「一組再現的符碼所組成的表意結構」;文本(text)拉丁文字源──意為「編織」,用來指作品的「原文」。
過去習以「作品」來稱文學的書寫成果,強調的是「作者」的創造,在 60 年代法國羅蘭巴特提出「作者已死」,認為作品有自己獨立的生命,強調讀者閱讀的愉悅之後,「作品」的說法逐漸被「文本」一詞取代。
傳統語言符號認為符徵有表意作用指向意義的符指;但解構學者認為符徵互相指涉,在它們形成的空間中充份運動,作意義和結構的無窮變化。
文本的三個層次:
- 文字作品(Written work) : 最傳統的定義。
- 文化作品(Cultural work) : 廣告、電視劇、電影、攝影、網頁…
- 文化實做(Cultural practice) : 有但書的,一旦他表達了某種意義,就可以是個文本。可能是建築、可能是衣著... 而到此文本的意義已經被放大了,要解讀這樣層次的文本更需要脈絡的分析。
文本的三個特質:
- 文本是詮釋的、要被讀
- 文本是互相關聯的(interrelated)
- 文本是社會化的,受到不同的社會類屬所影響。例如我們說教育是最重要的社會化過程,而這個過程中就充滿了各種社會化所需要的文本。
二、數位人文的動機:細讀與遠讀
數位人文的動機,起緣於過去在圖書館工作的人文學者對大量文件進行分析;而這些大量文件的分析藉由數位時代的「強化」,可以做到過去難以企及的解析。數位人文相關的論文,主要有以下分類:
- 單一文件分析(single text)
- 平行文件分析(parallel text):與譯文並行放置的文本。
- 語料庫分析(Corpus):大量的文本,通常經過整理,具有既定格式與標記
1980年至2015年,從文本編碼運動(Text Encoding Initiative)開始到視覺化(Visualization),現今在大數據(big data)的推波助瀾下,視覺化已然成為顯學。簡單的說,數位人文可以看作細讀(Close Reading)和遠讀(Distant Reading)的「戰爭」。
細讀:去挖掘文字之下不同的層次,帶來更深的理解。
遠讀:不去「閱讀」,而是用數學工具等方法去拆解重組(可能破壞原始文本)。
細讀和遠讀的結合可以引導讀者進行更深入的認識。視覺化真的帶來知識嗎?人文有形塑生產流程的可能嗎?以數位人文的觀點,我們得以重新檢視人文、歷史等學門的未來與價值。
三、極簡易標記工具簡介:MARKUS、詞夾子工具
1. MARKUS
MARKUS利用已知之詞彙資料庫(人名、別名、地名、官職、時間)去文本中找尋該詞彙是否有出現,若有出現則將之標記起來。
http://dh.chinese-empires.eu/beta/index.html
2. 詞夾子
利用已知詞彙找出夾住該詞彙的前後詞(詞夾)。
http://dev.digital.ntu.edu.tw/DADH-2015/
初始種子詞彙 : 花蓮,太魯閣,金門,沙美,金城鎮,尚義機場,雕塑文化園區,桑園工坊
輸入初始種子詞彙後得到候選詞夾,藉由人工選擇「好」的詞夾
一共大約跑 3 ~ 5 次迭代即可找到大多數所欲查找的詞彙,這種非常簡單的機器檢索與人工反饋結合效果驚人,大概到第 3 次迭代就可以找到大量正確的詞彙
References
人文學者與數位人文研究 ─ 翁稷安博士 : On close and distant reading in DH a Survey
MARKUS
http://dh.chinese-empires.eu/beta/index.html
拉唧筒 - 文本分析
http://samsaratata.pixnet.net/blog/post/18360844-%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90
詞夾子
http://dev.digital.ntu.edu.tw/DADH-2015/