上世紀(jì),美國(guó)出現(xiàn)了一位神秘的炸彈客。
從1978年到1996年被捕,17年里,他寄出了16枚炸彈,造成了3人死亡,23人受傷。在這期間,F(xiàn)BI出動(dòng)了500多名特工,花費(fèi)了數(shù)百萬(wàn)美元,也沒(méi)抓到這位“炸彈客”(Unabomber)。
看起來(lái),這是一位行事謹(jǐn)慎的高智商犯罪者:隨機(jī)選擇襲擊目標(biāo),并且?guī)缀鯖](méi)有在現(xiàn)場(chǎng)留下任何可以追溯的證據(jù),比如指紋、頭發(fā)或其他纖維,包括制作炸彈的材料,也無(wú)從追溯購(gòu)買地址,比如用到的木頭看起來(lái)就像是路邊撿來(lái)的垃圾。
06f578c4ffcf24a6a372efd899eb0255.jpg (48.37 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
1987年炸彈客制造的一次爆炸后的炸彈碎片丨FBI
破案的線索,最終落到了“炸彈客”的語(yǔ)言風(fēng)格。
1995年,F(xiàn)BI收到一封信。寄信人說(shuō),那些炸彈都是自己寄的,并且以“停止炸彈攻擊”為條件,要求刊登他的一篇論文,題為《論工業(yè)社會(huì)及其未來(lái)》(Industrial Society & Its Future)。寄信人聲稱,這篇論文可以解釋他的作案動(dòng)機(jī)以及對(duì)社會(huì)弊病的看法。
37c64f7a2df33fd926c485a79d6aa3ea.png (1015.5 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
當(dāng)年的論文原件丨FBI
經(jīng)過(guò)“要不要屈從于恐怖分子”的辯論,F(xiàn)BI決定將這篇論文公開(kāi)發(fā)布,希望有人能認(rèn)出作者。
這篇論文宣稱現(xiàn)代技術(shù)與工業(yè)化嚴(yán)重侵蝕了人類社會(huì),因此需要有人站出來(lái)阻止技術(shù)進(jìn)步,從而拯救全人類。這些極端言論引發(fā)了廣泛討論,“炸彈客”因此被很多極端分子和無(wú)政府主義者視為“英雄”;同時(shí),也引起了民眾的注意。
很快,一位名叫大衛(wèi)·卡辛斯基(David Kaczynski)的群眾通過(guò)律師聯(lián)系了警方,說(shuō)發(fā)現(xiàn)這篇論文的觀點(diǎn)和寫作風(fēng)格都很像自己的兄弟泰德·卡辛斯基(Ted Kaczynski),并提供了一些舊的信件和文章素材。
FBI專家對(duì)這些材料進(jìn)行了語(yǔ)言學(xué)分析,發(fā)現(xiàn),除了“科技有罪”的論點(diǎn),還有很多寫作風(fēng)格都和公開(kāi)的炸彈客的論文相符,比如,格式、標(biāo)點(diǎn)和獨(dú)特的拼寫(炸彈客的論文發(fā)布之前,F(xiàn)BI就注意到,論文里的“analyse”一詞采用了英式拼寫)——但這些證據(jù)不足以讓他們簽署搜查令。
關(guān)鍵證據(jù)來(lái)自一封信,里面有一句“you can’t have your cake and eat it, too”,在炸彈客的論文第185段,也使用了同樣的措辭。以此為突破口,警方最終在美國(guó)蒙大拿州一處偏遠(yuǎn)的小木屋中找到并逮捕了炸彈客本人,也就是泰德·卡辛斯基。
04e6dd3446a52507fdd44613211d9f30.png (54.92 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
“you can’t have your cake and eat it, too” 丨參考文獻(xiàn)[5]
資料顯示,泰德·卡辛斯基的智商高達(dá)167,16歲就被哈佛大學(xué)數(shù)學(xué)系錄取,25歲就成為加州大學(xué)伯克利分校歷史上最年輕的數(shù)學(xué)系助理教授——這樣一位瘋狂的高智商反社會(huì)炸彈客,最后敗露于自己的行文風(fēng)格。
b62cf1a02dee74fd2f514d0dfda370f8.png (257.73 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
“炸彈客”泰德·卡辛斯基(Ted Kaczynski)丨FBI
“去目的地得打的”
在刑偵工作中,能夠追溯一個(gè)人身份的方法有很多,比如指紋、虹膜、DNA等,都是獨(dú)一份兒的身份標(biāo)識(shí)。
其實(shí),語(yǔ)言和寫作風(fēng)格也能夠用來(lái)確認(rèn)身份,比如,上文中的炸彈客就是被自己兄弟辨認(rèn)出了寫作風(fēng)格。調(diào)查這宗案件的FBI調(diào)查員曾說(shuō):“沒(méi)有兩個(gè)人會(huì)寫得一樣(No two people write alike)!
一個(gè)人在書寫或者打字時(shí),會(huì)形成一些特定的詞語(yǔ)用法,而這點(diǎn)小線索,就像文字上的指紋,可以讓我們分辨這篇文字到底出自誰(shuí)手。這種將文章書寫特征作為“指紋”來(lái)判斷作者的技術(shù),叫做“作者識(shí)別”(Author Verification)。有一門叫做“刑偵語(yǔ)言學(xué)(Forensic Linguistics)”的學(xué)問(wèn),就是專門研究書寫或語(yǔ)言的表達(dá)方式,來(lái)分析案情中嫌疑人或被害者的身份信息。
2018年,《紐約時(shí)報(bào)》刊登了一篇匿名文章《我是特朗普政府中的一名抵抗者》,作者自稱是白宮的工作人員,對(duì)當(dāng)時(shí)的美國(guó)政壇一頓批評(píng)。這可把時(shí)任總統(tǒng)特朗普氣得不輕,表示一定要揪出這個(gè)“內(nèi)鬼”。這時(shí),作者識(shí)別就有了用武之地。有人發(fā)現(xiàn),在這封匿名信中出現(xiàn)了“北極星(lodestar)”,而當(dāng)時(shí)的副總統(tǒng)彭斯就特別愛(ài)用這個(gè)詞。后者當(dāng)然趕緊出來(lái)否認(rèn)。
9a2fac49ba709e99a69ec5c84a6cc9be.png (29.92 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
《紐約時(shí)報(bào)》發(fā)表的匿名文章 丨《紐約時(shí)報(bào)》發(fā)表的匿名文章
作者識(shí)別有很多流派和技巧。比如,特定年代的用語(yǔ)可以判斷書寫者所處的年份(“你是GG還是MM”,“你媽喊你回家吃飯”,“神馬都是浮云”這些當(dāng)年爆火的流行語(yǔ)如今已經(jīng)成了時(shí)代的眼淚);一些特定詞匯的使用也可以體現(xiàn)作者的職業(yè)(比如,總是把閉環(huán)、抓手、賦能這些詞掛在嘴邊的,很大可能是互聯(lián)網(wǎng)從業(yè)人員)。
這些流派在分析時(shí),大多以實(shí)詞作為依據(jù)。實(shí)詞,比如名詞、動(dòng)詞、形容詞之類,一般會(huì)用來(lái)表達(dá)具體的意思。但是,使用實(shí)詞分析會(huì)面臨一個(gè)問(wèn)題:作者在撰寫不同的內(nèi)容時(shí),會(huì)用到不同體系的實(shí)詞。比如,一個(gè)生物學(xué)家兼職寫作言情小說(shuō)。在工作時(shí),他會(huì)用到大量的生物術(shù)語(yǔ);而在夜班碼字時(shí),可能會(huì)用到很多情情愛(ài)愛(ài)的詞匯。所以,用實(shí)詞來(lái)判斷作者時(shí),容易被不同文體間的轉(zhuǎn)換干擾。
比起實(shí)詞,副詞、介詞、連詞等虛詞通常就沒(méi)啥確定的含義,即使寫不同題材的文章,虛詞的使用頻率也大體不變。有人做過(guò)統(tǒng)計(jì),在漢語(yǔ)文章中,“的”字的出現(xiàn)頻率大約是每10字出現(xiàn)0.45次,是所有人都最常用的漢字之一 。同樣,“地”、“得”、“嗎”、“呢”之類虛詞的出現(xiàn)頻率,也幾乎不受文章內(nèi)容的影響,更能反映作者的寫作習(xí)慣。
9db1202dc4a5925c65cdba475b13a4c4.jpg (33.38 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
容易混用的“的地得”三兄弟
在中國(guó),最知名的作者識(shí)別案例,當(dāng)屬“《紅樓夢(mèng)》后40回作者懸案”!都t樓夢(mèng)》全書120回,目前公認(rèn)的說(shuō)法是曹雪芹寫了前80回,高鶚續(xù)寫了后面的40回。1970年,紅學(xué)家趙岡,就用 “的”、“了”、“在”、“兒”、“著” 這五個(gè)字的出現(xiàn)頻率來(lái)研究紅樓夢(mèng)的作者問(wèn)題,得出了前80回和后40回確實(shí)出自不同人之手。
這項(xiàng)研究中用了5個(gè)字,其中3個(gè)都是虛詞。
用算法在文學(xué)圈證明“你是你”
與曹雪芹類似,國(guó)外也有那么幾個(gè)大作家,需要后世學(xué)者來(lái)給其名下的作品掌掌眼,比如英國(guó)文豪莎士比亞。
f3b36dc5e5a977921975b14b8fc65151.png (507.59 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
威廉·莎士比亞丨John Taylor / Wikimedia Commons
很多文學(xué)研究者認(rèn)為莎士比亞的一些作品其實(shí)也是他人續(xù)寫的,其中就包括名作《亨利八世》。
《亨利八世》是莎翁晚期的作品。晚年的莎士比亞一直擔(dān)任King’s Men劇團(tuán)的劇作家,他去世后,約翰·弗萊徹接替了這個(gè)職務(wù)。因此,有人“合理”懷疑弗萊徹續(xù)寫、甚至修改了《亨利八世》。
850622661bf1e5fd913909f6d37f42f3.jpg (107.54 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
亨利八世和家人 丨Unknown author / Wikimedia Commons
1850年,文學(xué)評(píng)論家詹姆斯·斯派。↗ames Spedding)提出了一些證據(jù):在《亨利八世》書稿中,有時(shí)會(huì)用ye代替you,或用em代替them,而這些都是弗萊徹的行文習(xí)慣。
當(dāng)然,相關(guān)的說(shuō)法一直存在爭(zhēng)議。即便是二人合著,也沒(méi)法判斷到底這部作品中,莎翁和弗萊徹各自貢獻(xiàn)了多少。
然而,隨著技術(shù)的進(jìn)步,特別是機(jī)器學(xué)習(xí)算法的成熟,有人就想用新方法來(lái)解開(kāi)《亨利八世》的謎題。
2019年,一位名叫彼得·普萊查(Petr Plecháč)的研究員說(shuō)自己有了答案。這位來(lái)自捷克科學(xué)院的學(xué)者,使用機(jī)器學(xué)習(xí)算法來(lái)識(shí)別劇本的每一行文字,然后讓機(jī)器來(lái)判斷作者是誰(shuí)。
為了訓(xùn)練算法,得出優(yōu)化模型,彼得先是翻出與《亨利八世》同時(shí)期的其他莎翁著作,包括《冬天的故事》、《暴風(fēng)雨》等。然后,他將這些著作變成一行行數(shù)據(jù),喂給了算法,再讓程序能識(shí)別莎士比亞的單詞和語(yǔ)句模式。同樣,彼得也找來(lái)了不少弗萊徹所寫的劇本,讓算法進(jìn)行學(xué)習(xí)。最后,這個(gè)經(jīng)過(guò)訓(xùn)練的算法就可以成為一名裁判,來(lái)分辨《亨利八世》的內(nèi)容到底出自誰(shuí)人之手。
131e614a8b260d5489d7b3106ee25099.png (37.13 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
S代表莎士比亞,F(xiàn)代表弗萊徹,帶下標(biāo)的數(shù)字表示給定段落的最后一行丨參考文獻(xiàn)[8]
人工智能的分析結(jié)果證實(shí)了斯派丁的猜測(cè)——弗萊徹確實(shí)參與了《亨利八世》的撰寫。而且,根據(jù)算法的分析,弗萊徹貢獻(xiàn)還不小,有一半左右的劇本都出自他筆下。甚至,算法還能精確地指出哪些段落是莎士比亞自己寫的,而哪些是弗萊徹所寫。比如,算法分析了第二幕第三場(chǎng),前1261行是莎士比亞所寫,而1261~1299行的作者則是弗萊徹,隨后又轉(zhuǎn)回莎士比亞。
當(dāng)然,真相早已埋沒(méi)在歷史洪流之中,現(xiàn)代學(xué)者能做的,只是基于概率來(lái)做出合理的推測(cè)。對(duì)于成名的作家來(lái)說(shuō),即使部分作品存在捉刀人,也不能撼動(dòng)其文學(xué)地位。
不過(guò),有些作家面臨的狀況就更窘迫些了,因?yàn)橛泻笕藨岩善渌凶髌范疾皇亲约簩懙摹▏?guó)劇作家莫里哀就遭到了這樣的全盤否定。
6038aaae07e6b9080251373bab21dfc1.png (202.72 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
莫里哀畫像丨Pierre Mignard / Wikimedia Commons
寫出過(guò)《吝嗇鬼》、《偽君子》等名作的莫里哀,在法國(guó)人民心中的地位和莎士比亞在英國(guó)人心中的地位差不多。
然而,幾百年后,有人開(kāi)始懷疑莫里哀并沒(méi)有寫過(guò)劇本,說(shuō)他其實(shí)是個(gè)欺世盜名之徒,理由包括:首先,根據(jù)歷史記載,莫里哀是當(dāng)時(shí)的知名演員,一輩子幾乎都在旅行和巡演,哪有時(shí)間寫劇本?再者,人們從沒(méi)發(fā)現(xiàn)過(guò)莫里哀親筆簽名的原稿。
還有評(píng)論家列出了幾位可能的“槍手”人選,其中呼聲最高的,是一位名叫皮埃爾·科尼耶(Pierre Corneille)的劇作者。有人甚至據(jù)此腦補(bǔ)了一出“代筆大戲”:受過(guò)良好教育的科尼耶,寫了這些劇本,然后簽上莫里哀的名字,這樣可以利用莫里哀的明星效應(yīng),讓劇本更受歡迎。
“代筆疑云”中的這些當(dāng)事人早已長(zhǎng)眠地下,沒(méi)法出來(lái)對(duì)證。于是,探案工作又交到了機(jī)器手中。
445f5d67c170284f24b4fc3ee39717bf.png (232.02 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
2021-11-6 10:41 上傳
“Why Molière most likely did write his plays” 丨參考文獻(xiàn)[9]
2019年,兩位法國(guó)學(xué)者在學(xué)術(shù)期刊《科學(xué)進(jìn)展》 (Science Advances)上發(fā)表了一篇論文,題為“Why Molière most likely did write his plays(為什么說(shuō)莫里哀很可能寫了他的劇本)”。
看論文標(biāo)題,就知道這項(xiàng)研究一定十分嚴(yán)謹(jǐn)。
研究者收集了莫里哀、科尼耶以及其他10位同時(shí)代作家的作品,將這些作品輸入計(jì)算機(jī)程序,并統(tǒng)計(jì)了每個(gè)作者對(duì)虛詞的使用頻率。為了力求準(zhǔn)確,他們還分析了詞匯、詞綴、語(yǔ)法等方方面面,最終提煉出了每個(gè)作者的行文特征。
經(jīng)過(guò)海量的數(shù)據(jù)收集、復(fù)雜的統(tǒng)計(jì)學(xué)分析,配合優(yōu)化的機(jī)器學(xué)習(xí)算法,這兩位法國(guó)學(xué)者心滿意足地敲下了論文的結(jié)論:
“These conclusions strongly substantiate the idea that Molière indeed wrote his own plays! (這些證據(jù)強(qiáng)烈表明:莫里哀的劇本確實(shí)是莫里哀寫的)。
參考文獻(xiàn):
[1]Jankowska, M., Milios, E., & Keselj, V. (2014, August). Author verification using common n-gram profiles of text documents. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers (pp. 387-397). [2]https://www.fbi.gov/history/famous-cases/unabomber [3]https://www.fbi.gov/news/stories/the-words-of-a-killer-the-unabomber-case-25-years-later-040221
[4]https://www.fbi.gov/news/podcasts/inside-the-fbi-the-unabomber-case-040821 [5]Kaczynski, B. T. . INDUSTRIAL SOCIETY AND ITS FUTURE (1995). [6]孫曉明, & 馬少平. (2001). 基于寫作風(fēng)格的作者識(shí)別. In 見(jiàn): 中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集. 北京: 清華大學(xué)出版社. [7]趙岡、陳鐘毅,《紅樓夢(mèng)新探》,1970 [8]Plecháč, P. (2019). Relative contributions of Shakespeare and Fletcher in Henry VIII: An analysis based on most frequent words and most frequent rhythmic patterns. Digital Scholarship in the Humanities. [9]Cafiero, F., & Camps, J. B. (2019). Why Molière most likely did write his plays. Science Advances, 5(11), eaax5489.
作者:圓的方塊
本文來(lái)自果殼(ID:Guokr42),未經(jīng)授權(quán)不得二次轉(zhuǎn)載,如有需求請(qǐng)聯(lián)系sns@guokr.com
|