亚洲av综合在线观看|中文字幕乱码亚洲无线码|蜜桃AV鲁一鲁一鲁一鲁樱花影院|中文字幕2019年最好看电视剧|精品人妻av一区|91精品国产青草综合久久不卡|亚洲国产一二三精品无码|无码成人一区二区三区入厕偷拍

知道解決
AI將揭開梵蒂岡機(jī)密檔案館之謎
瀏覽201次2018-03-21 15:11

梵蒂岡機(jī)密檔案館(Vatican Secret Archives)被列為世界十大禁地之一,它是羅馬教皇的檔案保管機(jī)構(gòu),也是歐洲教會(huì)中收藏檔案最豐富,最古老的檔案館。

其珍藏的許多文件從未轉(zhuǎn)錄,即便教堂檔案員也對其中隱藏的秘密一無所知。然而,機(jī)器視覺系統(tǒng)將會(huì)揭開中世紀(jì)文本的神秘面紗。

AI將揭開梵蒂岡機(jī)密檔案館之謎

梵蒂岡機(jī)密檔案館頗為傳奇。據(jù)稱,該館保存的往屆教皇的私人信件和其他文件,不少內(nèi)容可追溯至公元8世紀(jì), 排起來可延綿85公里長。

館內(nèi)警戒森嚴(yán),自1881年起,學(xué)者們接觸到的文件極為有限,但其中的信息量卻蔚為可觀。

舉個(gè)例子,一張長達(dá)60米的羊皮紙上記滿了對法國圣殿騎士的審判供詞,這場審判自1307年伊始,持續(xù)數(shù)年。這些信件中,有米開朗基羅的手稿,有國王亨利八世請求廢除婚姻的申請書,還有蘇格蘭女王瑪麗被斬首前的說情信。

此外,檔案中還包含距今較短的通信文件,比如美國南北戰(zhàn)爭時(shí)期,亞伯拉罕·林肯和杰斐遜·戴維斯分別來信,試圖說服教皇庇護(hù)九世支持各自陣營——北方聯(lián)邦和南部邦聯(lián)。還有二戰(zhàn)期間,教皇與納粹政權(quán)的往來信件都從未出版。事實(shí)上,1939年后的所有檔案完全對外保密。

AI將揭開梵蒂岡機(jī)密檔案館之謎

雖然這些文件禁止出版,但檔案館設(shè)有影像備份及檔案保護(hù)工作室。與其他許多歷史檔案館一樣,他們已開始影像備份文件,供學(xué)者深入研究。

但檔案存量過于龐大,光靠人工抄錄備份,根本無法完成。那么,機(jī)器視覺技術(shù)是否能夠起作用?

幸運(yùn)的是意大利羅馬第三大學(xué)的Donatella Firmani及其同事啟動(dòng)了“In Codice Ratio(‘編碼系統(tǒng)’的拉丁文)”項(xiàng)目,旨在開發(fā)能夠自動(dòng)轉(zhuǎn)錄梵蒂岡機(jī)密文件(名為Vatican Registers)的系統(tǒng)。

該語料庫收錄了13世紀(jì)的18,000頁官方信件,覆蓋內(nèi)容極廣,從天主教到國王、王后,從政治到宗教,橫貫歐洲各領(lǐng)域。Firmani及其團(tuán)隊(duì)表示:“這些文件此前從未轉(zhuǎn)錄,因此,歷史意義可謂空前巨大。”

中世紀(jì)文本的特殊性給機(jī)器視覺技術(shù)帶來了諸多挑戰(zhàn)。由于手稿字跡風(fēng)格各異,存在連筆(將相鄰字母連成一筆書寫)和特殊縮略語,因此傳統(tǒng)的視覺識(shí)別算法無法勝任轉(zhuǎn)錄工作。

為解決這一難題,學(xué)者們研發(fā)了識(shí)別整個(gè)單詞(不僅僅是字母)的計(jì)算機(jī)視覺系統(tǒng)。然而效果仍不理想。大多數(shù)單詞在長篇文件中只出現(xiàn)過幾次,所以很難創(chuàng)建滿足機(jī)器學(xué)習(xí)需求的數(shù)據(jù)集。

如今,F(xiàn)irmani及其團(tuán)隊(duì)發(fā)明了訓(xùn)練文字視覺識(shí)別系統(tǒng)的新方法:將單詞拆分為筆劃,再像拼圖一樣將筆劃組合起來。他們表示:“我們想開發(fā)一個(gè)能夠轉(zhuǎn)錄盡可能多手稿的成熟系統(tǒng)。”

系統(tǒng)將單詞拆分為筆劃后,再試圖將筆劃組合成字母,分析所有可能的排列組合方式,最終排除所有不符合語法的組合。

例如,通??蓪⒐P劃組合為“iii”和“m”,因語法錯(cuò)誤排除前者。同樣的筆劃組合還有“in”或“ni”,系統(tǒng)需進(jìn)一步研究整個(gè)單詞及其所處語境,再作出選擇。

Firmani團(tuán)隊(duì)首先創(chuàng)建了一個(gè)數(shù)據(jù)集,訓(xùn)練基于神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺系統(tǒng)。

該數(shù)據(jù)集需要進(jìn)行標(biāo)記處理。因此,視覺系統(tǒng)可學(xué)習(xí)筆劃的排列方式與可能字母的映射。

他們將數(shù)據(jù)標(biāo)記外包出去,將拼圖似的單詞拆分為模式識(shí)別問題(如拼圖式驗(yàn)證碼)呈現(xiàn)給120所高校學(xué)生,讓他們數(shù)小時(shí)內(nèi)共同人工標(biāo)注包含15,000個(gè)單詞的數(shù)據(jù)集。

標(biāo)注結(jié)果十分理想。Firmani團(tuán)隊(duì)稱:“我們能夠準(zhǔn)確轉(zhuǎn)錄數(shù)據(jù)集中65%的字母圖像。”

顯然,這一成果對轉(zhuǎn)錄中世紀(jì)文章和歷史學(xué)家的研究而言意義非凡。但還有更多難題需要攻克。例如,小寫字母的轉(zhuǎn)錄問題仍然存在,因此下一步的關(guān)鍵是擴(kuò)大詞匯量,將大寫字母及中世紀(jì)文本中的縮略語納入數(shù)據(jù)集。

梵蒂岡機(jī)密檔案館將如何利用這一科技尚不得而知,梵蒂岡文件(Vatican Registers)被轉(zhuǎn)錄后是否會(huì)公之于眾也無人知曉。

但即使文件未能出版,F(xiàn)irmani團(tuán)隊(duì)開發(fā)的前沿技術(shù)也能幫助學(xué)者們進(jìn)行相關(guān)領(lǐng)域的深入研究。例如,可利用單詞、詞組頻率及其隨時(shí)間的變化等數(shù)據(jù)展開歷史文件研究。可作為分析歷史文化的重要切入點(diǎn)。

右側(cè)廣告
關(guān)于我們 | 廣告服務(wù) | 會(huì)員服務(wù) | 隱私申明 | 友情鏈接 | 聯(lián)系我們 | 法律顧問 | 網(wǎng)站地圖 | 百方網(wǎng)信用評價(jià)制度 (c)2008-2025 BYF All Rights Reserved
網(wǎng)絡(luò)標(biāo)識(shí)
可信網(wǎng)站識(shí)