摘要:《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》明確指出要應(yīng)用人工智能助力檔案管理工作轉(zhuǎn)型升級(jí),并與數(shù)字檔案館(室)建設(shè)相結(jié)合。生成式人工智能應(yīng)用于檔案管理已經(jīng)是大勢(shì)所趨。基于“未來已來”的數(shù)智時(shí)代背景,筆者以檔案工作為例,從爆火的ChatGPT談起,結(jié)合國(guó)內(nèi)外有關(guān)研究和應(yīng)用案例,總結(jié)概括生成式人工智能給檔案檢索查閱、檔案編研、價(jià)值挖掘、公開共享和開放審核等方面的工作帶來的機(jī)遇,分析可能存在的信息安全、網(wǎng)絡(luò)安全、網(wǎng)絡(luò)犯罪和知識(shí)產(chǎn)權(quán)等方面的風(fēng)險(xiǎn)并提出針對(duì)性建議,為檔案領(lǐng)域更廣泛和深入應(yīng)用生成式人工智能提供參考。
《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》對(duì)數(shù)智時(shí)代檔案事業(yè)發(fā)展提出了新的要求和挑戰(zhàn)。檔案作為基礎(chǔ)性文化資源和戰(zhàn)略性信息資源,對(duì)國(guó)家各項(xiàng)事業(yè)的支撐性作用愈加明顯。近年來,經(jīng)互聯(lián)網(wǎng)、大數(shù)據(jù)、區(qū)塊鏈、機(jī)器學(xué)習(xí)和Web3.0等技術(shù)的出現(xiàn)為檔案行業(yè)帶來了諸多變革,而ChatGPT(Chat Generative Pre-trained Transformer)的橫空出世更是給檔案工作創(chuàng)造了無限的遐想空間。借助新技術(shù)新方法,創(chuàng)新檔案治理理念、范式和路徑,推動(dòng)檔案事業(yè)數(shù)字化轉(zhuǎn)型和智慧化升級(jí)顯得重要而迫切。作為在一線奮斗近30年的檔案工作者,筆者認(rèn)為具有強(qiáng)大信息整合能力、自然語(yǔ)言處理能力和多模態(tài)交互能力的智能工具ChatGPT深度影響檔案事業(yè)已經(jīng)成為必然;ChatGPT將是引起檔案事業(yè)發(fā)展模式嬗變之肇始,是“未來已來”的重要標(biāo)志。
吉林省檔案館新館晨曦
ChatGPT給檔案工作帶來新機(jī)遇
ChatGPT是由OpenAI公司于2022年底推出的一款基于深度學(xué)習(xí)技術(shù)的人工智能模型,該模型采用大規(guī)模文本語(yǔ)料的無監(jiān)督訓(xùn)練方式,模擬人類自然語(yǔ)言處理能力,直接根據(jù)前文內(nèi)容,對(duì)文本進(jìn)行編碼和解碼,自動(dòng)生成后續(xù)文本,是典型的生成式人工智能。
第一,生成式人工智能與檔案事業(yè)發(fā)展需求高度匹配。
一是檔案行業(yè)可為ChatGPT提供巨量數(shù)據(jù)。ChatGPT通過對(duì)海量的信息進(jìn)行深度學(xué)習(xí),模擬人類的反應(yīng)做出反饋和回答。檔案領(lǐng)域特別適合ChatGPT“訓(xùn)練容量大”“支持多元輸出”“專業(yè)領(lǐng)域內(nèi)學(xué)習(xí)能力更強(qiáng)”等特點(diǎn),將給ChatGPT等生成式人工智能技術(shù)發(fā)展和應(yīng)用提供更廣闊的空間。
二是非結(jié)構(gòu)化的檔案數(shù)據(jù)實(shí)現(xiàn)智能化管理需要ChatGPT等生成式人工智能技術(shù)。ChatGPT具有的非結(jié)構(gòu)化提取、海量信息訓(xùn)練、跨專業(yè)跨語(yǔ)言輸入輸出等特點(diǎn),能夠較好地解決檔案智能化管理中的傳統(tǒng)難題,能夠適應(yīng)檔案材料語(yǔ)言種類繁多、無需進(jìn)行翻譯處理,能夠全面充分地抽取檔案中蘊(yùn)含的歷史、文化、政治、經(jīng)濟(jì)、對(duì)外交流等各方面信息,降低檔案館等文化機(jī)構(gòu)在檔案、整理、數(shù)字化、分類、索引和智能化處理等工作強(qiáng)度,提高檔案資料的管理水平和利用效率,最大化發(fā)掘其中的知識(shí)價(jià)值。
第二,ChatGPT在檔案領(lǐng)域的應(yīng)用方向。
筆者認(rèn)為,ChatGPT在檔案領(lǐng)域的應(yīng)用主要體現(xiàn)在六個(gè)方面。
一是可以助力檔案信息智能檢索。ChatGPT具備去偽存真、去粗取精的加工和匯總能力,可以通過對(duì)話不斷修正、聚焦、鎖定,根據(jù)查詢語(yǔ)句和檔案記錄之間的相似度,匹配最佳的檔案記錄給用戶利用??梢越鉀Q“搜不準(zhǔn)、搜不到、搜不好”的問題,從而提高檔案檢索效率和實(shí)際效果。
二是可以創(chuàng)新檔案編研模式。傳統(tǒng)的檔案編研是以編研人員對(duì)檔案資料內(nèi)容的熟練掌握和對(duì)某一專業(yè)領(lǐng)域的精通為基礎(chǔ)的,而檔案資料的質(zhì)量和數(shù)量又從客觀上制約著檔案編研成果的質(zhì)量。以吉林省檔案館館藏的日本侵華檔案為例,吉林省檔案館館藏日本侵華時(shí)期檔案10萬余卷(件),真實(shí)地記錄了日本帝國(guó)主義對(duì)華的侵略活動(dòng),是揭露日本軍國(guó)主義罪行的鐵證,但由于日軍為銷毀侵略罪證而對(duì)檔案采取的焚燒、填埋等破壞手段,目前仍有部分檔案內(nèi)容殘缺或者不成體系,導(dǎo)致檔案編研人員無法完整還原侵華日軍的罪行,成為難以產(chǎn)生編研成果的“孤品”和“孤證”。ChatGPT的應(yīng)用將會(huì)大幅度還原日本侵華的種種罪行,產(chǎn)生大量無可辯駁的編研成果,對(duì)紀(jì)念中華民族和世界反法西斯勝利具有重大意義。
三是可以深度挖掘海量檔案潛在價(jià)值。檔案部門借助ChatGPT不僅能夠大量節(jié)約人力,而且能夠通過系統(tǒng)對(duì)比檔案內(nèi)容形成新發(fā)現(xiàn),發(fā)現(xiàn)海量檔案信息間的共性或緊密關(guān)聯(lián),為深入研究提供新的切入點(diǎn)和靈感。
四是可以提高政府信息公開和資源共享水平。群眾申請(qǐng)公開政府信息,需要到制作或獲取該政府信息的行政機(jī)關(guān)進(jìn)行申請(qǐng),并需要提供該政府信息的名稱、文號(hào)或者其他特征性描述。通過引入ChatGPT等生成式人工智能技術(shù),將有效化解上述問題,提高政府信息公開和資源共享水平,為政府與民眾溝通開辟新的智能界面。
五是可以輔助檔案開放審核。數(shù)量龐大的館藏檔案數(shù)據(jù)開放審核是檔案共享利用的重要基礎(chǔ)。傳統(tǒng)的開放審核主要依靠檔案管理人員長(zhǎng)年累積的劃控經(jīng)驗(yàn),審核標(biāo)準(zhǔn)具有一定的主觀性。ChatGPT等生成式人工智能的技術(shù)特點(diǎn),能夠有效解決長(zhǎng)期制約館藏檔案開放的基礎(chǔ)性業(yè)務(wù)瓶頸問題,取代簡(jiǎn)單和重復(fù)的公共部門工作。
六是可以增加檔案知識(shí)趣味和文化魅力。ChatGPT能夠助力檔案宣傳,講好檔案故事,能夠?yàn)闄n案工作營(yíng)造良好環(huán)境。通過對(duì)大量的檔案文本和相關(guān)圖片進(jìn)行處理和分析,從檔案材料中提取相關(guān)的知識(shí)和信息,發(fā)掘出充滿生機(jī)活力的有趣的檔案故事,檔案的中國(guó)精神、民族情感、人生哲理,更容易引起人們的情感共鳴,通過形象打動(dòng)人,通過情感感染人,通過道理影響人,通過作用帶動(dòng)人,引導(dǎo)社會(huì)各界和人民群眾參與檔案事業(yè),充分發(fā)揮檔案工作存史、資政、育人的重要作用。
生成式人工智能應(yīng)用于檔案領(lǐng)域存在的風(fēng)險(xiǎn)
ChatGPT發(fā)布以來,全球競(jìng)逐AI賽道。然而,生成式人工智能技術(shù)引發(fā)的爭(zhēng)議也越來越多,當(dāng)前,人們對(duì)ChatGPT擔(dān)憂主要有四個(gè)方面。信息安全問題。當(dāng)前的ChatGPT由國(guó)際金融大資本支持的跨國(guó)高科技企業(yè)所研發(fā),對(duì)我國(guó)來說存在巨大的技術(shù)“黑箱”。網(wǎng)絡(luò)犯罪問題。ChatGPT可能被不法分子惡意使用,對(duì)開放性公共平臺(tái)的登錄頁(yè)面進(jìn)行修改,從而肆意地進(jìn)行網(wǎng)絡(luò)犯罪行為。侵犯隱私問題。ChatGPT需要使用大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練和處理,如果數(shù)據(jù)泄露或被惡意利用,將會(huì)對(duì)個(gè)人隱私造成威脅。知識(shí)產(chǎn)權(quán)問題。ChatGPT抓取大量受著作權(quán)法保護(hù)的第三方文字作品內(nèi)容投入數(shù)據(jù)庫(kù)作為訓(xùn)練素材,將觸及著作權(quán)侵權(quán)、挖掘行為授權(quán)、二次創(chuàng)作許可等問題。
檔案工作者擁抱生成式人工智能技術(shù)的對(duì)策建議
我們應(yīng)當(dāng)以理性的眼光看待科技的進(jìn)步,發(fā)展機(jī)遇和風(fēng)險(xiǎn)挑戰(zhàn)并存,主動(dòng)做好的應(yīng)對(duì)防范措施。檔案部門應(yīng)積極接受突破性技術(shù)的賦能,推動(dòng)檔案事業(yè)發(fā)展智能化發(fā)展。
第一,高舉旗幟,努力踐行習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義思想,推動(dòng)檔案事業(yè)高質(zhì)量發(fā)展。做好新時(shí)代檔案工作,關(guān)鍵是要深學(xué)細(xì)悟習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義思想的核心要義、精神實(shí)質(zhì)、豐富內(nèi)涵和實(shí)踐要求,及習(xí)近平總書記關(guān)于檔案工作重要指示批示精神,做到了然于胸、融會(huì)貫通,堅(jiān)定歷史自信,把握歷史主動(dòng),強(qiáng)化歷史擔(dān)當(dāng),牢牢錨定“國(guó)之大者”,把政治標(biāo)準(zhǔn)放在首位,堅(jiān)持黨管檔案的原則,不斷提高政治判斷力、政治領(lǐng)悟力、政治執(zhí)行力,守正創(chuàng)新、真抓實(shí)干,不斷提高解決問題、化解矛盾、深化改革、推動(dòng)發(fā)展能力,為黨和國(guó)家事業(yè)發(fā)展做出積極貢獻(xiàn)。
第二,開放包容,積極主動(dòng)探索ChatGPT等生成式人工智能技術(shù)在檔案領(lǐng)域的應(yīng)用實(shí)踐,實(shí)現(xiàn)檔案事業(yè)發(fā)展現(xiàn)代化。一是應(yīng)對(duì)“黑箱”,把握科技自主,維護(hù)國(guó)家安全。二是爭(zhēng)取試點(diǎn),主動(dòng)掌握和運(yùn)用檔案領(lǐng)域?qū)S蒙墒饺斯ぶ悄芄ぞ?。三是加快?shù)字檔案館建設(shè),為迎接生成式人工智能技術(shù)奠定堅(jiān)實(shí)基礎(chǔ)。四是轉(zhuǎn)變角色,遵循“人機(jī)協(xié)同”發(fā)展原則,探索和制訂檔案數(shù)字化管理的標(biāo)準(zhǔn)化培訓(xùn)規(guī)范,全面系統(tǒng)提升檔案工作人員的智能科技素養(yǎng)。