根据《国务院办公厅关于印发政府网站发展指引的通知》国办发〔2017〕47号及《政府网站网页归档指南》da/t80-2019,网站网页归档势在必行!今天笔者带你走进冠群信息,了解更加专业的网站网页归档技术。
何为网页归档 webpage archiving
网页归档是对政府网站历史网页进行整理、存储和利用的过程。政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理。归档后的页面要能正常访问,并在显著位置清晰注明“已归档”和归档时间。
中国政府已认识到网站网页数字遗产的保存工作的重要性,正在紧锣密鼓推行该项工作。
使用优化的网络爬虫技术,将指定网站的网页采集下来,直接存储为warc文件。
将采集到的网页经版式转换服务转换成ofd版式文件,然后存储到网页电子文件管理系统中,并依据电子文件管理系统通用功能建设要求,对网页电子文件提供自动分类、设定保管周期、鉴定处置、查询利用等管理功能。
冠群信息是参与制订网站网页归档管理系统的核心技术——网页转换格式国家标准gb/t 33190《电子文件存储与交换格式版式文档》和da/t 80—2019《政府网站网页归档指南》)的厂家之一;是该系统另一核心技术warc网页存储格式(国家标准gb/t33994《信息和文献-warc文件格式》)在中国的实践者,拥有自然资源部和国家信息中心等部委级成功案例;是中国网站网页归档管理系统拥有丰富经验的实施者,可以为政府快速构建基于saas模式或独立模式的网站网页归档管理系统。