종이, 필름, 카세트테이프 등 아날로그 환경에서 만들어진 기록들은 오늘날 디지털로의 변화를 요구받고 있다. 정보의 생산과 유통 환경이 빠르게 디지털로 전환되는 흐름을 따라 기록의 장기 보존과 효과적인 활용을 위해서다. 현재 공공기록 등 다수의 아카이브가 디지털 형태로 바뀌고 있지만, 기술 변화로 인한 장기보존과 소멸 문제 등 해결해야 할 과제도 많다.

 

디지털 아카이브의 시작은 변환

 아날로그 기록을 디지털 형태로 보존하고 서비스하기 위해서는 기록의 유형에 따라 다양한 방식의 디지털 변환이 필요하다. 종이문서와 인화사진의 경우 스캐너를 사용해 실물 기록을 파일 형태로 저장한다. 하지만 스캔으로는 종이 문서의 문자를 이미지 형태로만 저장할 수 있어서 컴퓨터가 인식 가능한 문자 정보로 변환시키는 OCR(Optical Character Reader) 기술을 활용하기도 한다.

 흔히 비디오테이프로 불리는 VHS의 경우 재생 장비인 VHS 플레이어를 통해 영상신호를 재생하면, 컴퓨터의 코덱(Codec) 카드를 거쳐 디지털 정보로 변환된다. 그 밖에도 필름은 필름 스캐너를 통해, 입체감이 있는 자료는 3D스캐너를 통해 전·, ·우의 모습을 3D의 형태로 변환한다.

 디지털로 변환된 기록은 형태에 맞는 다양한 포맷을 활용해 파일로 저장된다. 최근에는 저장과 보존뿐 아니라 접근성, 활용 가능성을 극대화할 수 있는 포맷이 요구되고 있다. 문서 형식의 경우 ODF(Open Document Format)와 같은 개방형문서포맷류가 사용된다. 이는 오픈소스로 제공되는 포맷이어서 자유로운 문서 생산이 가능하다. 아카이브랩 안대진 대표는 앞으로는 다수의 사용자가 자유롭게 접근·활용할 수 있는 포맷들이 많이 사용돼야 한다고 말했다.

 

장기보존을 위한 체계화 필요해

 디지털 아카이브의 장기적인 보존을 위해서는 기록학계에서 국제적 표준으로 설정한 ISO 14721(OAIS 참조모형)이 활용된다. 국가기록원을 비롯한 대다수의 행정기관이 ISO 14721을 준용한 표준기록관리시스템을 이용해 기록물을 관리하고, 장기보존 관련 표준을 제정해 전자기록물의 장기보존을 진행하고 있다.

 하지만, 저장 포맷 및 기록 생산에 사용되는 소프트웨어가 빠르게 변하는 상황에서 보존의 어려움은 계속되고 있다. 방재현(한국외대 정보·기록학과) 겸임교수는 매일 새로운 포맷이 생산된다고 해도 과언이 아닐 정도로 정보기술은 급변하고 있다지금 우리가 쓰는 한글 워드프로그램도 향후 50년 뒤에는 사용되지 않을 수 있다고 말했다.

 이러한 장기 보존상의 어려움을 해결하기 위해 마이그레이션(Migration), 에뮬레이션(Emulation) 방법이 제시되고 있다. 마이그레이션은 지금 사용하고 있는 소프트웨어의 중단이 예상되는 시점에 최신의 소프트웨어를 사용해 다른 형식의 파일로 변환하는 것이며, 에뮬레이션은 당시의 컴퓨터 환경을 재현해 해당 소프트웨어를 설치하고 파일 사용을 가능하게 하는 전략이다.

 에뮬레이션의 경우 기록에 접근하기 위해 사라진 프로그램을 역으로 복원하는 과정을 거쳐야 해 많은 비용이 든다. 그래서 대다수의 아카이브 기관에서는 마이그레이션을 현실적인 전략으로 채택하고 있다. 안대진 대표는 국가기록관리의 경우 최대한 안정적으로 장기간 보존할 수 있는 최신의 포맷을 선호포맷으로 정해 이를 집중적으로 이관 받는 등, 체계적인 보존계획이 필요하다고 말했다.

 장기보존 데이터의 접근성 확충뿐 아니라, 저장매체에 수록된 기록 데이터의 유실도 주의해야 한다. 저장매체의 고장, 운용자의 실수, 해킹, 자연재해 등 다양한 이유로 저장매체에 저장된 데이터가 유실될 수 있다. 이때 데이터의 유실을 막는 가장 단순하지만 확실한 방법은 백업이다. 국가기록원 복원관리과 김상국 사무관은 국가기록원은 주된 저장시스템과 실시간으로 동기화되는 저장시스템이 성남 나라기록관에 있고, 이중에서도 중요 데이터를 부산 역사기록관에 주기적으로 백업을 하고 있다고 설명했다.

 

소멸위험 큰 디지털 생산 기록

 아날로그로 생산된 기록에 비해 처음부터 인터넷 등 디지털 환경에서 생산된 기록(born-digital)들은 더더욱 보존이 어렵다. 정보통신기술의 발전에 따라 이용자들의 선호 미디어가 빠르게 바뀌는 상황에서, 수많은 이용자들이 쏟아내는 기록 데이터 저장에 쓰이는 비용을 줄이기 위해 운용회사에서 일정 기간이 지나면 해당 데이터를 삭제하기 때문이다.

 디지털 기록의 소멸이라는 문제에 대응하기 위해, 유네스코(UNESCO)에서는 2003디지털 유산 보존에 관한 유네스코 헌장을 제정해 디지털 형태를 갖춘 자료의 지속적인 생산, 유지, 관리의 필요성을 역설했다. 미국의 경우 디지털 유산 보존에 대한 시민사회의 노력으로 인터넷 아카이브(archive.org) 프로젝트가 지금까지 진행되고 있다.

 한국에서는 민간재단인 다음세대재단에서 국가기록원과 함께 디지털유산 어워드를 개최해 보존가치가 있는 사이버 공간의 정보 보호를 위한 노력을 기울이고 있지만, 국가적 지원의 확충이 절실하다. 다음세대재단 방대욱 대표는 지금까지 재단에서 노력을 기울여 왔지만 민간차원에서는 지속성에 한계가 있어, 국가적 관심이 이어져야 한다고 전했다.

 현재 국립중앙도서관에서 오아시스(www.oasis.go.kr) 서비스를 실시해 일부 웹사이트의 자료를 장기보존하지만, 대상 사이트 확충이 필요하다. 김익한(명지대 기록정보과학전문대학원) 교수는 오아시스의 경우 대상 웹사이트의 수가 너무 적어 사회적 정보유산의 보존 기능을 수행한다고 평가하기 어렵다국가기록원 같은 조직에서 대량 예산을 투입해 보존해야 한다고 강조했다.

 

4차 산업혁명, 아카이브의 미래를 열다

 이처럼 급변하는 기술과 쏟아지는 정보로 디지털 아카이브 보존이 어려워지자, 새로운 방법이 도입되고 있다. 최근 아카이브의 안정적인 보존과 효율적인 활용 면에서 주목받고 있는 클라우드 컴퓨팅, 인공지능 등의 4차 산업혁명 기술이 대표적인 예다.

 클라우드 컴퓨팅은 집적·공유된 정보통신기기, 정보통신설비, 소프트웨어 등 정보통신자원을 정보통신망을 통해 신축적으로 이용 가능한 정보처리체계다. 클라우드 컴퓨팅을 활용하면 개별 기록을 통합적으로 관리할 수 있고, 별도의 설치 없이 공유된 소프트웨어를 이용해 기록 생산도 가능하다.

 현재 정부에서도 클라우드 기록관리시스템(CRMS)를 도입해 부처 개별로 진행되던 기록관리를 클라우드 환경에서 통합했지만, 그 장점을 거의 살리지 못하고 있다. 김익한 교수는 아직까지 웹하드처럼 서버나 저장소만 공유 받는 인프라 수준의 클라우드 환경에 머무르고 있다더 발전하기 위해선 기록 생산을 위한 소프트웨어도 클라우드에서 제공받아야 한다고 지적했다.

 인공지능은 빅데이터로 묶인 텍스트나 사진·영상 기록의 의미 파악과 효율적인 활용을 돕는데 사용된다. 텍스트의 경우 자연어 처리 기술(Natural Language Processing)로 텍스트 사이의 의미, 연관관계를 분석해 새로운 결과를 도출하는 방법이 개발됐다. 또한 사진이나 영상도 자동 캡셔닝(Auto Captioning) 기술을 통해 기계학습으로 습득한 사진 정보를 자동으로 저장해 검색과 활용을 돕는 방법이 시도되는 중이다.

 다만 인공지능이 제 기능을 하기 위해선 기계를 학습하는데 필요한 정제된 기록정보가 충분해야 한다. 아쉽게도 현재까진 기록의 맥락 등 규격화된 내용을 제대로 갖추지 못한 기록이 많은 상황이다. 방재현 교수는 지금까지 한국의 기록관리가 시스템과 같은 외형에 치중하다보니 요약 정보 등 규격화된 내용을 제대로 갖추지 못한 기록들이 많다지금이라도 불완전한 부분을 개선할 방법들을 연구해야 한다고 강조했다.

 

글 | 이선우 기자 echo@

일러스트 | 장정윤 전문기자

저작권자 © 고대신문 무단전재 및 재배포 금지