디브러리

책바다 국가상호대차서비스



도도한 학자들, 웹2.0에 마음을 열다 : 학술지의 아성을 흔든 arXiv ▶ 도서관2.0와 웃는 이야기





지난 글을 통하여 웹 2.0이 어떻게 학계를, 특히 보수적이고 까다롭기로 소문난 학술지를 어떻게 바꾸어나가고 있는지 그 흐름에 대해서 살펴보았습니다. 이제부터는 예전에 예고한 대로 이러한 학술지들을 살펴보고, 이들의 현재와 미래에 대해 논해보는 시간을 갖도록 하겠습니다. 오늘은 그 첫 번째 순서로 요즘 학계에서 매우 크게 이슈화 되고 있는 arXiv에 대해서 알아보도록 하겠습니다.

1. arXiv란 무엇인가?

아키브? 아카이브? 어떻게 읽어야 할지 헷갈리는 이 요상한 이름(?)의 정체는 도대체 무엇일까요. arXiv는 미국 Cornell 대학교의 도서관에서 지원하는 서비스로, 자유로운 검색 및 업로드/다운로드가 가능한 일종의 논문 보관소 역할을 하는 서비스입니다. 조금 더 자세하게 알아보기 위해서 위키에서 뜻을 가져와 보겠습니다. (물론 이번에도 제 마음대로 하는 해석을 달아보았습니다 ^^;;)

The arXiv is an archive for electronic preprints of scientific papers in the fields of mathematics, physics, computer science, quantitative biology and statistics which can be accessed via the Internet.[각주:1]
arXiv는 수학, 물리, 컴퓨터 과학, 계량 생물학, 통계학 분야에 대해 작성된 논문들을 출판 이전의 전자문서(electronic preprints) 형태로 모아놓은 문서 보관소이다. 이 보관소는 인터넷을 통해 자유롭게 접근할 수 있다.

이쯤 되면 아마 읽는 독자 여러분들도 뭔가 이상한 점을 느끼셨을지 모르겠습니다. 눈치 빠르신 분들은 혹시 느끼셨을지 모르겠네요. 사실 이 arXiv란 녀석, 학술지가 아닙니다. 공신력 있는 학술지는 커녕, 말 그대로 논문의 출판 이전 판본을 보관하는 그저 문서 보관소에 불과한 녀석이죠. 아니, 그럼 대체 이게 왜 그렇게 주목해야 할 대상인 것일까요? 지금부터 한번 자세히 들여다 보도록 하겠습니다.

2. arXiv의 과거와 현재

먼저, arXiv의 시작을 보기 위해 1991년으로 거슬러 올라가 봅시다. 미국 뉴멕시코주에 있는 로스 앨러모스 국가 연구소(Los Alamos National Laboratory)의 한 구석에서는 물리학자 몇명이 머리를 싸매고 끙끙 앓고 있었으니, 그 문제는 연구 정보의 관리 및 전달 문제였습니다. 

과거 원자폭탄을 만들어냈던 맨하튼 프로젝트가 기원이 된 연구소 답게 로스 앨러모스에서는 고에너지 이론 물리학(High-Energy Theoretical Physics)에 대한 연구가 매우 활발하게 이루어지고 있었습니다. 하지만, 이렇게 활발하게 이루어지는 연구를 동료 학자들과 교환하는 것은 의외로 매우 골치아픈 일이었습니다. 골치아픈 문제는 크게 두 가지였습니다. 하나는 연구자들이 자신이 거둔 연구 성과를 수백명이 되는 다른 연구자들에게 배포할 수 있는 방안이 마땅치 않다는 것이었고(연구자 개개인이 모두 메일링 리스트를 관리할 수는 없는 거니까요, 거기다 이 당시에는 메일 서버의 트래픽 문제도 심각했구요), 다른 하나는 연구 성과를 메일로 계속해서 받다보니 저장공간이 턱없이 모자르다는 것이었습니다. 사실 정말 큰 문제는 후자였다고 하는데요, 지금이야 저장공간이 넉넉할 지 몰라도 그 당시에는 로스 앨러모스 연구소의 연구원 한 사람당 할당된 메일 용량이 고작 0.5 Mbyte 정도 수준이었다고 합니다. 이렇게 적은 용량으로 모든 연구 성과를 주고 받으며 관리하기에는 그야말로 택도 없었겠죠? 




arXiv의 창시자인 Paul Ginsparg(현 Cornell University 교수) 박사. 
이 사람을 따라 arXiv도 지금은 Cornell University에 자리를 잡았습니다. 


역시 천재적인 머리를 가진 사람들이 모인 곳이라 그런지, 이런 문제에 대한 해결책도 금방 제시되었습니다. 연구소에 처음으로 자리를 잡은 새내기 연구원인 Paul Ginsparg 박사(현 Cornell University의 물리학과 교수)는 동료 물리학자의 조언을 바탕으로 연구 정보를 교환할 수 있는 새로운 아이디어를 고안해내기에 이릅니다. 그것은 연구 자료의 수집과 배포를 자동으로 수행하는 중앙화된 문서 저장소(Centralized Automated Repository)를 인터넷 상에 구축하는 것 이었습니다. 



즉, 위 그림처럼 연구자 개개인이 수집한 자료를 일일이 모두에게 직접 배포하는 대신, 

이처럼 보내는 사람과 받는 사람 사이에 정보 전달을 매개하는 데이터 센터를 두어서, 이와 같은 배포가 자동으로, 그리고 효율적으로 이루어질 수 있게 하는 것입니다. 

이를 구현하기 위하여 Ginsparg 박사는 FTP 서버와 메일 서버를 연동하였습니다. 여기서 FTP는 연구 정보의 업로드 및 다운로드는 를 구현하도록 하기 위한 수단으로, 그리고 메일은 연구 정보의 새로운 업데이트가 있을 때마다 이들의 초록만을 간략하게 안내하기 위한 수단으로 사용됩니다. 이제 메일을 구독하는 연구자들 중에, 자료 및 논문 전문에 접근하고자 하는 사람들만 FTP 서버에 접속하여 관련 자료를 다운로드 받게 되는 것이죠. Ginsparg 박사는 이 데이터베이스의 이름을 hep-th로 명명하고 시작했었는데요, 이는 이들의 연구 분야였던 High Energy Physics-Theory 의 머릿글자라고 합니다.[각주:2]

이렇게 태어난 hep-th는 얼마 지나지 않아 큰 전환점을 맞게 됩니다. 1992년, 동료 연구자를 통해 월드 와이드 웹이라는 새로운 개념을 처음으로(!) 접하게 된 Ginsparg 박사는 메일/FTP 서버를 이용하던 hep-th 데이터베이스를 웹서버 기반으로 바꾸는 작업에 착수하게 됩니다. 여러 기관의 도움을 받아 마침내 1994년에는 웹서버로의 구현을 완료하게 됩니다. 이러면서 hep-th는 본격적으로 인터넷 상에 데뷔를 하게 됩니다.



초기 hep-th의 인터페이스. 왼쪽 상단에 가장 앞쪽에 보이는 메일 클라이언트로 논문 초록을 안내받고, 그 뒤에 있는 브라우저로 FTP에 접속하여 논문을 다운받곤 했다는군요. 그렇게 해서 받은 논문이 가장 맨 뒤의 창에 나타나 있는 논문이라고 합니다.[각주:3]


이렇게 넷 상에서의 hep-th의 노출이 점점 많아지면서, 결국 다른 분야를 연구하던 사람들까지 이에 주목하기 시작했습니다. 이러한 방식을 따르면 연구 자료를 배포하는 데 소요되는 트래픽 비용과 데이터 스토리지 비용 모두를 아끼면서 보다 효과적으로 연구성과를 공유할 수 있도록 하니까요. 이제 서로 메일로 자료를 마구 뿌려가며 공유하는 대신, 이 저장소에만 올리면 되니까요. 얼마 지나지 않아 Ginsparg 박사는 hep-th 데이터베이스를 다른 과학 분야의 논문들도 이용할 수 있게 데이터베이스를 확장해 달라는 요청을 받게 됩니다. 그리고 이를 수용하면서부터 hep-th는 비약적인 성장을 하기 시작합니다. 그리고 보다 열린 서비스를 지향하는 차원에서 이름을 arXiv으로 바꾸는데요, 이는 문서 보관소를 뜻하는 영단어 'archive'에서 따온 말입니다.

이제 arXiv는 자연과학 분야에 있어서 엄청난 영향을 끼치는 존재가 되었습니다. 2008년 기준으로 현재 arXiv가 커버하는 과학의 분야는 물리학, 수학, 컴퓨터 과학, 계량생물학, 수리 재무학과 통계학을 아우르고 있으며, 등록된 논문의 수는 자그마치 50만건을 돌파하였습니다. 더 놀라운 것은, 현재 매 달마다 5000건 내외의 논문이 업로드 되고 있으며 제출되는 수가 시간이 지날 수록 점점 증가하고 있다는 것입니다.[각주:4] 



arXiv에 매 달 등록되는 논문 수의 증가추세. "시작은 미미했지만 그 끝은 창대하리라"


그 뿐만이 아닙니다. 이제는 아예 학술지에 논문을 제출하지 않고 arXiv에 연구결과를 발표하는 경우도 나타나고 있습니다. 우리나라에서는 '필즈상을 거부한 도인 수학자(?)'로 널리 알려진 러시아의 Grigori Perelman 박사[각주:5]는 수학계의 악명 높은 난제로 알려진 푸앙카레 추측에 대한 증명의 풀이를 arXiv에만 공개하기도 했습니다. 이런 말을 남기면서 말이죠. "만약 누구든 간에 내 풀이 방식에 관심이 있다면, arXiv에 다 있으니 가서 읽어봐라." 그리고 현재 이곳에 올린 그의 풀이방법은 전세계의 많은 수학자들에 의해 검증되고 있는데, 아직까지 틀렸다는 지적이 나오고 있지 않아 맞다고 판명될 가능성이 매우 높다고 합니다. 이렇듯 arXiv는 이제 학술지의 입지마저도 위협하는 위치에 이르기 시작했습니다.



필즈상 수상을 거부하고 매달 5만원의 연금만으로 노모를 모시며 사는 
이 시대의 쿨가이 그리고리 페렐만 박사. 어쩌면 돈이 없어서 arXiv에 올리는 지도...?



3. 대체 왜 과학자들은 arXiv에 환호하는가?

이렇듯 arXiv는 현재 과학자들의 전폭적인 지지를 바탕으로 꾸준히, 그리고 무섭게 성장하고 있습니다. 그렇다면 과연, 이 arXiv는 어떻게 이와 같이 과학자들의 엄청난 호응을 받을 수 있었던 것일까요? 

꼼꼼한 심사를 통해 얻어진 권위로? 글쎄요. arXiv는 투고하는 문서에 대해 어떠한 종류의 심사도 하지 않고 바로 등록해주는 것으로 유명하죠. 간혹가다 관리자가 등록된 논문을 옮기기도 한다고 하지만, 어디까지나 등록된 분야와 내용이 일치하지 않는 경우에 한해서만 이를 수행한다고 하네요. 

서비스 이용자들을 배려하는 편의성은? 으음... 그것도 글쎄요. 확실한 비교를 위하여 한번 아래 arXiv의 화면을 Nature의 화면과 함께 비교해서 보도록 하겠습니다.



들어가자마자 뭔가 있어보이는 듯한 느낌을 확 주는 Nature의 홈페이지


사용자 삽입 이미지

아니, 이 허접한 화면은 뭐지? 처음 보는 사람을 당황하게 만드는 arXiv


물론 Nature나 Science같이 화려하지는 않더라도 보통 학술지의 인터넷 홈페이지 하면 어느 정도 잘 꾸며놓고 있는게 보통인데, 외관이 삐까번쩍하긴 커녕 그냥 버려둔 것 처럼 링크만 덕지덕지 붙어있는게 뭔가 더 수상한 기분이 들게 만들죠. 혹시 망한 연구실 홈페이지가 아닌가 싶은 생각이 들 정도로 말이죠.

그럼 대체 무엇이 이렇게 보기만 해도 답답해 보이는 홈페이지에 많은 과학자들이 열광하도록 만드는 것일까요? 그것은 arXiv가 현재 모든 과학자들이 공통적으로 가지고 있는 니즈를 정확하게 반영하고 있기 때문이 아닐까 합니다. 

이를 보다 자세히 알아보기 위해서 요즘 과학자들이 대체 뭘 원하는지 잠깐 살펴보도록 합시다. 지난 글에서 언급했듯이, 21세기 과학계는 국경을 넘나드는 협업과 살벌한 경쟁이 공존하는 환경에 놓여 있습니다. 이에 과학자들은 어떻게든 자신의 연구 성과가 빨리 공개되어, 우선권을 남에게 뺏기지 않으면서 동료 과학자들로부터 연구에 대한 피드백을 최대한 빨리 제공받는 수 있게 되는 것을 가장 절실하게 느끼기 시작했습니다. arXiv는 이러한 기대에 완벽하게 부합하였기 때문에 과학자들의 열광적인 지지를 얻을 수 있었던 것입니다.

이 이야기 만으로는 와닿는 점이 없으시다면, 역지사지라고 했죠! 이제 막 연구 성과를 공개하고자 하는 과학자의 입장에 서보도록 하겠습니다. 과학자들이 연구결과를 바탕으로 논문을 쓰면, 기존까지는 으레 학술지에 제출하여 심사를 기다리곤 했습니다. 지난 글에서도 말씀드렸다시피, 이렇게 논문을 제출하고 나면 심사 결과가 나올 때까지 6개월에서 길게는 1년동안 손가락만 빨고 있는 신세가 되어 버립니다. 물론 그동안 아무 일도 안하고 노는건 아니겠지만(설마!!), 이미 심사가 끝나버린 다음에는 그 연구 성과는 더이상 최신이 아닌 것이 되어 버리겠죠. 빨리 피드백을 받아 연구를 발전시키고 싶은 연구자들에게 이러한 시간은 아깝다 못해 피눈물이 날 정도가 아닐까 싶습니다. 논문 심사 중에 다른 연구 그룹이 같은 내용으로 먼저 논문을 내버리거나 심사 끝에 논문이 거부당할 수 있다는 불안감이야 덤이겠죠 :(

하지만 arXiv가 나온 다음부터 과학자들은 이에 대한 고민을 덜게 됩니다. 이제 과학자들은 자신이 쓴 논문을 학술지에 제출하기 전에 먼저 arXiv에 업로드를 합니다. arXiv는 논문을 업로드 하는데 아무런 제약 조건이 존재하지 않으므로, 과학자들은 몇 번의 클릭 만으로 자신의 연구 결과를 바로 공개할 수 있습니다. 논문을 언제 최초로 arXiv에 올렸는지 그 날짜도 기록이 되는 것은 물론입니다. 따라서 이렇게 arXiv을 통해 공개를 하게 되면, 과학자들은 심사가 더러 오래 걸리더라도 앞서 구구절절 설명한 근심들을 덜게 될 것입니다.



arXiv에 등록된 논문 정보. 언제 처음으로 제출했는지, 수정사항이 있다면 언제 고쳤는지, 그리고 어떤 학술지에 제출했는지에 대한 정보까지 모두 제공됩니다.


이 뿐만이 아닙니다. 이렇게 arXiv에 업로드를 한 논문은 저자의 선택에 따라 RSS를 통하여 구독자들에게 발행할 수 있습니다 (마치 블로그와 같이 말이죠!). 이로써 논문의 저자는 전 세계의 수많은 과학자들에게 자신의 연구성과를 직접 전달할 수 있게 되었습니다. 이제 이렇게 배달된 논문을 읽어본 전 세계의 수많은 동료 과학자들은 메일을 통해 궁금한 점이나 지적할 점들을 가감없이 묻습니다. 번거로운 중간과정 없이 같은 분야의 연구자들끼리 곧바로 의견을 주고받을 수 있게 된 것입니다. 피드백은 예전보다 훨씬 빨라졌으며, 양적으로나 질적으로나 한층 발전하였습니다. 학계에서 이상적으로 꿈꿔왔던 동료 심사(peer review)의 모습이란 바로 이런 것이 아닐까요? 이 대목에서, 지난 글에서 인용했던 인터뷰 기사를 다시 한번 살펴보도록 합시다.

우리가 원하는 건 그저 동료들에게 검증받은 유효한 정보일 뿐입니다. 솔직히 논문 편집위원이 학술지에 싣기 위해 검증을 하는 것이든, 그냥 주제에 관심있는 사람들이 arXiv에 올린 원고를 읽고 이메일로 직접 피드백을 주는 것이든 무슨 차이가 있겠습니까? 그건 사실 똑같은 것이나 다름 없는것입니다.

4. arXiv와 웹 2.0 시대의 과학 연구 방향

이렇듯 과학자들의 가려운 부분을 시원하게 긁어주는 효자손과 같은 기능을 100% 했기에 arXiv는 지금과 같은 공전의 히트를 칠 수 있었습니다. 이제 arXiv는 더이상 마이너한 논문 보관소 것이 아닌, 과학계에 불어닥치는 태풍의 핵이 되었습니다. 웹을 통해 실시간으로 연구 성과의 공유 및 검토(peer review)가 이루어지는 모습은, 과학자들이 웹을 통해 자발적으로 조직화하여 거대한 집단지성을 이루어가는 모습을 단적으로 보여주고 있습니다. 이로써 학계는 태고적부터 학자들이라면 한번쯤은 꿈꾸던 이상적인 모습에 한발짝 더 성큼 다가설 수 있게 되었습니다.

이렇듯 웹을 통해 능동적인 학술 교류의 장을 제공함으로써, arXiv는 단순히 연구 성과의 발표 기능만 해왔던 학술지의 아성을 송두리째 흔들게 되었습니다. 물론 학술지들도 구독회원을 대상으로 웹 기반의 서비스를 제공하고, RSS 피드 등을 제공하는 등 각종 대책을 강구하고 있습니다. 그렇지만 이미 근본적인 패러다임이 변화한 현재, 이러한 대책들은 대부분 땜질식 처방에 지나지 않으며, 혁신을 만들어내지 않으면 종국에 가서는 도태하게 될 위기에 처해 있다 보입니다.






출처 - http://vcnc.tistory.com/10 








덧글

댓글 입력 영역