Love Data Week | 데이터는 어디에 있을까요?
이번 주는 Love Data Week (2/9~2/14) 캠페인 주간입니다! 매년 발렌타인 주간에 열리는 글로벌 캠페인으로, 데이터의 수집, 관리, 공유 및 재사용의 중요성을 알리는 행사인데요. 올해의 테마는 바로 '데이터는 어디에 있을까요?(Where's the Data?)'입니다.

데이터에도 '타이밍'이 있다
사실 이 질문이 연구자들에게는 꽤나 현실적인 문제입니다. 실제 데이터 수집부터 보관, 관리까지 데이터 활용의 전 과정을 되돌아보게 만들기 때문인데요. 특히 사회 현상을 분석하는 사회과학 분야에서 데이터를 다룬다는 건, 우리 인간의 삶을 데이터로 담아낸다는 의미이기도 합니다. 그만큼 데이터 수집에 드는 시간과 비용도 만만치 않죠.
일반적으로 대규모 데이터는 정부나 중앙 부처를 중심으로 체계적으로 수집됩니다. 그렇기 때문에 실제 연구에 쓰이기까지는 긴 여정을 거치고요. 데이터 수집 과정에서 추가로 펀딩이 필요하기도 하고, 승인 절차를 밟아야 하는 부분도 있기 때문에 현장의 데이터가 연구용 데이터셋이 되기까지 수 년이 걸리기도 하죠. 게다가 이렇게 큰 비용을 들여 한번 수집된 데이터는 지속적으로 유지보수되기 어려운 게 현실입니다. 10년, 20년 전에 수집된 데이터가 여전히 쓰이는 경우도 드물지 않고요. 예를 들어, 미국의 의류 산업에서 널리 쓰이는 SizeUSA는 2003년에 전국 10여 개의 도시에서 약 1만 명의 신체 치수를 3D 스캐닝으로 수집한 데이터인데요. 20년이 넘는 세월 동안 현대인의 식생활과 생활 환경이 크게 변하면서 체형도 달라졌을 텐데, 이 데이터는 여전히 신체 사이즈 표준과 연구의 기준점으로 사용되고 있습니다. 대규모의 공공 데이터의 경우 데이터 수집, 유지보수에 시간과 비용이 많이 소요될 수밖에 없고, 결국 연구자의 손에 들어온 데이터는 과거의 데이터가 되어 있는 경우가 많습니다.
물론 이런 데이터도 충분히 의미가 있습니다. 하지만 연구 분야에 따라서는 빠르게 변하는 사회 현상을 적시에 포착해야 하는 경우도 있고, 이미 공개된 데이터로는 새로운 이야기를 꺼내기 어려운 경우도 있습니다. 연구가 속도의 싸움이 되는 분야도 있으니까요.
현실을 담는 또 다른 방법, 웹 스크래핑
'데이터는 어디에 있을까요?'라는 질문에 대한 답이 반드시 크고 정제된 데이터셋일 필요는 없다고 생각합니다. 오히려 현실에서 수집할 수 있는 소규모의 데이터를 이용해 빠르게 실험과 분석을 하고, 연구의 방향을 새롭게 잡아갈 수도 있고요. 분야에 따라서는 지금 이 순간에 세상에서 일어나고 있는 현상들을 직접 데이터로 수집해 분석할 필요도 있겠죠.
그런 의미에서 웹 스크래핑은 여전히 사회과학 연구자들에게 유용한 도구라고 생각합니다. AI 전용 인터넷 커뮤니티인 몰트북까지 등장한 마당에 AI 에이전트를 활용한 데이터 수집의 미래를 그려볼 수도 있지만, 그 핵심에는 결국 텍스트와 이미지 같은 웹 데이터를 추출하고 가공하는 기술, 즉 웹 스크래핑이 있습니다. 그리고 이렇게 빠르게 변화하는 현실을 담아낼 수 있는 데이터는 연구자에게 새로운 연구 질문을 만들어내는 출발점이 되기도 합니다.
여러분의 데이터는 어디에 있나요?
이번 Love Data 주간을 맞아 문득 여러분의 이야기가 궁금해졌습니다. 여러분의 분야에서 데이터는 어디에 있나요? 그리고 어떻게 수집하고 관리하시나요?
마지막 업데이트
도움이 되었나요?