본문 바로가기
독서일기

보이지 않는 데이터가 세상을 지배한다 - 다크데이터를 읽고

by Bellot 2024. 10. 26.

다크데이터, 더 퀘스트, 2021

 

 

사실 이 책은 여름에 읽었다.

독서일기도 그 때 이미 다 썼다. (내용 나열에 불과했지만...)

 

책에 데이터 간과 문제로 로켓이 폭발한 내용이 있었는데, 블로그에 원본 자료를 쓰려고 열심히 찾았었다. 

올리려는 찰나, 우연의 일치라도 되는건지 주변인 중에 폭발을 겪는 사례가 발생했다. (인명 피해 없어요~)

 

어쩐지 꺼림칙해서 임시저장만 해두고 올리진 않았는데, 다시 읽어보니 그냥 올릴까 싶어서 가져왔다.

책 읽으면서 어려웠던 부분을 정리한 내용도 있기 때문~ 그게 좀 아까워

 


 

내가 읽어본 책 중, 읽은 날짜 수로 따졌을 때 손에 꼽히는 기간을 기록했다.

학자 특유의 호흡이 긴 문장.. 분명 한국어로 번역되어 있는데도 문장을 읽다 길을 잃는 경우가 많았다. 

 

 

 


 

1. 다크데이터?

아마 이름에서부터 이해가 될 것이지만, 개념을 짚어보도록 하자.

저자는 '온갖 유형의 누락된 데이터'를 다크데이터로 통칭했다.

 

DD(Dark Data)로 표기하고, 유형을 15가지로 분류한다.

유형 1 빠져 있는지 우리가 아는 데이터
유형 2 빠져 있는지 우리가 모르는 데이터
유형 3 일부 사례만 선택하기
유형 4 자기 선택
유형 5 중요한 것이 빠짐
유형 6 존재했을 수도 있는 데이터
유형 7 시간에 따라 변하는 데이터
유형 8 데이터의 정의
유형 9 데이터의 요약
유형 10 측정 오차 및 불확실성
유형 11 피드백과 게이밍
유형 12 정보 비대칭
유형 13 의도적인 다크 데이터
유형 14 조직된 합성 데이터
유형 15 데이터 너머로 외삽하기

 

 

 


 

 

2. 데이터가 좀 빠질 수도 있지, 꼭 알아야 하나요?

실생활과는 좀 떨어진 이야기이긴 하지만, 책에 등장한 사례 중 다크데이터에 관한 확실한 인상이 남을 예시를 하나 소개하겠다.

 

1986년 1월 28일, 우주왕복선 챌린저호가 발사 73초 후 거대한 불덩어리로 변했고, 탑승한 사람은 모두 사망했다.

원인은 로켓 추진체에 발생한 폭발이었다.

 

 

로켓 추진체는 4개의 구성부로 이루어져있는데, 발사 현장에서 조립되었다.

이때 각 구성 부분을 연결하는 원형 접합부에 오링(O-ring)이라는 고무 밀폐 장치를 끼웠다.

 

로켓 추진체를 만든 회사는, '저온에서는 오링이 딱딱해져 밀폐력이 손상될 것이므로, 이전의 가장 낮은 발사 온도인 화씨 53도 이하에서는 발사할 수 없다.'고 주장했다.

하지만 여러 번의 발사 연기와 격렬한 논의 끝에, 발사해도 좋다는 결론을 내렸다.

 

발사 당일의 예상 기온은 그보다 훨씬 낮았고(화씨 31도), 결국 로켓은 폭발했다.

 


 

발사 이전 회의에서는, 오링 변형이 발생했던 비행들에 초점을 맞췄다. 얼핏 보면 온도랑 별 관계 없어 보인다.

발사 전 검토한 데이터 (Rogers_Commission_Report)


 

모든 비행 데이터를 넣어보면 결론이 달라진다. 화씨 65도 이상에서는 문제가 거의 발생하지 않았다.

완전한 데이터 (Rogers_Commission_Report)

 

 

고로 해당 사례에서 다크데이터는 '오링 변형이 발생하지 않은 비행' 이 된다.

유형3: 일부사례만 선택 + 유형 2: 빠져 있는지 우리가 모르는 데이터 이다.

 

+) 책에 위에 거 말고 (한글+깔끔 그래프)가 있다. 사진 찍으려니 뒷면 글자가 비쳐서 난 원본 보고서를 찾았다.


 

이 사례를 읽고서 다크데이터의 위험성+중요성이 단번에 와닿았다.

 

사실상 전방위 사례 모음집인 이 책을 통해, 저자는 다크데이터가 언제든 존재한다. 라는 사실을 깨우쳐 준다.

 

우리는 주로 과거 경험들, 즉 데이터에 기반해서 결정을 내린다. 그러나 그 데이터가 확실하고 완전하다 보장할 수 있는가? 우리가 데이터를 다 안다고 '착각'하는 경우도 있고, 데이터가 조작될 수도 있으며, 애초에 적절한 데이터를 수집할 수 없을지도 모른다.

 

이외에도 다크데이터는 다양한 요인으로 인해 발생하며, 그에 대해 어떻게 대응할까? - 라는 것이 이 책 전체를 관통하는 주제이다.

 

 


 

 

3. 실험 데이터 누락 유형 3가지

읽고 이해를 못해서 여러 번 읽어본 부분. 혹시나 책을 다시 읽어볼 때를 대비해서 그림을 남겨두기로 했다. 

 

전체 데이터를 수집하는 데 실패할 수 있다.

그렇다면, 데이터가 왜 빠졌는지를 이해한 후 빠진 항목을 보완해야 한다. 

 

미국 통계학자 도널드 루빈은 누락 데이터 분류법을 고안했는데, 관찰된 데이터와 빠진 데이터 사이의 관계를 3가지 유형으로 구분한다.

 

 

우선 중도 하차한 모든 사람들의 데이터는 다크데이터가 된다. 

 

집단 1 : 식단 규칙을 지키지 못해 중도 하차.

기대만큼 체중이 줄지 않았거나, 오히려 체중이 늘었을 수도 있다. 누락되지 않았다면, 최종 관측에서는 아마도 높은 BMI 값이 측정되었을 것이다.

 

고로 이 누락 집단은 최종 관측 BMI 가 영향을 미친다. 하지만 중도 하차로 인해 최종 관측값은 없다.

그래서 보이지 않는 데이터(관측되었어야 할 값)에 종속적이다. 

 

이런 종류의 데이터는 관측되지 않았다고 해서 쉽게 무시할 수 없다.

끝까지 연구에 남은 사람들의 데이터와 확연히 다를 것이기 때문!

 

 

집단 2 : 처음에 심한 과체중이 아니어서, 식단으로 체중 변화가 크지 않자 의욕 감소.

즉, 최종 측정 BMI값은 최초 측정한 BMI값과 관련이 있다. 그래서 보이는 데이터(처음의 BMI값)에 종속적이다.

 

집단 3 :  그냥 참가자가 개인적인 이유로 하차.

따라서 데이터에 종속적이지 않다.

 


 

 

보이지 않는 데이터, 보이는 데이터에 종속..? 이게 뭔 말인지 이해를 못해서 한참 걸렸다.

그림도 그리고 글도 적어보니 이해가 좀 된다.

 


출처 : 알라딘 도서소개


인류가 과거를 발판삼아 현재와 미래를 창조하는만큼, 다크데이터에 대한 조명은 앞으로도 더욱 중요한 사항이 되겠지. '신은 주사위 놀이를 하지 않는다' 이 책도 얼핏 들어봤는데, 같은 분이 쓰셨군! 몰랐다

 

이번 책은 이렇다할 교훈이 한정적이라, 내 인상에 남았던 부분들만 좀 모아서 후기를 적어보았다.

언젠가 비슷한 통계학 책을 읽어볼 때 도움이 되려나?

 

내가 익숙하지 않은 분야에 대한 책도 한 번씩 읽어보니, 세상을 보는 지평이 넓어지는 기분이군~

 

+) 도서 빌려주신 맛소금님 감사합니다~

320x100
320x100