빅 데이터 연구를 꿈꾸는 초보 연구자를 위한 최고의 R 통계 분석 안내서!

R 통계의 정석

메디컬 빅 데이터 연구를 위한

김종엽

출판사 사이언스북스 | 발행일 2021년 10월 9일 | ISBN 979-11-91187-30-4

패키지 양장 · 변형판 133x197 · 324쪽 | 가격 22,000원

책소개

추천사

R을 처음 접하는 연구자들을 위한 지침서

 

연구자들은 연구를 위해 가설을 세우고 데이터를 모으고 통계를 분석한다. 통계 분석을 위해 우리는 여러 통계 소프트웨어를 사용한다. 대표적인 통계 소프트웨어에는 SAS, SPSS, R 등이 있다. R은 통계 분석을 위해 탄생한 언어이지만, 컴퓨터 언어라는 측면에서도 참 매력적이다. 하지만 SPSS 등에 비교해 R이 갖는 가장 큰 진입 장벽은 바로 명령어를 키보드로 직접 입력해야 한다는 점이다. 자동차도 자율 주행을 하는 2021년 인공 지능 시대에 키보드로 명령어 코드를 입력해야 한다니 시대에 역행하는 것 같은 생각도 든다.

 

인공 지능 시대에도 의사는 존재할 것이다. 숙련된 외과 의사가 암 수술을 한다고 할 때, 필요한 여러 술기가 있겠지만 수술을 하는 의사는 수술 목적에 맞게 피부 및 연부 조직을 절개하고 지혈하고 암 조직이 있는 장기를 절제해 내는 과정이 있고 마지막으로 절개된 수술 부위를 봉합해야 한다. 훌륭한 외과 의사가 되기 위해서는 의과대학 학생 시절과 의사 초년병 시절에 수없이 봉합(suture)와 결찰(tie)을 연습해야 하며 이를 인공 지능이 대신해 주지 않는다. 연구에서 통계 분석은 봉합, 결찰과 같다. 처음 배우기 어렵고 재미없고 익숙해질 때까지 시간이 걸리지만, 한 번 익숙해지면 더는 그 문제로 시간과 노력을 투자하지 않아도 된다.

 

통계 언어로서의 R의 인기 상승과 함께 R을 다룬 책도 정말 많아졌다. 김종엽 교수가 쓴 『R 통계의 정석』은 제목이 이 책의 내용을 잘 설명해 준다. 나는 어렸을 때 바둑의 정석으로, 고등학교 때는 수학의 정석 책으로 수학을 배운 기억이 있다. 이 책은 R을 처음 공부하면서 데이터를 불러오고 패키지를 설치하고 기본적인 통계 분석을 하는 과정을 초보자 입장에서 쉽게 따라할 수 있도록 잘 설명한 책이다. 아마도 김종엽 교수는 R을 처음 접하는 사람에게 R 강의를 많이 하면서 R의 초보자가 어떤 부분을 어려워하는지 알게 되었을 것이다. 덕분에 이 책에서 가장 쉽게 러닝 커브(learning curve)를 극복할 수 있도록 많은 고민을 한 흔적이 느껴진다. 이 책은 R에 입문해 보고 싶은데 문턱이 높아 주저하는 통계 비전공자를 위한 책이다. 외과 수술에 있어 봉합과 결찰과 같이 이 책을 보면서 책의 설명대로 따라하다 보면 본격적인 R 사용자로 발전하고 있음을 알게 될 것이다.

 

문건웅(가톨릭 대학교 순환기내과 교수,

『의학논문작성을 위한 R 통계와 그래프』저자)

편집자 리뷰

통계로 생명을 살리는 시대

커져 가는 빅 데이터의 가치

2020년 3월 세계 보건 기구(WHO)의 첫 선언 이후 전 세계적 범유행 2년 차에 접어든 코로나19. 델타, 뮤 변이와 돌파 감염의 존재로 백신 접종만으로는 집단 면역 달성이 불가능하다는 사실이 명확해진 지금, 전염병과 공존하는 ‘위드 코로나’를 넘어 ‘비욘드 코로나’로 가기 위한 인류의 무기 중 하나로 떠오르는 존재가 있으니 바로 빅 데이터(big data)이다.

빅 데이터란 ‘빅 데이터 프로세싱(big data processing)’을 편의상 줄여 쓰는 말로, 과거에는 알 수 없었던 매우 사소한 정보까지도 디지털로 모두 기록되는 정보화 시대에서 폭증하는 방대한 데이터를 관리하고 분석해서 유용하게 사용하는 기술을 의미한다. 이 빅 데이터 기술을 전염병 방역 및 확진자 진단과 접목할 경우, 휴대전화 이용 정보와 통신사 기지국 정보 등을 파악해 5분 간격으로 인구 밀집 지역을 예측하고 감염 요인을 선제적으로 차단하는 시스템이나 가슴 엑스선 촬영만으로 코로나19 감염 여부를 80퍼센트의 정확도로 신속하게 진단할 수 있는 기술이 가능해진다. 비단 방역과 진단뿐만 아니라, 전염병 치료의 차원에서도 확진자 데이터를 이용한 사망 위험 예측 모델로 제한된 의료 자원을 효율적으로 관리하거나 백신 개발의 과학적 근거로 쓰이는 등, 메디컬 빅 데이터의 활용도는 가히 무궁무진하다고 할 수 있다.

 

쉬는 시간마다 코딩하던 의사,

AI와 빅 데이터 전문가가 되다.

그러나 ‘데이터가 서 말이라도 꿰어야 보배’란 업계의 격언처럼 방대하게 수집된 데이터를 활용하기 위해서는 자료 관리 기술과 분석 기술이 필수적으로 요구된다. 인공 지능의 도움을 받는다고 해도 무엇을 분석할지를 결정하는 것은 결국 사람이므로, 바야흐로 의사가 메스뿐만 아니라 컴퓨터도 잘 다루어야 하는 시대가 열린 것이다. 이를 실천하고 있는 사람이 바로 김종엽 건양 대학교 의과 대학 교수다. 우리에게 600만 방문자를 돌파한 의학 상식 블로그 ‘깜신의 작은 진료소’의 운영자나 SBS ‘자기야’, 유튜브 채널 「나는 의사다」 같은 방송에 출연했던 모습으로 더 익숙할 수 있으나, 사실 김종엽 교수는 과학 고등학교 시절부터 컴퓨터 코딩을 취미로 즐겼던 특이한 이력의 소유자였다.

의료와 IT(정보통신) 기술의 융합이 화두로 떠오르던 2018년 그는 건양 대학교에서 정보 의학 교실을 처음으로 개설해 초대 주임 교수를 맡았고, 2019년에는 헬스케어 데이터 사이언스 센터를 개설해 병원에서 만들어지는 의료 데이터를 비식별화(익명화)하고 외부에 공개했다. 의료 데이터의 연구적 활용 가능성을 높이고 의료 인공 지능 발전 및 인프라 조성에 기여한 이 공로를 인정받아, 김종엽 교수는 2021년 1월 과학기술정보통신부 장관상을 받기에 이른다. 이뿐만 아니라 그는 최근 보건복지부와 DNA(데이터·네트워크·인공 지능) 중장기 국가 전략 및 실행 계획을 수립하고 대통령 직속 4차산업혁명위원회에서 디지털 헬스케어 특별위원회 위원을 맡기도 하는 등, 그야말로 대한민국을 선도하는 AI와 메디컬 빅 데이터 전문가로서 활약을 펼치고 있다.

 

빅 데이터 연구를 꿈꾸는 초보 연구자를 위한

김종엽 교수의 R 통계 분석 안내서

2021년 하반기 사이언스북스 신간으로 출간되는 『R 통계의 정석』은 김종엽 교수가 빅 데이터 연구의 권위자로서, 빅 데이터의 올바른 활용을 위해 선결되어야만 하는 프로그래밍 언어 R의 사용법을 자신의 유튜브 채널에서 3년간 강의한 내용과, 건양 대학교 의과 대학 학생들에게 진행한 수업 내용을 책으로 엮은 결과물이다.

컴퓨터에 익숙하지 않은 의과 대학생을 대상으로 한 이 수업에서, 그는 작업 전 원자료를 정리하고 오류를 줄이는 과정부터 R에 데이터를 불러오는 방법, R을 활용해 그래프를 생성하고 상관 분석, 푸아송 분석, 생존 분석 같은 각종 분석을 하는 방법까지 메디컬 빅 데이터 연구에 필요한 모든 과정을 총 17개의 강의에 녹여냈다.

 

R이란?

1993년 뉴질랜드 오클랜드 대학교에서 개발된, 통계 및 그래프 작업을 위한 프로그래밍 언어이다. 개인, 기관, 기업에서 모두 무료로 사용 가능한 오픈 소스 프로그램인 R은 통계학자들이 개발한 만큼 데이터 분석에 특화되어 있다. 전 세계인이 만들어 공유한 12,500여 개의 통계 패키지 설치를 통한 기능 확장으로 다양한 통계 기법 적용과 그래프 작성을 손쉽게 할 수 있다.

 

『R 통계의 정석』만의 강점

■ 실제 연구 과정에 바로 적용 가능

연구자에겐 자신의 연구 가설을 확인하기 위한 통계 방법을 고르는 일부터가 큰 난관이다. 『R 통계의 정석』은 그러한 독자에게 어떤 통계 방법을 골라야 하고, 그 이유는 무엇인지를 최대한 쉽게 설명할 수 있도록 구성되었다. 통계 분석이 급하게 요구되는 실전 상황에서, 자신의 연구 내용과 맞는 장을 목차에서 찾아 바로 도움을 받을 수 있다.

 

■ 의학 분야의 R 사용 상황에 특화

『R 통계의 정석』은 일반적으로 R을 사용하려는 모든 사람이 충분히 활용할 수 도록 쓰였지만, 주로 의학 분야에서 R을 필요로 하는 상황에 맞추어 데이터를 다루는 기본적인 기능뿐만 아니라 R의 장점인 통계 그래픽을 최대한 활용할 수 있는 실전적 방법들을 소개하고 있다. 책의 후반부에는 상관 분석, 다중 회귀 분석, 푸아송 분석, 생존 분석 등 보건 의료 통계에서 R로 수행하는 분석을 위주로 친절한 설명이 이루어진다.

 

■ 강의 내용을 실습할 수 있는 데이터 세트와 코드

사이언스북스 도서 페이지(http://sciencebooks.minumsa.com/book/1390)에서 강의에서 사용된 데이터 세트와 코드의 압축 파일을 제공한다. QR코드를 통해 도서 페이지로 들어가 챕터별로 정리된 파일로 강의 속 계산과 그래프 그리기를 직접 해 볼 수 있다.

 

■ 강연 영상으로 저자와 만나기

저자의 유튜브 채널(https://www.youtube.com/musezzang1)에 ‘깜신의 통계 왕초보 탈출’이라는 이름으로 총 44편의 강의가 업로드되어 있다. 책에 소개된 내용 외에도 통계 분석에 관심이 있는 독자라면 많은 도움을 받을 수 있다.

 

책에 나온 표현대로, “이게 무슨 귀신 씻나락 까먹는 소리냐.” 싶어도 일단 그의 말만 믿고 따라 하다 보면 어느새 R에 익숙해지게 되는 『R 통계의 정석』. 이 책과 함께라면, 평생 프로그래밍 언어와의 접점이라고는 영화나 드라마에서 화면에 뜨는 정체불명의 텍스트를 본 경험밖에 없었던 의대생(또는 통계를 활용해야만 하는 다른 전공 학생)이라도 데이터를 읽고, 고품질 그래프를 그리고, 데이터 분석을 하는 능력이 저절로 생겨나며 빅 데이터 연구를 향한 첫걸음을 내딛는 자신을 발견할 수 있을 것이다.

목차

차례

들어가는 글 5

1강 통계 작업을 염두에 둔 엑셀 파일 만들기 11

2강 엑셀을 CSV 파일로 변환해서 RStudio로 불러오기 17

3강 두 그룹의 평균을 비교하기 29

4강 세 그룹 이상의 평균을 비교하는 방법 45

5강 여러 그룹에서 그룹 간 평균 비교하기(사후 검정) 63

6강 그룹 간의 비율을 비교하기 77

7강 모자이크 & 막대그래프 따라 하기 95

8강 짝을 이룬 데이터 분석 개념 잡기 117

9강 동일 대상 또는 매칭된 대상에서 A약과 B약의 효과,

치료 전후의 결과 비교하기 125

10강 동일 대상 또는 매칭된 (셋 이상의) 대상에서

치료 1, 2, 3개월 후의 결과 비교하기 139

11강 상관 분석 알아보기 177

12강 단순 회귀 분석 알아보기 187

13강 회귀 모형을 받아들이기 위한 기본 가정 195

14강 다중 회귀 분석 211

15강 로지스틱 회귀 분석 239

16강 푸아송 회귀 분석 263

17강 생존 분석 277

부록 1 파일 경로 마스터하기 299

부록 2 상대 위험도와 교차비의 차이 311

더 읽을 거리 317

찾아보기 319

 

작가 소개

김종엽

전공은 이비인후과이나 현재는 의과 대학 정보 의학 교실 주임 교수로서 연구에 더 많은 시간을 할애하고 있다. 2009년 ‘깜신의 작은 진료소’라는 블로그를 개설한 것을 계기로 ‘깜신’이라는 닉네임으로 방송 및 집필 활동을 꾸준히 해 오고 있다. 저서로는 『의사아빠 깜신의 육아시크릿』, 『꽃중년 프로젝트』, 『코 사용설명서』(공저), 『꽃보다 군인』(공저), 『닥터스 블로그』(공저) 등이 있다. 유튜브 채널 「나는 의사다」에서 메인 MC로 출연하고 있으며, 건양 대학교 병원에서는 헬스케어 데이터 사이언스 센터 센터장으로 의료 정보 표준화와 의료 인공 지능 개발을 통한 정밀 의료 구현에 힘쓰고 있다.

독자 리뷰(2)
  1. 이동식
    2022년 6월 23일 7:18 오후

    비공개 댓글

    URL
  2. 나이브
    2021년 10월 21일 10:54 오전

    비공개 댓글

    URL