top of page

세종대왕과 한글

최종 수정일: 2019년 1월 19일

며칠 전은 한글날 이었습니다.

한글의 위대함은 너무나 많습니다.


생각나는 대로 몇가지만 나열해 보겠습니다.

(1) 발성기관의 모양을 본떠 만든 글자라는 점
(2) 획이 더하면서 된소리, 거친소리 등으로 변하게 한 점
(3) 초/중/종성이 합쳐져서 디자인적으로 너무나 이쁜 글자가 되어 가로쓰기, 세로쓰기가 모두 된다는 점
(4) 한자처럼 컴퓨터 입력이 어렵지 않도록 수십가지 글자로 이뤄진 표음문자라는 점
(5) 배우고 익히기 쉬운 점
(6) 이 한글의 위대한 과학성으로 인하여 점자(훈맹정음)까지도 세계에서 가장 과학적인 점

예전 “뿌리깊은 나무”라는 드라마에서 나온 이 장면이 명장면이라고 생각합니다.


최근 방탄소년단의 글로벌한 인기에 힘입어 한글을 배우겠다는 외국인이 무척 늘어났다고 합니다.

그들이 쓴 글자들이 참 이쁩니다.

자랑스럽네요


컴퓨터 세상은 어떨까요?

“0”과 “1”로 이뤄져 있다고 하죠~ bit 단위입니다.

1개의 문자를 표현하기 위해서는 1byte = 8bit가 필요합니다.

즉, 1문자 = 1byte = 8bit 입니다. (정확하게는 7bit면 키보드에 있는 모든 문자가 표현되지만 에러검출용으로 1bit를 사용함)

한글을 모두 표현하기 위해서는 2byte = 16bit가 사용됩니다.


데이터 세상에서는 코드를 사용합니다.

우리 심평원의 환자데이터셋에서도 자연어(사람이 이해하는 언어, 한국어나 영어 등)가 하나도 없습니다.


예를 들어 주상병명에는 “I132”라고 기재되어 있습니다.

이것은 “(울혈성) 심부전 및 신부전을 동반한 고혈압성 심장 및 신장병”의 상병코드입니다. 정말 길죠~

가장 간단한 코드는 성별코드에서 “남자”는 “1”, “여자”는 “2”입니다.

아스피린 500mg짜리 정제의 일반명코드는 “110702AT”입니다.


이러한 코드를 모두 알아야만 데이터분석을 할 수 있습니다.

이렇게 많은 코드들을 모두 자연어로 처리하는 것은 컴퓨터에 큰 부하를 줍니다.

코드로 표현된 데이터의 개수만 해도 엄청난 양인데, 이것을 모두 자연어로 바꾸면 메모리 부족은 당연합니다.


그래도 티핑인사이트는 코드를 전부 자연어로 먼저 처리한 다음에 데이터 분석을 진행합니다.

사용자는 데이터 분석을 진행하는 과정과 결과를 볼때 모두 코드없이 자연어로만 볼 수가 있습니다.

외국어를 듣고 우리말로 번역을 하는 것과 같이 코드로 분석하고 자연어로 번역하게되면 아무래도 시간이 지체되기 마련이고

외국어와는 달리 코드는 전부 외울수가 없을 만큼 많기 때문입니다.


화제를 바꿔서...

환자데이터셋을 제대로 분석하여 현업에 이용하기 위한 자질(?)을 정리해 보고자 합니다.

대략 아래와 같은 주요 자질들이 필요합니다.

(1) 대한민국 의료체계에 대한 이해
(2) 국민건강보험 급여체계에 대한 이해
(3) 청구데이터의 구조와 구성에 대한 이해
(4) 청구데이터에서 사용되는 모든 코드에 대해 매칭되는 자연어(한국어)
(5) 빅데이터를 분석하는 데에 충분히 빠르고 메모리가 큰 서버급 컴퓨터 확보
(6) 데이터 분석을 하고 시각화를 하는 프로그램 확보
(7) 상기의 모든 것을 종합적으로 이해하고 데이터를 분석할 수 있는 능력(개인의 능력)
(8) 현업에서의 경험과 능력 (없어도 되지만 인사이트를 뽑고 현실에서 활용하기 위해 필요함)

“냉장고를 부탁해”라는 글에서도 언급한 적이 있지만 (8)번에 대해서는 특히 강조드리고 싶습니다.

만약 위에서 언급한 내용중 일부라도 부족하다면 그 부분을 잘 아는 인력과 협업을 해야 하겠습니다.


한글날 부터 시작된 글을 결국 데이터 분석으로 마무리 합니다.

저는 천상 분석쟁이인가 봅니다.

그리고 티핑인사이트는 대한민국 빅데이터 분석에 세종대왕을 꿈 꿉니다. R을 몰라도 SAS를 몰라도 테블로 따위 안 배워도 인터넷만 할줄알고 한국어만 안다면 누구나 현업에 빅데이터를 접목하는 세상! 바로 티핑인사이트가 꿈꾸는 세상 입니다.




댓글 0개
bottom of page