데이터 마이닝의 개념과 실제 활용 사례
데이터 마이닝의 개념과 실제 활용 사례
데이터 마이닝에 대한 정의는 1995년도에 지식 발견 및 데이터 마이닝(KDD:Knowledge Discovery and Data Mining) 국제학술대회가 처음 개최된 이후, 다양하게 제시되기 시작했는데요. 데이터 마이닝은 한마디로 “대량의 데이터 집합으로부터 유용한 정보를 추출하는 것”으로 정의되고 있습니다. 이를 좀 더 상세히 살펴보면, 데이터 마이닝이라는 것은 의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나, 반 자동화된 도구를 이용해서 대량의 데이터를 탐색하고 분석하는 과정을 말합니다. 다음 그림에서 보시는 바와 같이, 데이터 마이닝은 데이터베이스, 데이터 웨어하우스, 데이터마트와 같은 방대한 양의 데이터에서 데이터에 함축되어 있으나 이전에는 발견되지 않은 잠재적으로 유용한 정보를 새롭게 추출해서 과거 행위의 분석을 기초로 미래를 예측되는 원리로 구동된다고 볼 수 있습니다. 이러한 데이터 마이닝의 특징은 크게 대용량의 관측 가능한 자료, 컴퓨터 중심적 기법, 경험적 방법에 근거하는 것, 그리고 일반화에 초점을 두는 등의 네 가지로 나누어 볼 수 있는데요.
데이터 마이닝 네 가지 특성
네 가지 특징에 대해 자세히 살펴보겠습니다. 첫 번째 특징으로 데이터 마이닝은 대용량의 관측 가능한 자료를 다룬다는 것입니다. 이 자료는 크게 실험자료와 관측자료로 나누어 볼 수 있는데요. 여기서 실험자료는 가설검정 등의 구체적인 문제에 답하기 위해 여러 요인들이 통제되고 조작된 가운데 만들어집니다. 또한 관측자료는 시간의 흐름에 따라서 비계획적으로 축적되는 자료인데요. 이 자료는 자료 분석을 염두에 두고 수집되지 않는 것이 일반적입니다. 데이터 마이닝은 이러한 대용량의 관측 가능한 자료를 다룰 수 있도록 하는 기법이라고 보시면 됩니다. 두 번째 특징으로 데이터마이닝은 컴퓨터 중심적 기법이라는 것입니다. 현재의 컴퓨터 중심적 기법들은 기존의 기법들로서는 해결하기 곤란한 경우들이 있는데, 이를 해결하기 위해 데이터 마이닝은 컴퓨터의 강력한 처리속도와 능력을 활용할 수 있도록 하고 있습니다. 세 번째 특징으로, 데이터 마이닝은 경험적 방법에 근거하고 있습니다. 많은 데이터 마이닝 기법들은 이론적 원리에 기초하여 개발되었다기보다는 경험에 기초하여 개발되었다고 볼 수 있습니다. 네 번째 특징으로, 데이터 마이닝은 일반화에 초점을 두고 있습니다. 일반화는 예측모형이 새로운 자료에 얼마나 잘 적용되도록 하는 것인가를 의미하는데요. 따라서 일반화는 데이터 마이닝 기법의 비정형성을 어느 정도 해결 또는 보완해 주는데 도움을 주고 있습니다. 이러한 데이터 마이닝의 기법들은 매우 다양한 분야에서 개발되었고, 통계학, 컴퓨터 과학, 경영 정보학 등 여러 학문분야에서 연구되어 오고 있는데요.
데이터 마이닝과 관련된 분야
여기에서는 데이터마이닝과 관련된 분야들을 간단히 살펴보겠습니다. 첫 번째는 통계학 분야입니다. 대부분의 데이터 마이닝 기법들은 통계학에서 연구되고 개발되어 온 것입니다. 예를 들어, 데이터 마이닝의 모형 구축에서 가장 많이 사용되는 기법 중에 하나인 판별분석은 1936년에 시작된 다변량 통계분석의 한 기법이라고 할 수 있습니다. 두 번째로 패턴인식 분야인데요. 패턴인식은 공학에서 출발하였으며, 문자인식 또는 이미지 분류와 깊은 관련을 가지고 있습니다. 이러한 패턴인식은 데이터베이스에서 유용한 패턴을 찾아내는 다양한 기법들을 제공하고 있습니다. 그 외에도 데이터 마이닝은 신경망 등과 관련된 '뉴로컴퓨팅' 분야와 인공지능의 한 분야로서 자동적인 학습기법을 설계하고 구현하는 '기계학습' 분야에서도 개발되고 연구되고 있습니다.
데이터 마이닝 활용분야
데이터 마이닝은 활용분야도 매우 다양합니다. 특히 기업의 의사결정 문제에서 많이 활용되고 있는데요. 주요 활용분야와 그 특징에 대해서 알아보도록 하겠습니다. 첫 번째는 데이터베이스 마케팅 분야입니다. 데이터베이스 마케팅은 데이터 마이닝이 가장 성공적으로 적용되고 있는 분야 중 하나인데요, 목표 마케팅, 고객 세분화, 고객 성향 변동 분야, 교차판매, 장바구니 분석 등에서 주로 이용되고 있습니다. 또한 이러한 데이터베이스 마케팅은 소매, 통신판매, 금융서비스, 건강, 보험, 통신 등 다양한 분야에서 활용되고 있습니다. 두 번째는 신용평가 분야입니다. 신용평가는 특정인의 신용거래 대출한도를 결정하는 것이 주 업무로서, 목적은 불량채권과 대손을 추정하여 이를 최소화하기 위한 것인데요. 신용거래 확대를 위한 의사결정 적용분야로는 신용카드, 주택할부금융, 소비자 대출, 상업 대출 등을 들 수 있습니다. 세 번째는 품질관리 분야입니다. 품질관리의 목적은 불량품을 찾고, 그 원인을 밝혀서 궁극적으로 이를 예방하는 것입니다. 병원과 의료보험 조합 등에서는 병원에서 발생하는 사망, 불필요한 장기입원 및 의료비의 과다청구에 초점을 맞추고 있고요, 제조업체의 경우에는 제품 보증청구를 유발하는 불량품 감소를 통한 이윤 증가에 중점을 두고 있는 있습니다. 다음으로 부정행위 적발 분야입니다. 부정행위 적발의 목적은 고도의 사기행위를 발견할 수 있는 패턴을 알아내는 것인데요. 은행에서는 발견된 패턴을 이용해서 신용카드 거래 사기 및 불량 수표를 적발할 수 있고요. 통신회사에서는 전화카드 거래 사기를 방지할 수 있습니다. 마지막으로 이미지 분석 분야입니다. 이미지 분석은 디지털 데이터로부터 패턴을 추출하는 기법입니다. 이는 천문학, 문자인식, 의료진단, 방위산업 등 다양한 분야에서 활용되고 있습니다 이미지 분석의 예로는 카메라로 촬영한 사진이나 문자를 디지털 신호로 바꾸어 적당한 데이터의 형태로 변환한 후 그것을 판독하는 것입니다.
데이터 마이닝의 실제 적용 사례
다음은 데이터마이닝의 실제 적용 사례를 몇 가지 살펴보도록 하겠습니다. 먼저 소매업에 적용된 사례입니다. 미국의 한 할인점 회사는 매장 내의 상품들과 고객들의 구매패턴의 연관성을 발견하기 위해서 데이터 마이닝을 수행하였는데요. 여기에는 연관성 규칙 발견 알고리즘을 이용한 장바구니 분석이 사용되었습니다. 이를 통해 발견된 결과는 상품진열 등에 반영해서 고객의 추가 구매를 유도하여 매출을 증가시켰습니다. 여기서 사용된 장바구니 분석기법은 5주 차 강의에서 자세히 알아보도록 하겠습니다 다음은 신용카드 회사의 적용 사례입니다. 국내의 한 신용카드 회사는 카드 사용의 부정행위를 적발하고 예방하기 위해 데이터 마이닝을 적용하였는데요. 사용된 기법으로는 통계적 기법, 의사결정 나무 분석기법 그리고 신경망 분석기법 등을 이용하여 카드 사용 패턴을 분석하였습니다. 과거에 정상적으로 거래된 데이터와 도용 사고 경험이 있는 데이터를 기반으로 각각의 패턴을 분석하여 모형화하였는데요, 이렇게 구축된 모형을 카드 승인 시에 적용해서, 만일 부정행위로 의심이 되면 승인을 거부함으로써 불법적인 카드 사용을 적발하거나 사전 예방할 수 있었습니다. 다음은 의료분야 적용 사례입니다. 미 중부에 위치한 한 대학병원에서는 종양의 악성과 양성 판단에 의한 암 진단의 정확성을 높이기 위해서, 판별 및 분류 분석기법을 수행하였습니다. 이는 과거의 환자들의 종양 검사 결과를 근거로, 종양의 악성과 양성 분류 모형을 만든 후에, 새 환자로부터 채취한 종양 분류 시에 적용하였습니다. 이는 각종 종양들에 대한 구분력을 향상했고 더욱 정확한 암 진단과 치료에 이용되고 있습니다. 다음은 제조업 적용사례입니다. 미국의 한 반도체 제조회사에서는 반도체 제조과정 중에 발생하는 불량품의 자동 발견을 위해서 데이터 마이닝 기법을 사용하였습니다. 이를 위해 연관성 규칙 발견과 군집분석 알고리즘을 이용해서 제조공정의 현상을 분석하였는데요, 정상제품만으로 정상적인 제품의 군집 모양, 크기 등을 결정한 후 만일 어떤 제품이 이 정상제품 군집의 범위 밖에 위치한다면 불량품으로 규정하는 것입니다. 이와 같은 분석은 불량품의 패턴을 발견하는데도 도움을 주었고, 불량품을 감소시켜 기업의 이익을 증가시켰다고 합니다 다음 적용사례로는 통신회사 적용 사례입니다. 미국의 한 장거리 전화서비스 회사는 매년 전체 고객의 23%를 잃고 있었고, 또, 고객을 새로 유치하는데 1인당 삼백오십 달러의 비용이 지출되었습니다. 이에 고객의 이탈 방지 및 감소를 위해서 고객의 이탈 가능성을 예측할 수 있는 모형을 개발하였습니다. 이때 고객 성형 변동관리와 군집분석을 이용해서 이탈의 원인을 파악하였습니다. 그 결과 고객의 60% 정도는 경쟁업체로 옮겨갈 가능성이 적은 우수고객이었고, 나머지 40%는 이탈 가능성이 높은 고객임을 알게 되었습니다. 또한 이익 분석을 통해 이러한 이탈 방지 노력이 이탈 가능성이 매우 높은 고객에게는 별 효과가 없었으나, 이탈 가능성이 어느 정도 높은 고객에게는 큰 효과를 발휘한다는 것을 발견할 수 있었습니다. 이를 기반으로 이 회사는 무료 전화서비스 등을 제공하는 목표 마케팅 전략을 통해서 고객 이탈률을 19. 7%로 줄이고 큰 이익 증가를 기록한 것으로 나타나고 있습니다. 마지막으로 스포츠 경영에 적용된 사례입니다. 스포츠 경영에서도 스포츠 소비자에 대한 마케팅 전략이나 활동을 위해 데이터 마이닝을 이용한 소비자 관련 정보분석의 역할이 강조되고 있는 상황입니다. 이미 많은 선진 프로 스포츠 관련 기업들은 스포츠 소비자의 행위에 있어서 여러 특성들을 구체적으로 분류해서, 그들이 목표로 하는 소비자와 행동 특성을 파악하고 있는데요. 이를 위해 입장권 판매나 회원 모집을 통한 정보 그리고 이벤트 사업 들에서 획득되는 소비자 관련 정보들을 다양하게 수집해서, 분석하고 있습니다. 또한 결과를 통해서 소비자의 스포츠 참여를 유인하고 관련 상품의 매출을 증대시키고 있습니다. 이상 데이터 마이닝의 개념을 살펴보았습니다.