비정형 데이터 마이닝 - 오피니언 마이닝 기법
비정형 데이터 마이닝 기법 중 오피니언 마이닝 기법에 대해서 말씀드리겠습니다. 오피니언 마이닝은 어떤 사안이나 인물, 이슈, 이벤트 등과 같은 원천 데이터에서 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것인데요. 오피니언 분석, 평판 분석, 정서 분석이라고도 합니다. 일반적으로 말해서 오피니언 분석은 어떤 화제나 문서의 전반적 문맥 특성과 관련된 작성자나 화자의 태도를 파악하는데 도움을 주는데요. 여기서 태도는 판단이나 평가, 효과적 상태나 의도된 감정적 의사소통 등에 대한 것일 수 있습니다. 오피니언 분석의 기본적인 작업은 문서, 문장, 특징, 관점 수준에서 표현된 견해가 긍정적인지, 부정적인지, 중립적인지, 진보적인지 주어진 텍스트의 특성을 분류하는 것입니다. 오피니언마이닝에서 주요 분석 대상은 포털 게시판이나, 블로그, 쇼핑몰과 같은 대규모의 웹 문서이기 때문에 자동화된 분석 방법을 주로 사용합니다. 또한 분석 내용이 주로 텍스트로 이루어져 있기 때문에 텍스트 마이닝에서 활용하는 자연어 처리나, 텍스트 분석, 컴퓨터 언어학 등의 기술도 함께 사용합니다. 이러한 오피니언 마이닝은 상품이나 서비스에 대한 시장 규모를 예측한다거나 소비자 반응이나 입소문을 분석하는데 활용되고 있는데요. 이를 위해서는 전문가에 의해 선호도를 나타내는 표현이나 단어 등에 대한 자원을 축척해 두는 것이 필요합니다.
오피니언 마이닝의 3단계
오피니언 마이닝은 주로 3단계로 이루어지는데요. 먼저 1단계는 긍정 또는 부정을 표현하는 단어 정보를 추출하는 단계입니다. 기존에 구축된 사전 등의 리소스를 이용하거나 수작업을 통해서 해당 도메인의 고빈도 긍정과 부정 단어를 확인하는 방법을 사용합니다. WordNet의 각 어휘에 오피니언 정보를 부착한 SentiWordNet 방식과 WordNetAffect를 활용할 수 있습니다. 참조하시기 바랍니다 또한 학습 데이터에 대한 통계 정보를 활용해서 자동으로 어휘 정보를 얻을 수 있는데요. 2단계는 세부 평가요소와 오피니언으로 구성된 문장을 인식하는 단계입니다.. 첫 번째 단계에서 구축된 어휘 정보를 이용해서 세부 평가 요소와 긍정표현 또는 부정 표현을 찾게 되는데요. 오피니언이 긍정적인지 또는 부정적인지 문장 단위로 분류하기 위해서 규칙 기반 방법이나 통계기반 방법을 동시에 사용할 수 있습니다. 통계적인 방법을 사용할 때에는 unigram 보다는 bigram, n-gram으로 확장해서 문맥에 따른 긍정 정보를 판별하고자 하고 있고요. 자연어 처리 기법을 이용해서 정확도를 향상하고자 하고 있습니다. 3단계는 긍정표현 또는 부정표현의 수 및 중요 문장을 추출해서 리뷰 요약을 생성하는 단계입니다. 오피니언 마이닝의 결과는 긍정이나 부정 평가의 정도를 나타내거나 요약 형태로 제시될 수 있습니다. 예시 1을 보면, 특정 맛집의 여러 평가요소에 대한 긍정 또는 부정 표현의 비율을 나타내는데요. 이러한 오피니언 마이닝 결과를 통해 사람들이 그 맛집의 세부 평가요소에 대해서 좋아하거나 싫어하는 정도를 알 수 있습니다. 또한 예시 2는 특정 맛집의 평가요소 중 '가격'에 대한 리뷰 요약의 예시인데요. 리뷰 요약은 사용자들의 리뷰를 대표하면서 유익한 정보를 제공해 줄 수 있어야 합니다. 또한 읽기 편하고 길지 않아야 합니다.
오피니언 마이닝의 특징
이러한 오피니언마이닝의 특징은 크게 세 가지로 나누어 볼 수 있습니다. 첫째는, 의견파악이 용이하다는 것입니다. 즉 사람들의 의견을 쉽게 파악할 수 있다는 것입니다. 따라서 기업의 입장에서 향후 의사 결정을 하는데 중요한 정보를 제공받는 것이 가능합니다. 둘째는, 서비스 개선이 용이합니다. 공공분야의 경우, 오피니언 마이닝을 활용하면 민원의 원인이나 문제점 등을 파악하는 것이 용이해서 서비스 개선이 가능해집니다. 마지막으로 마케팅 비용이 절감될 수 있다는 장점이 있습니다. 기존에 소비자의 감정과 의견을 조사할 때에는 일일이 설문조사를 통해 사람들의 의견이나 심리를 조사해야 했기 때문에 막대한 마케팅 비용이 들어갔으나, 오피니언 마이닝을 활용하면 이를 절감할 수 있게 됩니다. 이상으로 정형 데이터 마이닝 및 비정형 데이터 마이닝 등을 포함한 비정형 데이터 마이닝 기법에 대해서 말씀드리겠습니다.
'바이오헬스, 데이터 마이닝, 정형 데이터 학습 이론' 카테고리의 다른 글
비정형 데이터의 개념과 웹마이닝 기법 (0) | 2022.07.26 |
---|---|
비정형 데이터마이닝 - 텍스트마이닝 기법 (0) | 2022.07.25 |
바이오헬스 산업의 국내외 상업화 사례 (0) | 2022.07.25 |
바이오헬스 빅데이터의 국외 이슈와 국내외 시장동향 (0) | 2022.07.24 |
바이오헬스 빅데이터의 국내 이슈 (0) | 2022.07.24 |