˙데이터 마이닝(Data Mining)
방대한 양의 데이터가 현재에도 끊임없이 저장되고 있다. 저장된 데이터(Warehoused)들을 활용하기 위하여 데이터 마이닝의 기술 출현하고 있고, 기업은 보다 많고 신뢰성 높은 데이터를 확보함으로써 경쟁력을 키우고 있다. 이러한 필요성으로 데이터 마이닝의 기술은 점점 더 발전해 나아가고 있다.
과학적으로 수집된 광범위한 양의 데이터가 수집되고 있음에 따라 저장과 분석이 필요로 한다. 기존의 기술들은 현재의 저장된 데이터(Warehoused) 처리에 적합하지 않기 때문에 새로운 기술들이 필요하다. 경우에 따라 마이닝의 기술이 필요한 데이터들이 있다.
결국, 데이터로부터 아직 알려지지 않은 잠재적으로 유용한 정보를 추출하는 작업이 필요하다. 데이터 분석의 목적은 대용량의 데이터로부터 가치(의미) 있는 패턴을 찾아내는 작업으로, 패턴은 사람이 하는 것은 의미 없고, 전처리와 자동화된 기술을 요구한다. 데이터 마이닝은 기계학습, 인공지능, 패턴인식, 통계, 데이터베이스로부터 유래한다.
˙데이터 마이닝(Data Mining) 기법
▷ 분류(CLASSIFICATION)
- 훈련 집합(Training Set) : 분류 모델을 만들기 위한 레코드들의 집합
- 테스트 집합(Test Set) : 분류 모델의 정확성 판별을 위한 레코드들의 집합
- 데이터들의 일부(80~90%)를 훈련 집합으로 생성, 나머지(10~20%)를 테스트 집합으로 생성
- 주어진 훈련 집합의 레코드들을 사용하며, 속성 값들의 입력으로 클래스를 출력하는 모델을 찾는 작업
- 테스트 집합의 레코드들을 통하여 모델의 정확성을 판별하여, 일정 수준 이상이 되면 모델로 정의
- 100% 정확성은 상대적으로 불가능하지만 일정 수준의 정확성(임계값)이 확보되면 분류
▷ 클러스터링(CLUSTERING) : 군집화
- 클러스터링 대상인 데이터 포인트(Data Point)
- 데이터 포인트는 여러 속성들로 구성되어 있고, 포인트들 간에는 유사 척도가 부여
- 유사도에 대한 이론을 이용하여 두 개체 간의 속성들의 거리 간격을 판단하여 군집도를 분석
- 클러스터 내의 데이터 포인트들은 서로 많이 유사한 반면에, 클러스터 간의 데이터 포인트들은 서로 적게 유사하도록 구성
▷ 순차 패턴(SEQUENTIAL PATTERN)
- 주어진 객체 집합에서 객체들은 이벤트들의 시간 순서를 가질 때, 순차적인 의존관계를 가지는 규칙 찾기
- 규칙들은 찾아낸 패턴으로 형성되며, 패턴 내에 이벤트는 시간 제약에 영향을 받음
▷ 회귀분석(Regression Analysis)
- 독립변인 : 실험 결과에 영향을 줄 수 있는 요소
- 종속변인 : 조작 변인이 변함에 따라 함께 변하는 요소
- 조작변인 : 가설이 검증할 수 있도록 의도적으로 변화를 주는 요소
- 독립변인이 종속 변인에 영향을 미치는지 알아보기 위한 분석
- 보통 변수들에 대하여 선형(Linear) 또는, 비-선형(Non-Linear) 모델을 가정
▷ 이상치 탐색(Outlier Detection)
- 정상적인 행위들로부터 크게 다르거나 이상한 데이터를 검출
- 네트워크 상에서 해킹 시도나 이상 징후(현상)등을 판단
'끄적대기' 카테고리의 다른 글
L2 ~ L7 Switch(Switching) (0) | 2022.03.24 |
---|---|
데이터 품질과 전처리 (0) | 2022.03.24 |
Big-Date(빅-데이터) 정의 (0) | 2022.03.24 |
Blocking Socket, Non-Blocking Socket (0) | 2022.03.24 |
콘텍스트 스위칭(Context Switching) (0) | 2022.03.24 |