본문 바로가기

끄적대기

데이터 품질과 전처리

728x90
반응형

˙데이터 품질 문제

 ▷ 노이즈(Noise)

   노이즈 원본 값을 왜곡시키는 것을 의미한다. 기존의 신호와는 다르게 표현된다.


 ▷ 이상치(Outlier)

   데이터 집합 내의 다른 객체들과는 다른 특징을 갖는 객체를 의미한다. 상이함의 정도를 따질 때에는 정확한 구분 값이 필요하다.

 

 ▷ 누락 값(Missing Values)

   정보 수집이 정확하게 이루어지지 않거나 모든 데이터에 적용되지 못하는 경우이다. 누락 값은 객체를 제거하고, 누락 값을 추정하고, 분석 과정에서의 누락 값은 무시하고, 가능한 값으로 대치한다.

 

 ▷ 중복 데이터(Duplicate Data)

   데이터 집합은 중복되거나 유사한 데이터를 포함할 수 있다. 중복 데이터는 데이터 정제 과정을 거쳐 해결한다.

 

˙데이터 전처리

 ▷ 집계(Aggregation)

   두 개 이상의 속성들을 하나의 속성으로 통합하는 기술이다. 합계나 평균, 최대 값, 최소 값 등의 값을 도출한다. 집계의 목적은 속성을 줄이는 데이터 축소나 스케일 변환 과정 등이 있다. 집계된 데이터는 변동성이 보다 적다(보다 안정적인 데이터 제작).


 ▷ 샘플링(Sampling)

   전체 데이터 중 일부만을 선택하는 기술이다. 전체 데이터 분석에 너무 많은 시간과 비용을 투자하여야 할 때 사용한다. 샘플을 사용한 경우와 전체 데이터를 사용한 결과가 같을 때 가장 효과적인 샘플링이다.


   - 랜덤 샘플링 : 무대체 샘플링(Sampling Without Replacement, 비 복원 추출)

   - 랜덤 샘플링 : 대체 샘플링(Sampling With Replacement, 복원 추출)

   - 층화 샘플링 : 모집단을 층으로 나누고 각 층에서 아이템들을 추출

 

 ▷ 특성 선택과 추출(Feature Selection and Extraction)

   - 특성 선택(Feature Selection) : 전체 속성 중에서 몇 개의 대표적인 속성만을 선택하여 축소한다. 축소 과정이 간단하지만, 대표 속성이 객체 전체를 잘 반영할수록 좋은 성능이 된다.

   - 특성 추출(Feature Extraction) : 전체 속성 값들을 변환하여 몇 개의 새로운 속성을 생성함으로써 축소한다. 축소 과정이 복잡하지만, 생성된 속성이 전체 속성 값들을 잘 반영하는 특징을 지닌다.

728x90
반응형

'끄적대기' 카테고리의 다른 글

Python 정규 표현식(Regular Expression)  (0) 2022.03.24
L2 ~ L7 Switch(Switching)  (0) 2022.03.24
Data Mining(데이터 마이닝)  (1) 2022.03.24
Big-Date(빅-데이터) 정의  (0) 2022.03.24
Blocking Socket, Non-Blocking Socket  (0) 2022.03.24