데이터 품질과 전처리

728x90

▷ 노이즈(Noise)

노이즈 원본 값을 왜곡시키는 것을 의미한다. 기존의 신호와는 다르게 표현된다.

▷ 이상치(Outlier)

데이터 집합 내의 다른 객체들과는 다른 특징을 갖는 객체를 의미한다. 상이함의 정도를 따질 때에는 정확한 구분 값이 필요하다.

▷ 누락 값(Missing Values)

정보 수집이 정확하게 이루어지지 않거나 모든 데이터에 적용되지 못하는 경우이다. 누락 값은 객체를 제거하고, 누락 값을 추정하고, 분석 과정에서의 누락 값은 무시하고, 가능한 값으로 대치한다.

▷ 중복 데이터(Duplicate Data)

데이터 집합은 중복되거나 유사한 데이터를 포함할 수 있다. 중복 데이터는 데이터 정제 과정을 거쳐 해결한다.

▷ 집계(Aggregation)

두 개 이상의 속성들을 하나의 속성으로 통합하는 기술이다. 합계나 평균, 최대 값, 최소 값 등의 값을 도출한다. 집계의 목적은 속성을 줄이는 데이터 축소나 스케일 변환 과정 등이 있다. 집계된 데이터는 변동성이 보다 적다(보다 안정적인 데이터 제작).

▷ 샘플링(Sampling)

전체 데이터 중 일부만을 선택하는 기술이다. 전체 데이터 분석에 너무 많은 시간과 비용을 투자하여야 할 때 사용한다. 샘플을 사용한 경우와 전체 데이터를 사용한 결과가 같을 때 가장 효과적인 샘플링이다.

- 랜덤 샘플링 : 무대체 샘플링(Sampling Without Replacement, 비 복원 추출)

- 랜덤 샘플링 : 대체 샘플링(Sampling With Replacement, 복원 추출)

- 층화 샘플링 : 모집단을 층으로 나누고 각 층에서 아이템들을 추출

▷ 특성 선택과 추출(Feature Selection and Extraction)

- 특성 선택(Feature Selection) : 전체 속성 중에서 몇 개의 대표적인 속성만을 선택하여 축소한다. 축소 과정이 간단하지만, 대표 속성이 객체 전체를 잘 반영할수록 좋은 성능이 된다.

- 특성 추출(Feature Extraction) : 전체 속성 값들을 변환하여 몇 개의 새로운 속성을 생성함으로써 축소한다. 축소 과정이 복잡하지만, 생성된 속성이 전체 속성 값들을 잘 반영하는 특징을 지닌다.

728x90

Python 정규 표현식(Regular Expression) (0)	2022.03.24
L2 ~ L7 Switch(Switching) (0)	2022.03.24
Data Mining(데이터 마이닝) (1)	2022.03.24
Big-Date(빅-데이터) 정의 (0)	2022.03.24
Blocking Socket, Non-Blocking Socket (0)	2022.03.24

alpha-star