본문 바로가기

데이터

[WIP]Oracle EDQP

최초 작성일: 2023-11-02

최종 작성일:

 

목표:

데이터 정비 순서 : 1)분류별 자재정보 배정

 

'조건부 검색' 형태로(특정 용어의 조합, 유사어/동의어 관리, 영어/한글 인식), '컨텐츠 구성'(유사어/동의어 관리)가 중요함.

-'컨텐츠 구성'의 경우, 유사어/동의어 별로 구성하는 것인데, 정비하면서 해당 정보는 계속 Update 됨.

잘못된 데이터가 발견 되면, 원본데이터를 수정하는 게 아니라 잘못된 데이터로 분류할 수 있는 룰이 추가 되는 것임.

 

한수원의 경우, 품명도 없고 INC가 품명을 대체하면서 쓰는데 ITEM별 속성항목 값이 제대로 입력되어 있지 않으니 

EDQP처럼 Item별 속성항목값 들을  하나의 셀에 한줄로 concatenate함.

그리고 Item별 조건을 설정 하되, Item 별로 주요 속성이 되는 것이나 유사/동의어 들을 조건에 담아냄.

 

EDQP의 경우, 아래 두가지 조건부 검색으로 구분함.

 

1) All of (AND)

2) Any of (OR)

 

'Count_Core'의 경우, 해당 item을 식별하는 주요(core)속성으로 이렇게 core속성을 정의하려면 해당 분야에 대해서 잘 알고 있어야함.

 

Oracle® Enterprise Data Quality for Product Data