본문 바로가기
관심사/:: 공공데이터 인턴

공공데이터 품질 진단 기본교육 강의 들으며 정리

by 방구석 디모네 2021. 7. 22.

1. 데이터 품질 진단이란?

 -. 우리가 원하지 않는, 예상하지 못한 값이 DB에 존재할 경우 그것을 찾아내는 행위

 -. 왜 해야 하는가? : 데이터 발생 및 가공 단계에서 충분한 품질 검사가 이루어지지 않기 때문에 문제 발생 후 혹은 데이터 사용 시점에 오류데이터를 확인하여 수정하려는 시도가 많음.

 -. 왜 품질 오류가 일어나는가 ? : DB 입력(수집), 저장, 가공 등 전 단계에서 사람의 실수 또는 시스템적 오류가 발생했을 경우. 

 -. 기대효과 : ①업무 생산성, 운영 효율화  ②품질 진단에 들어가는 비용보다 품질 관리를 함으로써 아낄 비용이 더 큼

 

▷ 2021년 기준으로는 12+4개 기준으로 진행 됨(범정부 데이터 품질 진단기준)

 

1) 데이터 진단 종류 : 도메인 진단 / 업무규칙 진단 / 참조관계 진단

 -. 도메인 진단 : 모델러가 처음 세팅해 둔 것이 맞는 지 여부

 -. 업무 규칙 판단 : 업무 규칙 및 법령 등 기준에 맞게 데이터 품질이 유지되어지고 있는지

 -. 참조 관계 진단 : DB내 테이블 간 정합성을 관리하고 있는지 

더보기

* 정합성 : 시스템을 이루는 물리적 부품간의 상호 용량이 잘 맞아 전체 시스템의 유효성을 극대화할 수 있을 때, 부품 간에는 정합성이 좋다고 말한다. 

 

2. 데이터 품질 진단 절차

 -. 진단대상 및 진단기준 도출 단계 : 스키마(테이블,컬럼 정보) 수집 후 프로파일링 한 내용을 바탕으로 대상/기준 도출

  0. 선정된 DB의 테이블과 컬럼 정보를 수집하여 정확한 진단 대상을 도출

  0. 테이블 명 / 컬럼명 / 컬럼 영문명 / 데이터 타입 / 데이터 길이 / null 여부 등의 개략적 분석이 진행 된다.

 

-. 진단수행 및 오류개선 활동 단계 : SDQ 등을 통한 검사 툴을 통해 진단 후 오류 데이터를 확인하여 개선 진행

 0. 수집한 테이블과 컬럼 정보를 기반으로 프로파일링을 수행하여 실제 데이터의 통꼐 및 패턴을 분석

 0. 최소값, 최대값 / null과 공백 건수 / 단일 값 또는 중복값 여부

 0. 도메인 진단 기준을 설정하여 데이터를 규격화해야 함.

   ▶이는 업무규칙 등을 통해 정해지며, 데이터관리문서, 법령, 업무담당자 지식 등의 기준을 바탕으로 함.

   ▶데이터 프로파일링으로 파악 된 품질 문제를 통해 도출하는 방식 / 해당 기업 비즈니스 지식 없어도 가능

      *데이터 프로파일링(기술적 분석) - 진단대상 수집 정보, 프로파일링, 도메인분석, 도메인 진단 실행 결과 오류 정보

 

 -. 최종 결과보고서 작성 단계 : 오류 결과 검토 회의, 보고서 작성 등

 

 

 3. 범정부 진단 기준 및 오류 유형

   1) 여부 도메인 : ㅇㅇ여부, ㅇㅇ유무 등 2개의 유효 값을 진단.

    -. 단일 값 분석을 통해 오류 예측이 가능

   2) 날짜 도메인 : 일자, 일시 값에 대한 포맷의 유일함과 유효함을 진단

    -. DATE, TIMESTAPM 타입이 아니라 문자 타입이면 오류. 

    -. 최소값/ 최대값 분석을 통해 포맷이 혼재되어있음을 확인 할 수 있음.

    -. 오류원인 : 수기입력 오류, 날짜 형식, 유효값 검증 부재 / 

    -. 해결 : 프로그램 개선, 기준 표준화 

   3) 번호 도메인 : 문자, 숫자 등으로 구성된 패턴을 갖는 값의 일관성 진단

    -. 정해진 생성 패턴에 어긋나는 값을 오류로 판단.(패턴 검증)

    -. 오류 원인 : 데이터 생성 규칙 미정의, 같은 속성에 다른 구분자 사용 등.

   4) 금액 , 수량, 율 도메인

    -. 정해진범위 값의 유효 범위를 벗어난 값을 진단

    -. 최소/최대값 분석을 통해 오류 징후를 찾을 수도 있음. 유효범위를 벗어나는 경우 검색 가능.

   5) 코드 도메인 : 개별코드, 공통코드 사용 컬럼의 유효성 진단

    -. 시스템 내 데이터를 관리하기위한 공통코드와 개별코드 

   6) 시간순서 일관성, 선후관계 정확성

    -. 시간의 선후관계가 안맞는 경우 이부분을 확인하는 진단

   7) 컬럼 간 논리관계 일관성

    -. 복수의 컬럼에 논리적인 관계가 존재하는 경우를 검증 

     ex) 결혼여부가 N인데 결혼일자가 존재할수 없다. 등....

   8) 계산식 : 컬럼에 계싼된 값이 존재하는 경우를 검증

     -. 검증 예 : 우러간 통계테이블 매출액은 주문 테이블의 해당 년월읠 총금액 합계와 비교하여 일치해야 한다 .

   9) 참조 관계 : 부모테이블 과 자식 테이블 간 데이터 참고 관계 진단

     -. 고객 테이블에는 존재하는 고객번호가 자식 테이블에 존재하게 된다면 그건 오류.

     -. 기준은 부모테이블, 자식 테이블은 진단대상

 

     

댓글