본문 바로가기

자격증/데이터분석준전문가(ADSP)

[방디] 데이터분석준전문가(ADSP) - 데이터 이해(1과목) - 데이터의 이해

728x90

안녕하세요. 방디입니다.

 

자격증 카테고리의 첫 자격증으로 사회조사분석사를 소개했었는데요. 바로 직전 글을 올리면서 사회조사분석사 2급 필기의 학습내용을 간략히 정리한 바 있습니다.

 

두 번째 정리하는 자격증은 데이터분석준전문가입니다. 4차 산업혁명 기술이 점점 각광받으면서 데이터분야의 자격증도 관심을 받아, 아마 수요가 늘지 않을까 싶은 자격증입니다.

 

저는 다가오는 3월 13일, 토요일에 시험을 볼 예정입니다. 사회조사분석사와 마찬가지로 데이터분석준전문가도 과목별 간단히 학습하실 수 있는 내용을 차차 정리해서 올리고자 하니, 시험 전 간단한 복습 정도로 활용하시면 좋을 것 같습니다.

 

그럼 1과목 데이터 이해의 [데이터의 이해] 부분을 다루어 보겠습니다.

 

※ 제가 안내드리는 내용은 시험주관처에서 안내하는 시험과목 순서를 따르지만, 일부 중요도가 낮은 부분은 다루지 않습니다.

 


데이터 이해

데이터의 이해

1. 데이터와 정보

. 데이터의 정의

- 1646년 영국의 문헌에서 처음 등장

- 라틴어 동사 dare(주다)에서 파생된 것으로 주어진 것이라는 의미를 지님

- 다양한 사회과학의 발전으로, 데이터는 과거 추상적인 개념에서 기술적· 사실적 의미로 변화

 

. 데이터의 특성

1) 존재적 특성: 객관적 사실로서의 의미를 지님

2) 당위적 특성: 추론, 예측, 추정을 위한 근거를 지님

 

. 데이터의 분류

1) 1차데이터(Primary Data)

- 연구자 조사연구 목적 달성을 위해 직접 수집하는 자료

2) 2차데이터(Secondary Data)

- 다른 조사자에 의해 수집되어 공개된 자료

 

. 데이터의 유형

1) 정성적 데이터

- 언어나 문자의 형태를 띔

- 비정형 데이터이고 주관적 내용이 많아 저장이나 검색에 많은 비용이 소모됨

2) 정량적 데이터

- 수치나 도형, 기호의 형태를 띔

- 정형화된 데이터이고 객관적 내용이 많아 비용 소모가 적음

 

. 데이터와 정보의 관계

- DIKW, 즉 데이터, 정보, 지식, 지혜가 피라미드 형태의 관계에 있음

지혜(Wisdom) - 최상층

지식이 고도로 추상화된 것

지식(Knowledge)

정보를 체계화하고 결합한 것

정보(Information)

데이터를 처리하여 특정한 목적을 위해 의미를 가지는 것

데이터(Data) - 최하층

사물이나 사건의 묘사에 불과한 객관적인 사실

. 기타 개념

- 암묵지: 학습이나 경험을 통해 개인에게 내재되어 있지만 겉으로 드러나지 않는 지식

- 형식지: 공표된 문서와 같이 형상화된 지식

 


2. 데이터베이스의 정의와 특징

. 데이터베이스의 정의

- 여러 사람이 공유하여 사용할 목적으로 체계화해 통합, 관리하는 데이터의 집합

- 작성된 목록으로서 여러 응용시스템의 통합된 정보를 저장·운영할 수 있는 공용데이터의 묶음

 

. 데이터베이스의 특징

- 통합성: 자료 중복을 배제

- 저장성: 컴퓨터로 접근 가능한 저장 매체에 저장

- 공용성: 여러 사용자가 공동으로 소유하고 이용

- 운영성: 고유 업무 수행을 위해 존재 가치가 있음

- 변화성: 새로운 데이터의 삽입이나 갱신, 삭제를 통해 항상 변화

- 접근성: 데이터 조회와 같은 접근에 대하여 실시간으로 응답이 가능

 

. 데이터베이스의 장단점

1) 장점

- 데이터 중복의 최소화

- 데이터의 공유

- 일관성, 무결성, 보안성 유지

- 최신 데이터 유지

- 데이터의 표준화

- 데이터의 논리적, 물리적 독립성

- 데이터 접근의 용이성

- 저장 공간 절약

2) 단점

- 데이터베이스의 전문가가 필요

- 백업이나 복구의 어려움

- 비용 부담

- 복잡한 시스템

- 과부하 발생의 가능성

 


3. 데이터베이스 활용

. 1980년대 데이터베이스

1) OLTP(On-Line Transaction Processing)

- 여러 사용자가 온라인, 실시간으로 데이터베이스의 데이터를 갱신하거나 조회하는 작업을 처리하는 방식

- : 신용카드 사용, 은행 ATM 입출금 등

2) OLAP(On-Line Analytical Processing)

- 데이터를 기반으로 대화식으로 정보를 분석하여 의사 결정에 활용하는 방식

 

. 2000년대 데이터베이스

1) CRM(Customer Relationship Management)

- 고객관계관리

- 평생고객 확보를 위해 고객과의 관계나 정보를 분석하여 활용하는 관리방식

2) SCM(Supply Chain Management)

- 공급사슬관리

- 공급사슬에서 발생하는 활동을 효과적으로 운영하기 위한 관리방식

 

. 분야별 데이터베이스

1) 제조분야

- ERP: 기업의 모든 경영자원을 통합 관리하는 시스템. 전사적 자원관리

- BI: 기업에서 데이터를 수집, 분석하여 효율적인 의사결정에 활용하는 방법을 연구하는 학문

- CRM: 고객관계관리

- RTE: 실시간으로 전략수립 및 의사결정을 수행하고 경영자원을 효과적으로 배분하는 경영모델

2) 금융분야

- EAI: 기업의 여러 시스템을 통합하여 관리하는 방안

- EDW: RTE 활용 기업을 위하여 데이터 분석, 수집, 저장을 관리하는 기술

3) 유통분야

- RFID: 주파수를 이용해 ID를 식별하는 시스템

- KMS: 기업 내 지식을 체계적으로 관리하고 공유하는 시스템

 

. 사회기반구조 데이터베이스

- EDI: 정형화된 문서를 표준화된 자료양식에 준하여 전자통신매체로 교환하는 방식

- VAN: 독자적인 네트워크를 형성하는 부가가치통신망

- CALS: 관련 기업간 공유하며 경영에 활용하는 기업간 정보시스템

 

. 분야별 사회기반구조 데이터베이스

1) 물류: CVO(화물운송정보), PORT-MIS(항만운영정보시스템), KROIS(철도운영정보시스템)

2) 지리/교통: GIS(지리정보시스템), RS(원격탐사), GPS, ITS(지능형교통시스템), LBS(위치기반서비스), SIM(공간정보관리)

3) 의료: PACS, U헬스

4) 교육: NEIS(교육행정정보시스템)

728x90