반응형

1. 데이터의 이해

최신 빅데이터 상식

1. DBMS와 SQL

DBMS 정의

데이터베이스 사용 환경 제공 소프트웨어

 

DBMS 종류

  • 관계형 DBMS : 테이블 기반
  • 객체지향 DBMS : 복잡한 데이터 구조 표현, 객체 기반
  • 네트워크 DBMS : 그래프 기반
  • 계층형 DBMS : 트리 구조 기반

 

SQL

질의 기능, 데이터 정의 및 조작

 

SQL 집계함수

  • AVG
  • COUNT
  • SUM
  • STDDEV
  • MIN
  • MAX

 

2. Data에 관련한 기술

개인정보 비식별 기술

  • 데이터 마스킹 : 데이터 길이, 유형, 형식 유지
  • 가명처리 : 개인정보 주체의 이름을 다른 이름으로 변경
  • 총계처리 : 데이터의 총합
  • 데이터값 삭제 : 필요 없는 값 또는 중요 값 삭제
  • 데이터 범주화 : 데이터 값을 범주로 변환

 

데이터 무결성

데이터 수정 시 제한을 두어 데이터의 일관성, 유효성, 신뢰성을 보장

  • 개체 무결성 : 기본키는 NULL이나 중복값 불가
  • 참조 무결성 : 외래키 값은 NULL이거나 참조 릴레이션의 기본키 값과 일치
  • 도메인 무결성 : 특정 속성 값이 정의된 도메인 값만 가능 ex) 여부 - Y/N

 

데이터 레이크

의미 있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템

 

3. 빅데이터 분석 기술

  • 하둡 : 분산 파일 시스템(HDFS)을 통해 여러 장비에 대용량 파일 저장, 맵리듀스로 HDFS에 저장된 대용량 데이터를 SQL 실시간 처리
  • Apache Spark : 실시간 분산형 컴퓨팅 플랫폼, In-Memory 방식 처리로 인한 빠른 처리속도
  • Smart Factory : 공장 내 설비와 기계에 IoT가 설치되어 생산성 극대화
  • Machine Learning : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현 (Anaconda)
  • Deep Learning : 인공신경망 등의 기술을 기반으로 구축한 기계학습 기술 중 하나 (Caffe, Tensorflow, Theano)

 

4. 기타

데이터 양 단위

  • B < KB < MB < GB < TB < PB(페타) < EB(엑사) < ZB(제타) < YB(요타)

 

블록체인

거래정보를 하나의 덩어리로 보고 이를 차례로 연결

 

데이터 유형

  • 정형 데이터 : 형태가 있으며 연산가능, 주로 RDBMS에 저장
  • 반정형 데이터 : 형태가 있으며 연산 불가능, 주로 파일로 저장
  • 비정형 데이터 : 형태가 없으며 연산 불가능, 주로 NoSQL에 저장

 

반응형

+ Recent posts