본문 바로가기
[AI+X 역량 강화] 인공지능/1) 기본기: 파이썬, 데이터 수집

#9 데이터 수집 이론 및 활용 // 사례, 데이터3법, 비식별화

by 'here' 2023. 8. 27.

오늘부터는 크롤링에 대해서 배운다.

저번 학기에 캡스톤디자인 전공 수업에서 프로젝트로 대학 신문기사를 크롤링해서 전송해주는 시스템을 만들었었다.

그래서 약간의 크롤링 경험이 있다고 볼 수 있지만, 정식으로 배운 적은 없고 그냥 여기저기에서 혼자 공부했었다.

그때는 야매(?)로 한거였으니까 이제 기초부터 차근차근 배워야지!

 

일단 실제 크롤링을 어떻게 하는지 배우기 전에, 데이터에 대한 개념부터 알아보자.


[Part 1] 데이터 수집 이론

우선 데이터란 무엇일까?

 

▶ 데이터 (Data)

· 모든 분석 혹은 활용가능한 디지털화된 자료이자 정보(신호, 기호, 문자, 숫자 등)

· 의미 있는 정보를 모든 값으로, 사람이나 기계가 생성하고 처리하는 형태로 표시된 것

 

데이터에는 세가지 종류가 있는데, 

1. 정형 데이터 (Structured Data)

· 미리 정해놓은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터

· 지정된 행과 열에 데이터가 구별, 입력 

· 내부에 형식이 있어서 수집과 처리가 쉬움

   ex) 엑셀(excel)

 

2. 반정형 데이터 (Semi-Structured Data)

· 데이터 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터

· 데이터의 형식과 구조가 변경 가능 → 연산 불가

· 수집 단계에서, 보통 API 형태로 제공되기 때문에 데이터 처리 기술이 요구됨

   ex) XML, HTML, JSON, 로그 데이터

 

3. 비정형 데이터 (Unstructured Data)

· 정의된 구조X, 정형화X, 연산X

· 정형과 반정형 데이터를 제외한 모든 데이터

· 수집 단계에서, 파일을 데이터 형태로 변환해야해서 데이터 처리 어려움

   ex) X-ray, SNS 데이터, 동영상, 음성, PDF 등

 

 

[Part 2] 데이터 수집 및 활용 사례

다양한 의료 관련 사례가 있는데, 그냥 간단하고 이런게 있구나하고 넘어가자.

 

1. 병원

· IBM의 '왓슨' : 방대한 의료 데이터 분석으로 암 치료법 제안

· ETRI의 '닥터 AI' : 여러 병원의 의료지능을 통합해, 환자의 현재 상태 분석 맞춤형 미래 건강 예측

· 셀바스 AI의 '셀비 메디보이스' : 음성 인식 자동 텍스트 변환 의무기록 변환   저장 병원 정보시스템 등록

 

2. 제약

· 구글 딥마인드 알파폴드 : 인공지능 이용하여 단백질 분자의 구조 예측

· SK의 'HUMBL' : 인공지능 기반의 약물 설계 플랫폼 및 디지털 치료제 개발

· 히타치의 '의료 경제 평가 솔루션' : 신규로 개발하는 의약품 및 의료 기기의 '비용 효율성 형가'와 '고급 분석' 지원

 

 

[Part 3] 데이터 수집 프로세스

1. 순서

2. 데이터 선별

데이터를 선별하는 것은 프로젝트의 품질 뿐 아니라 성공 및 진행 여부에 영향을 미치는 핵심 업무이다.

이 단계에서 가장 크게 고려해야할 사항은 5가지이다.

 

· 수집 가능성★: 수집 및 통제 불가능 하면 데이터 정책에 의존하게 되므로, 바람직X

· 수집 비용: 전, 후처리에 많은 비용이 들어가면 좋은 데이터 선정X

· 보안 문제: 기밀 유지 필수, 보건의료 빅데이터 활용의 장벽임

· 정확성: 수집한 데이터의 사후 처리 방안 필요

· 수집 난이도: 데이터 분산으로 공유 어려움

 

3. 데이터 수집 방법 예시

· 공공포털에서 공공데이터

· 인터넷 웹크롤링

· 센서 설치를 통해 센서 데이터(스마트 워치 등)

· 공개 데이터셋 서칭(AIHUB, Kaggle 등)

 

 

[Part 4] 데이터 3법 및 비식별화 조치

데이터는 사용하는 사람, 목적, 제공하는 사람 등에 따라 조금이라도 불필요한 정보 노출이 생긴다면 문제가 생긴다.

따라서 데이터와 관련된 모든 활동에 있어서 규제와 제약이 있는데, 이는 빅데이터의 발전과 공유를 막기도 한다.

 

1. '데이터 3법'이란?

: 데이터 이용 활성화를 위한 「개인정보보호법」, 「정보통신망법」, 「신용정보법」 3가지 법률

개방목적: 빅데이터 분석 및 이용의 법적 근거 명확화와 빅데이터 활용의 안전 장치 강화

 

2. '비식별화'란?

: 수집한 개인정보에서 특정 개인을 알아볼 수 없도록 처리

· 익명 처리

  - 더 이상 개인이 알아볼 수 없게 조치한 정보

  - 개인정보가 아니기 때문에 제한 없이 자유롭게 활용

· 가명 처리

  - 개인정보의 일부 삭제, 일부 또는 전부 대체

  - 추가 정보 없이 특정 개인을 알아볼 수 없도록 처리하는 것

  - 법적인 문제가 없는 업무상의 신뢰도가 있어야 함

 

※ 비식별화 처리 기법

출처) 딥노이드

 

 

 

※ 해당 카테고리는 딥노이드, 오픈놀, 앙트비에서 주최하는 '<스타트업 유니버시티: DX Challenge 교육> AI+X 역량 강화 트랙'에 대한 기록입니다.