2024. 2. 16. 16:53ㆍAI빅데이터/Study
1-1-1. 데이터와 정보
#데이터의 정의
- 데이터는 추론과 추정의 근거를 이루는 사실
- 단순한 객체로서의 가치 뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 가지는 것으로 설명되고 있다.
#데이터의 특성
- 존재적 특성: 객관적 사실
- 당위적 특성: 추론·예측·전망·추정을 위한 근거
#데이터의 유형
- 정성적(qualitative) 데이터: 그 형태와 형식이 정해져 있지 않아서 저장, 검색, 분석하는데 많은 비용과 기술적 투자가 수반된다.
예) 언어, 문자 등
- 정량적(quantitative) 데이터: 데이터의 양이 크게 증가하더라도 저장, 검색, 분석하여 활용하기 용이하다.
예) 수치
#지식경영의 핵심 이슈
- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 한다.
구분 | 의미 | 예 |
암묵지 | 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 |
김치 담그기 자전거타기 |
형식지 | 문서나 매뉴얼처럼 형상화된 지식 |
교과서 비디오 DB |
- 암묵지는 사회적으로 중요하지만 다른 사람에게 공유되기 어렵다. 개인에게 축적된 내면화된 지식이 조직의 지식으로 공통화 된다.
- 형식지는 전달과 공유가 용이하다. 언어, 기호, 숫자로 표준화된 지식이 개인의 지식으로 연결화
#SECI 모델 (Socialization - Externalization - Combination - Internalization Model) ★(공연내표)
- 암묵지+형식지의 4단계 지식전환 모드
1) 공동화 : 경험을 공유를 통해 새로운 암묵지 창조
- 암묵지 지식 노하우를 다른 사람에게 알려주기)
2) 표출화 : 암묵지에서 구체적인 개념을 도출하여, 암묵지를 형식지로 표출
- 암묵적 지식 노하우를 책이나 교본 등 형식지로 만들기
3) 연결화 : 표출된 형식지의 완성도를 높여 지식체계로 전환
- 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)를 추가하기
4) 내면화 : 표준화와 연결화로 공유된 정신 모델이나 기술적 노하우가 개인의 암묵지로 내면화
- 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득
5) 위의 4가지 과정 (공동화, 표출화, 연결화, 내면화)이 순환하면서 창조됨
#DIKW 피라미드
(DIKW pyramid, Wikipedia)
구분 | 의미 | 예 |
데이터 | 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실. 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 |
A는 100원, B는 200원에 연필을 판매 |
정보 | 데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것. 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 |
A마트의 연필이 더 싸다 |
지식 | 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것. 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과 |
상대적으로 저렴한 A마트에서 연필을 사야겠다 |
지혜 | 지식의 축적과 아이디어가 결합된 창의적인 산물. 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어 |
A마트의 다른 상품들도 B마트보다 더 쌀 것이라고 판단한다. |
#데이터(자료) 양의 단위
B[Bite, 바이트]* | 1B=1Byte | 20B |
KB[Kilo Byte, 킬로바이트] | 1KB = 1024Byte | 210B |
MB[Mega Byte, 메가바이트] | 1MB = 1024KB | 220B |
GB[Gega Byte, 기가바이트] | 1GB = 1024MB | 230B |
TB[Tera Byte, 테라바이트] | 1TB = 1024GB | 240B |
PB[Peta Byte, 페타바이트] | 1PB = 1024TB | 250B |
EB[Exa Byte, 엑사바이트] | 1EB = 1024PB | 260B |
ZB[Zeta Byte, 제타바이트] | 1ZB = 1024EB | 270B |
YB[Yotta Byte,요타바이트] | 1YB = 1024ZB | 280B |
- 비트 하나로는 '0 또는 1'의 2가지 표현밖에 할 수 없다. 그래서 이를 일정한 단위로 묶어서 바이트(byte)라 하고 정보를 표현하는 기본단위로 삼고 있다.
- 일반적으로 8개의 비트를 하나로 묶어 1 Byte라 하고 있으며, 1 Byte가 표현할 수 있는 정보의 개수는 2의 8승 = 256 개가 된다. 바이트는 256 종류의 정보를 나타낼 수 있어 숫자, 영문자, 특수문자 등을 모두 표현할 수 있다. ★
1-1-2. 데이터베이스 정의와 특징
#데이터베이스의 정의
- 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라서 편성된 데이터의 집합
- 관련된 레코드의 집합, 소프트웨어로는 데이터베이스 관리 시스템(DBMS)을 의미
- 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의해 체계적으로 수집·축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체
#데이터베이스의 특징
- 통합된 데이터(integrated data): 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미. 데이터 중복은 관리상의 복잡한 부작용을 초래 ★
- 저장된 데이터(stored data): 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미. 데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것 ★
- 공용 데이터(shared data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미. 대용량화 되고 구조가 복잡하다. ★
- 변화되는 데이터(changeable data): 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 상태를 나타냄. 다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야 함
#데이터베이스의 설계 절차★
- 요구사항 분석 > 개념적 설계 > 논리적 설계 > 물리적 설계
1-1-2. 데이터베이스 활용
#OLTP (On-Line Transaction Processing) ★ @
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태의 하나이다. 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내는 형태를 말한다. 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미한다.
- (예) 주문 입력 시스템, 재고 관리 시스템 등
#OLAP (On-Line Analytical Processing)
- 정보 위주의 분석 처리를 의미하며, 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해주는 시스템이다.
#CRM (Customer Relationship Management) ★
- 기업 내부 데이터베이스를 기반으로 고객과 관련된 내·외부 자료를 분석·통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획·지원·평가하는 과정이다.
#SCM (Supply Chain Management) ★
- 기업에서 원재료의 생산·유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 "공급망 관리"를 뜻한다.
#ERP (Enterprise Resource Planning) ★
- 인사·재무·생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리시스템의 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법을 의미한다.
#BI (Business Intelligence) ★
- 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구 ★
- 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스를 말한다. 즉, 기업의 사용자가 더 좋은 의사결정을 하도록 데이터 수집, 저장, 분석, 접근을 지원하는 응용시스템과 기술인 것이다.
- 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스 ★
-가트너의 정의 : '여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'★
#BA (Business Intelligence) ★
- 데이터와 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 준 분석 방법
- 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법 ★
- 사전에 예측하고 최적화하기 위함
- BI 보다 진보된 형태
1-2. 데이터의 가치와 미래
1-2-1. 빅데이터의 이해
#빅데이터의 정의
(1) 3V
- Volume (양): 데이터의 규모 측면
- Variety (다양성): 데이터의 유형과 소스 측면
- Velocity (속도): 데이터의 수집과 처리 측면
(2) 데이터 자체 뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위의 정의가 있다.
- 새로운 처리, 저장, 분석 기술 및 아키텍처
- 클라우드 컴퓨팅 활용
(3) 인재, 조직 변화까지 포함해 넓은 관점에서의 빅데이터에 대한 정의가 있다.
- 새로운 인재 필요
- 데이터 중심 조직
(3) 그밖의 정의
- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터다. ★
- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다. ★
#빅데이터의 출현배경 ★
- 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 "변화"를 말한다.
(1) 산업계 - 고객 데이터 축적
- 양질 전환 법칙 + 기술 -> 거대 가치 창출
(2) 학계 - 거대 데이터 활용 과학 확산
(ex) 인간 게놈 프로젝트
(3) 관련 기술 발전 (디지털화, 통신 기술, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅)
- 디지털화 : 데이터의 생산, 유통, 저장의 편리성 개선
- 압축 기술 발전 -> 디지털화 비용 감소
- 통신 기술 발전 : M2M, IoT
- 저장 기술 발전 : 데이터 저장 비용 감소
- 인터넷 발전 : 인터넷의 사업모델 측면 - 광고
- 서비스 제공, 사용자 정보를 기업들에게 제공
- 사용자 로그 (log) 정보 -> 사용자 특성 정교하게 파악
- 모바일 혁명 : SNS 통한 감정 데이터 표출, 상황 (context) 정보 양산 (예: 트위터, 페이스북 등 SNS의 급격한 확산) ★
- 클라우드 컴퓨팅 : 빅데이터 처리 비용 감소 ★
- 클라우드 분산 병렬 처리 컴퓨팅, 대용량 데이터 처리 비용을 줄임 (예: 하둡)
#빅데이터의 출현에 따른 변화
- 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출. 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
- 사용자 로그(log) 정보 (사용자가 인터넷에 접속한 시간과 정보, 검색기록 등)에 대한 프로파일링이 이루어지기 시작하면서 아이덴티티가 뚜렷해지고 사용자와 광고를 매칭하는 정확도도 향상
#데이터의 가치 측정이 어려운 이유 ★☆
- 데이터의 재사용이 일반화되면서 특정 데이터를 언제 누가 사용했는지 알기 힘들기 때문
- 빅데이터는 기존에 존재하지 않던 가치를 창출하기 때문
- 분석 기술의 발전으로 과거의 분석이 불가능했던 데이터를 분석할 수 있게 되었기 때문
#빅데이터에 거는 기대를 잘 표현한 비유 (철원렌포)
산업혁명의 석탄, 철 | 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대 |
21세기 원유 | 경제 성장에 필요한 정보를 제공함으로써 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망 |
렌즈 | 렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것 |
플랫폼 | 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망 ex) kakao , facebook |
- 빅데이터는 차세대 산업혁명에서 석탄과 철 역할을 할 것으로 기대된다. 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회·경제·문화·생활 전반에 혁명적 변화를 가져올 것으로 기대된다.
- 빅데이터는 21세기의 원유에 비유된다. 우리가 살고 있는 사회 저변을 떠받치는 에너지원인 원유처럼 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.
- 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다.
예) 구글의 Ngram Viewer
- 빅데이터는 플랫폼 역할을 할 것으로 기대된다. 최근에는 다양한 서드파티 비즈니스에 빅데이터가 활용되면서 플랫폼 역할을 할 것으로 전망
#빅데이터가 만들어 내는 본질적인 변화 ★
- 사전처리에서 사후처리 시대로: 필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
- 표본조사에서 전수조사로: 표본을 조사하는 기존의 지식 발견 방식이 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 인해 전수조사로 변화하게 된다. 이에 따라 샘플링이 주지 못하는 패턴이나 정보를 찾을 수 있게 된다. ★
- 질보다 양으로: 데이터가 지속적으로 추가될 때 양질의 정보가 오류보다 많아져 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 변화된다.
- 인과관계에서 상관관계로: 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.
#빅데이터 활용 3요소
데이터 | 모든 것의 데이터화 |
기술 | 진화하는 알고리즘 , 인공지능 |
인력 | 데이터 사이언티스트 , 알고리즈미스트 |
#산업별 분석 애플리케이션
산업 | 일차원적 분석 애플리케이션 |
금융 서비스 | 신용점수 산정 , 사기 탐지 , 가격 책정 , 프로그램트레이딩 , 클레임 분석, 고객 수익성 분석 |
소매업 | 판촉, 매대 관리 , 수요 예측 , 재고 보충 , 가격 및 제조 최적화 |
제조업 | 공급사슬 최적화, 수요예측 , 재고 보충 , 보증서 분석 , 맞춤형 상품 개발 |
에너지 | 트레이딩, 공급/수요 예층 |
온라인 | 웹 매트릭스 , 사이트 설계 , 고객 추천 |
#데이터의 유형 ★
유형 | 내용 | 예시 |
정형 데이터 | - 형태가 있으며 ,연산 가능 , 주로 관계형 데이터베이스에 저장됨 - 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움 |
관계형 데이터베이스 , csv , 스프레드 시트, ERP , CRM Transcation data , Demand Forecast |
반정형 데이터 | - 형태(스키마, 메타데이터)가 있으며 , 연산이 불가능, 주로 파일로 저장됨 - 보통 API 형태로 제공되기 때문에 데이터 처리기술(파싱)이 요구됨 |
XML , HTML , JSON, e-mail , report , social media , blogs and news |
비정형 데이터 | - 형태가 없으며, 연산이 불가능 , 주로 NoSQL에 저장됨 - 데이터 수집 난이도가 높으며 처리가 어려움 |
소셜데이터, 영상, 이미지 , 음성 , 텍스트(word, pdf ), machine data |
- 메타데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터이다. 데이터에 대한 데이터이다. ★
- 인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조. 원하는 형태의 배열과 찾아보기를 가능하게 해주는 기능 ★
#데이터웨어하우스 ★
- 기업내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간
- 재무, 생상, 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞춰 구축된다.
- *ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재한다.
- 데이터 웨어하우스의 4가지 특징 - 주제지향성, 통합성, 비휘발성, **시계열성.
*ETL(Extraction, Transformation and Load) ★
- Extraction: 데이터 원청 소스에서 데이터 획특
- Transformation: 데이터 클렌징, 형식변환, 표준화, 통합
- Load: 특정 목표 시스템에 적재
**데이터웨어하우스의 시계열성★
- 데이터웨어하우스에서 관리하는 데이터들은 수시적인 갱신이나 변경이 발생할 수 없다.
#데이터웨어하우스 vs 테이터베이스
특징 | Data Warehouse | Database |
적합한 워크로드 | 분석, 보고, 빅데이터 | 트랜잭션 처리 |
데이터 원본 | 여러 소스로부터 수집되고 정규화된 데이터 | 트랜잭션 시스템과 같이 단일 소스에 있는 그대로 캡처한 데이터 |
데이터 캡처 | 대개 미리 결정된 대량 배치 일정에 따른 대량 쓰기 작업 | 트랜잭션 처리량을 최대화할 수 있도록 새로운 데이터가 사용할 수 있어 지속적인 쓰기 작업에 최적화 됨 |
데이터 정규화 | 스타 스키마 또는 눈송이 스키마와 같이 비정규화된 스키마 | 고도로 정규화된 정적 스키마 |
데이터 스토리지 | 컬럼 방식 스토리지를 사용하여 간단한 액세스 및 고속 쿼리 성능에 대해 최적화 | 단일 행 지향 물리적 블록에 대한 고도의 처리량 쓰기 작업에 최적화 |
데이터 액세스 | I/O를 최소화하고 데이터 처리량을 최대화하도록 최적화 | 대량의 소규모 읽기 작업 |
1-2-2. 비즈니스 모델
#비즈니스 모델
- 기업이 어떤 제품이나 서비스를 어떻게 소비자에게 제공하고 어떻게 마케팅하며 어떻게 돈을 벌 것인지에 대한 계획 또는 사업아이디어
#비즈니스 모델 캔버스(Business Model Canvas) ★
- 비즈니스 모델을 일목묘연하게 보여주는 그래픽 템플릿
- 9개로 구성된 중요한 비즈니스 영역/블록들의 유기적인 연견을 통해 기업이 어떻게 수익을 창출하는지, 즉 가치를 창출하고 전달하고 획득하는 원리를 9가지 요소로 분석
① Customer Segments(고객 세그먼트)
- 가치를 전달할 대상인 고객에 대해 분석이 이뤄지는 부분
② Value Propositions(가치 제안)
- 고객의 니즈를 찾고, 해당 니즈에 대해 어떤 형태로 고객을 만족시킬 것인지에 대한 부분
- 고객의 니즈를 찾기 위해서는 고객이 처한 상황을 알아야하고, 해결할 수 있는 창의적인 방법이 필요
- 효과적으로 니즈를 충족시키기 위한 형태를 만드는 것도 중요
③ Channel(채널)
- 고객과 기업의 의사소통 방법
- 기업이 고객니즈를 충족시키기 위해 가치를 전달할 방법
- 고객 세그먼트에
따라 어떤 채널을 통해 가치를 전달할 것인지, 어떤 채널을 사용해야 고객에게 효과적으로 가치를 전달하고 기업 입장에서는 수익을 극대화할 수 있는지에 대한 부분
④ Customer Relationships(고객 관리)
- 채널을 통해 고객과의 관계를 어떻게 만들 것인가에 해당하는 부분
- 새로운 고객 확보, 기존 고객 유지 → 수익을 끌어올리기 위해 고객 관계는 중요하다.
⑤ Key Resources(핵심 자원)
- 고객에게 가치를 전달하기 위한 필수적인 자원[채널/고객관계/수익원을 위한 자원이 포함]
- 자원의 종류에는 물적자원[H/W], 지적자산[저작권, 브랜드 등], 인적자원, 재무자원이 있다.
⑥ Revenue Streams(수익원)
- 고객에게 가치를 전달하고 기업이 받는 수익
- 다양한 수익원을 만들 수 있지만 고객이 어떻게 지불하기 원하는지에 대한 것과 기업은 어떤 수익원을 통해 최대의 수익을 창출할 수 있을지 고려
⑦ Key Activities(핵심활동)
- 고객에게 가치를 전달하기 위한 활동들 [채널/고객관리/수익원을 위한 활동들을 의미]
- 예를 들면, S/W개발과 같은 생산활동, 고객이 처한 문제에 대한 해결방안을 제시하는 컨설팅활동, 플랫품/네트워크가 있다.
⑧ Key Partnerships(핵심 파트너)
- 비즈니스 모델의 최적화, 시장의 경쟁상황에 대한 리스크 감소, 자원/활동의 공유 및 획득을 위한 파트너십
⑨ Cost Structure(비용 구조)
- 비즈니스 모델을 운영하는데 발생하는 모든 비용[고정비, 변동비, 규모의 경제, 범위의 경제요소로 구성]
- 가치 주도적 : 가치를 만드는데 초점을 두어 많은 비용이 드는 비용구조
- 비용 주도적 : 최소한의 비용구조
#플랫폼형 비즈니스 모델★
- 상품, 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 비즈니스 모델
#가치패러다임의 변화
디지털화: 세상을 어떻게 효과적으로 디지털화하는가가 가치를 창출해내는 원천
ex) 도스운영프로그램, 워드/파워포인트
연결 : 디지털화된 정보와 대상들이 서로 연결되어, 이 연결이 얼마나 효과적이고 효율적으로 제공해 주느냐가 이 시대의 성패를 가름
ex) 구글의 검색 알고리즘, 네이버의 콘텐츠
에이전시: IOT의 성숙과 함께 연결이 증가하고 복잡해짐. 복잡한 연결을 얼마나 믿을만하게 관리하는가가 이슈
#빅데이터 활용 기본 테크닉 ★
- 연관규칙학습은 어떤 변수들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법이다.(연관특징찾기)
- 유형분석(분류)은 문서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인 수강생들을 특성에 따라 분류할 때 사용한다.
- 기계 학습은 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법이다.
- 회귀 분석은 독립변수와 종속변수의 관계를 파악할 때 사용한다.
- 감정 분석은 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.
- 소셜 네트워크 분석은 특정인과 다른 사람이 몇 촌정도의 관계인가를 파악할 때 사용하고 영향력 있는 사람을 찾아낼 때 사용한다.
- 유전자 알고리즘은 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법이다.
테크닉 | 내용 | 예시 |
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법 | - 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? - 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | - 이 사용자는 어떤 특성을 가진 집단에 속하는가? - 조직을 그룹으로 나눌 때 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 |
유전자 알고리즘 ★ | 최적화가 필요한 문제의 해결책을 `자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 ( 적자 생존 ) | - 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법 | - 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | - 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? ( 인과관계 ) - 고객 만족도가 충성도에 어떤 영향을 미치는가? |
감정분석 (감성분석) ★ | - 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 (트위터 형용사 분석) - 주관적 평가를 측정 - 주로 문장이나 단어가 분석의 대상 - 특정 주제에 대한 긍정/부정 의견 분석 |
- 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜네트워크분석(사회관계망분석) | 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 ( SNA 고객들 소셜 관계 파악 ) |
- 고객들 간 관계망은 어떻게 구성되어 있나? - 고객의 만족도가 충성도에 어떤 영향을 미치는가? |
빅데이터 가치 선정의 어려움
데이터 활용 방식
: 빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게. 어디서 활용하는지 알 수 없게 되었기 때문에 가치 선정이 어려움
가치 창출 방식
: 기존에 없던 새로운 가치를 창출함에 따라 그 가치를 선정하기 어려움
분석 기술의 발전
: 데이터 분석 기술의 발전으로 가치 잇는 데이터와 가치 없는 데이터의 경계를 나누기 어려움.
오늘의 가치 없는 데이터가 내일은 가치 있는 데이터가 될 수 있기에 빅데이터의 가치 산정을 어려움.
1. 데이터 분석과 의사결정
- 직관에 근거해 의사결정을 내리는 회사가 아닌, 데이터 분석에 기초해 전략적 통찰을 얻고, 내부 의사결정을 내리고, 구체적인 성과를 만들어내는 체계 필요
- 빅데이터와 관련된 걸림돌은 비용이 아니라 분석적 방법과 성과에 대한 이해 부족이다.
2. 빅데이터 분석, 'Big'이 핵심이 아니다.
- 더 많은 데이터가 더 많은 가치로 바로 연결된다고 볼 수 없다. 데이터의 양이 아니라 유형의 다양성이 중요하다.
- 빅데이터가 가져다주는 기회는 데이터의 크기가 아닌 음성, 텍스트, 이미지, 비디오 같은 새롭고 다양한 정보 원천의 활용에 있다.
- 빅데이터는 데이터 크기의 이슈가 아니라 거기에서 어떤 시각과 통찰을 얻을 수 있느냐가 문제이다.
3. 전략 도출 위한 가치 기반 분석
- 전략적 통찰 없이 복잡성 최적화, 단순 분석 사용 빈도 증가가 경쟁우위를 가져다 주지 않는다 → 빅데이터 분석은 데이터에서 가치, 즉 통찰을 끌어내는 것, 성과를 창출하는 것이 중요하다.
- 성과가 우수한 기업들도 가치 분석적 통찰력을 갖췄다고 응답한 비율이 낮다. 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다주는 데이터 분석을 내재화 하는 것이 쉽지 않다.
- 일차원적인 분석을 통해서도 해당 부서나 업무 영역에서 효과를 얻을 수 있지만, 일차적인 분석은 태생적으로 업계 내부의 문제에만 초점을 둔다.
- 금융 서비스: 신용점수 산정, 사기 탐지, 고객 수익성 분석
- 소매업: 재고 보충, 수요 예측
- 제조업: 맞춤형 신상품 개발
- 에너지: 트레이딩, 공급 & 수요 예측
- 온라인: 웹 매트릭스, 사이트 설계, 고객 추천
- 전략적 인사이트를 주는 가치 기반 분석을 위해서는 사업과 이에 영향을 미치는 트렌드에 대한 큰 그림을 그려야 한다. 즉, 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화를 고려해야 한다.
- 인구통계학적 변화
- 경제사회 트렌드
- 고객 니즈 변화 등
- 이외에 다른 대변화가 어디서 나타날지 예측
1-2-3. 위기 요인과 통제 방안
#빅데이터 시대의 위기 요인★
(1) 사생활 침해
- 개인정보가 포함된 데이터를 목적 외에 활용할 경우사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있다.
- 빅데이터에 의한 사생활 침해 문제를 해결하기에는 부족한 측면이 많아 좀 더 포괄적인 해결책으로 동의제를 책임제로 바꾸는 방안을 제안한다. → 개인정보 사용을 제공자의 동의에서 책임으로
- 사생활 침해 사례: 여행 사실을 트윗한 사람의 집을 강도가 노리는 고전적인 사례 발생 → 익명화 기술 발전이 필요하다.
(2) 책임 원칙 훼손
- 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라간다. 책임 원칙 훼손 위기 요인에 대한 통제 방안으로는 기존의 책임 원칙을 좀 더 보강하고 강화한다. → 결과 기반 책임 원칙 고수
- 책임 훼손의 사례: 범죄 예측 프로그램을 통해 범죄 전 체포
(3) 데이터 오용
- 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. 대응책으로 알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다. → 알고리즘 접근 허용
- 알고미즈미스트는 데이터오용의 피해를 막아주는 역할을 한다.
1-2-4. 미래의 빅데이터
#미래의 빅데이터
- 데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문 인력
- 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자 전문가 역할을 할 것으로 기대
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
1-3-1. 빅데이터 분석과 전략 인사이트
#빅데이터 분석과 전략 인사이트
- 빅데이터 분석도 기존의 분석과 마찬가지로, 데이터에서 가치, 즉 통찰을 끌어내 성과를 창출하는 것이 관건이며, 단순히 빅데이터에 포커스를 두지 말고 분석을 통해 가치를 만드는 것에 집중해야 한다.
- 데이터는 크기의 이슈가 아니라, 거기에서 어떤 시각과 통찰을 얻을 수 있느냐의 문제가 중요하다. 무작정 "빅"한 데이터를 찾을 것이 아니라, 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 그 무엇보다 중요하다.
- 전략적 통찰력을 가지고 분석하고 핵심적인 비즈니스 이슈에 집중하여 데이터를 분석하고 차별적인 전략으로 기업을 운영하여야 한다.
ex) 아메리칸항공, 사우스웨스트항공
- 일차적인 분석만으로는 큰 변화에 제대로 대응하거나 고객 환경의 변화를 파악하고 새로운 기회를 포착하기 어렵다.
- 일차원적인 분석을 통해 경험을 쌓고 분석의 활용 범위를 넓혀가며 전략적인 분석을 시도해야 한다.
- 사업성과를 견인하는 요소들과 차별화를 꾀할 기회에 대해 전략적 인사이트를 주는 가치기반 분석 단계로 나아가야 한다.
#BI와 비교하여 빅데이터 분석에 대한 키워드★ AIAC
- Information, Ad hoc Report, Alerts, Clean Data
1-3-2. 전략 인사이트 도출을 위한 필요 역량
#데이터 사이언스의 의미와 역할
- 데이터 사이언스란 데이터로부터 의미있는 정보를 추출해내는 학문이다.
- 데이터 사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념이다.
#데이터 사이언티스트의 요구역량
(1) 하드스킬(Hard Skill)
- 빅데이터에 대한 이론적 지식: 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련: 최적의 분석 설계 및 노하우 축적
(2) 소프트 스킬(Soft Skill)
- 통찰력 있는 분석: 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달: 스토리텔링, 시각화
- 다분야간 협력: 커뮤니케이션
- 전략적 통찰을 주는 분석은 단순 통계나 데이터 처리와 관련된 지식 외에 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력 등 인문학적 요소가 필요하다.
- 가트너(Gartner)가 정의한 데이터 사이언티스트의 역량 : 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬 ★
- John Rause : 수학·공학, 인문학적, 호기심 및 행복
#전략적 통찰력과 인문학의 부활 ★
(1) 외부 환경적 측면에서 인문학 열풍의 이유
- 단순세계화 → 복잡 세계화 : 컨버전스(규모의 경제, 표준화) → 디버전스(복잡한 세계, 다양성)
- 상품 생산 → 서비스 : 고장나지 않은 상품 → 뛰어난 서비스
- 생산 → 시장창조 : 공급자 중심 → 무형자산 경쟁(현지사회, 문화)
(2) 창의적 관점, 비즈니스 핵심가치 이해, 고객과 직원의 내면적 요구 이해하는 능력(인문학 역량)
#DBMS의 종류
(1) 관계형 DBMS
- 컬럼과 로우를 이루는 하나 이상의 테이블로 정리
- 키가 존재
(2) 객체지향 DBMS
- 정보를 객체 형태로 표현하는 데이터베이스 모델
(3) 네트워크 DBMS
- 레코드=노드, 관계=간선, 으로 표현되는 그래프 기반 데이터베이스 모델
(4) 계층형 DBMS
- 트리 구조를 기반으로 하는 계층 데이터베이스 모델
#개인정보 비식별화 기법 ★
- 데이터 마스킹 : 데이터를 익명으로 생성 (홍**, **대학)
- 가명처리 : 다른 값으로 대체 (홍국돈, 항곡대학)
- 총계처리 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
- 데이터값 삭제 : 개인식별에 중요한 값 삭제 (90년대 생, 남자)
- 데이터 범주화 : 범주의 값으로 변환 (홍씨, 30~40세)
'AI빅데이터 > Study' 카테고리의 다른 글
Attention 구조 비교: MHA vs MQA vs GQA (0) | 2025.05.30 |
---|---|
ADSP - 과목 3 - 데이터 분석 (0) | 2024.02.23 |
ADSP - 과목 2 - 데이터 분석 기획 (0) | 2024.02.19 |