여러 단말에서 보낸 메시지에 대해 호스트 컴퓨터가 DB 접근 및 처리 결과 반환함
데이터 갱신을 위주로 진행하는 Processing
정보 위주의 분석 처리
다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 제공해주는 기술
데이터 조회를 위주로 진행하는 Processing
데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스를 말한다.
데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구이다.
데이터 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석 방법이다
컴퓨터공학, 통계학, 수학 등의 학문적 지식은 물론 시각화 및 해커로서의 소양에 이르는 관련 분야의 전문지식을 종합한 학문을 일컫는다. 기존의 통계학과 이것이 다른 다른점은 총체적 접근법을 사용한다는 것이다. 핵심 구성요소로는 IT영역, 분석적 영역, 비즈니스 컨설팅 영역이 있다.
데이터 베이스 스키마는 데이터 베이스에서 자료의 구조, 자료의 표현 방법, 자료간의 관계를 형식 언어로 정의한 구조이다.
데이터
정보
지식
지혜
언어 문자 등의 데이터이다. 형태와 형식이 정해져 있지 않고 언어 또는 문자로 기술되는 데이터이다.
도형, 기호, 수치 등의 데이터이다. 수치로 명확하게 표현되는 이것은 데이터의 양이 크게 증가해도 이를 관리하는 시스템에
데이터 오용의 피해를 막아주는 역할을 한다. 컴퓨터, 수학, 통계학뿐 아니라 비즈니스 전반에 대한 이해가 필요하고, 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람들을 구제하는 전문직 종사자로 부상할 것이다.
일반적인 데이터베이스 소프트웨어 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다. 데이터의 양, 데이터 유형과 소스 측면의 다양성, 데이터 수집과 처리 측며에서 속도가 급격히 증가하면서 나타난 현상이다.
두 변수 간에 일정한 관계가 있음을 뜻함
두 변수 간의 관계가 증가할 때 양의 상관관계, 감소할 때는 음의 상관관계라고 함
원인과 결과의 관계이다. 변인들간의 인과관계를 많이 알수록 현상에 대한 이해의 폭과
최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법예) 최대의 시청률
빅데이터 기는 중 렌즈 역할의 대표적은 사례로 구글이 제공하는 엔그렘 뷰어 관련 서비스 내용이다.
빅데이터 출현에 따른 변화로 사용자 로그 (정보)사용자가 인터넷에 접속한 시간과 정보, 검색기록
기업 전체의 자원을 효과적이며, 통합적으로 관리하고 경영의 효율화를 기하는 수단으로 정보의 통합을 위해 기업의 모든 자원을 최적상태로 관리하기 위한 기업 경영정보시스템
기업이 고객과 관련된 내외부 자료 분석, 통합해 고객 중심 자원 극대화
고객 특성에 맞게 마케팅 활동 계획, 지원, 평가
원재료 생산, 유통 등 모든 공급망 단계 최적화하여 수요자가 원하는 제품을 원하는 시간, 장소에 제공
기업경영을 지식이라는 관점에서 새롭게 조명하는 접근방식
포드가 자동차를 만들려고 했을 때 사람들의 의견을 물었다면 사람들은 더 빠른 말이 필요하다는 대답을 했을거라고 비유한다.
영화 '마이너리티 리포트'는 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포되는 내용입니다.
클라우드 분산 병렬처리 컴퓨팅 중 빅데이터와 같은 대용량 처리 비용을 획기적으로 줄여준다.
데이터베이스 형태로 저장된 방대한 양의 각종 정보를 체계적으로 관리하는 데이터베이스 시스템
객관적인 데이터인 책과 같이 형식지를 만드는 표출화된 지식을 개인의 지식으로 연결과 형식지는 상호작용한다.
개인에게 축적된 내면화된 지식을 조직의 지식으로 공통화하여 암묵지는 상호작용한다.
개인의 습득한 지식으로 다른 사람에게 공유하기 어렵다는 단점이 있다.
빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가 역할을 할 것으로 기대된다. 정량분석이라는 과학과 인문학적 통찰에 근거한 합리적 추론을 조합한다.
빅데이터 활용에 필요한 3요소는 데이터, 기술, 인력이다.
여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이다. 하둡의 부족한 기능을 서로 보완하는 에코시스템이 등장하여 솔루션을 제공한다. 대량의 자료를 처리할 수 있도록 대형 컴퓨터 클러스터에서 동작하는 분산 응용프로그램 지원 프레임워크
통합된 데이터로 다양한 방법으로 필요한 정보를 검색할 수 있는 검색 가능성을 가진다.
변화되는 데이터로 데이터의 삽입, 삭제, 갱신에도 항상 현재의 정확한 데이터를 유지해야 한다.
여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용함으로
가명, 일반화, 치환 등을 포함한 다양한 방법으로 이것을 구현한다.
데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당분야의 전문지식을 종합한 학문으로 정의하기도 한다.
특정 주제에 따라 데이터들이 분류, 저장, 관리된다.
관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장한다.
사용자와 데이터베이스 사이에서 사용
풀어야할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것이다.
기업 또는 기관의 전사 차원에서 식별된 다양한 분석과제를 대상으로 제한된 예산과 자원을 효과적으로 수행하기 위하여
빅데이터 분석을 도입하기에 앞서 혀재 기업의 분석 수준을 명확하게 파악하는 것이 중요하다.
진잔을 통한 향후 분석 목표 및 방향성 수립을 위해 진단하는 6가지 평가 영역이있다.
소프트 스킬 - 가트너
데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련과 관련된 능력인 하드 스킬과 데이터 속에 숨겨친 가지를 발견
데이터 준비
데이터 분석 방법론 중 KDD는 데이터 전처리에 분석 재사용 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별
프레이밍 효과
동일한 사안이라고 해도 제시되는 방법에 따라 그에 관한 해석이나 의사결정이 달라
하향식 접근 방식
문제가 먼저 주어지고 해답을 찾기 위해 과정을 체계적으로 단계화하여 수행하는 방식, 체계적으로 단계적이다.
상향식 접근 방식
문제의 정의 자체가 어려운 경우 데이터 기반으로
시행착오를 통한 문제 해결인 프로토타이핑 접근법이다.
다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정이다.
모델링
CRISP-DM 단계중 Traning Data와 Test Data를 평가하여 모델 과적합 등의 문제를 발견하고 대응 방안을 마련하는 단계이다.
신속하게 해결책 모형을 제시 및 상향식 접근방법에 활용한다. 접근법의 기본적인 프로세스는 가설의 생성 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰도출 및 가설 확인으로 구성된다.
여러 번의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시켜가는 모델이며 대규모 시스템 소프트웨어 개발에 적합하다.
기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한다. 정보기술 또는 정보시스템 전략적으로 활용하기 위하여 중장기 마스터 플랜을 수립하는 절차이다.
폭포수형 모델과 반대의 개념으로 탄생한 모델이다.
데이터 분석 기획의 특성을 고려하여 수행하고 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 중장기로 나누어 계획을 수립한다.
데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석한다.
다양한 차원과 값을 조합해 가며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정이다.
- 마스터 데이터, 메타 데이터, 데이터 사전
전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임 워크 및 저자소를 구축하는 것을 말한다.
자주 변하지 않고 처리 운영에 기본자료로 제공되는 자료의 집합으로
향후 프로젝트 수행계획을 위해 입력물로 사용하기 때문에 프로젝트를 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공여부를 판별할 수 있는 주요한 자료로서 명확하게 작성되어야 한다.
명확한 목적 하에 테이터분석을 실시하는 것을 말하며, 분류, 추측, 예측, 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적이다. O와 X를 구분 짓게 하는 분류이다.
지도학습의 경우 결과로 도출되는 값에 대하여 사전에 인지하고 어떠한 데이터를 넣었을 때 어떠한 결과가 나올지를 예측하는 것이다.
상향식 접근 방식의 데이터 분석은 비지도학습에 의해 수행된다. 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.
시장에서 경쟁자의 활동들과 다른 활동들을 수행하거나 유사한 활동들을 다른 방식으루 수행하여 자사가 경쟁사보다 겨쟁 우위를 갖기 위한 것을 말한다.
기업의 비즈니스 모델 분석을 통해 경쟁력 강화를 위한 핵심을 식별한다.
분석 활용 시나리오와 분석 체계를 보다 상세히 나타내는 방법으로서 분석별로 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석 수행주기
원칙
조직
프로세스
얼마나 빈번하게 나타나는 경우인지를 설명하는 상대적인 값이다.
A를 사건 고객이 B를 삭 확률이다.조건부 확률을 사용한다.
분해 시계열 분석에서 요일마다 반복되거나 일 년 중 각
분해 시계열 분석에서 자료의 그림을 그렸을 때 그 형태가 오르거나 도는 내리는 추세요인
순환요인
분해 시계열 분석에서 경제적이나 자연적인
분해 시계열 분석에서 추세, 계절, 순환 요인으로 회귀분석에서 오차에 해당하는 요인이다.
시계열 모형 중 과거 시점의 관측 자료와 과거 시점의 백색잡음의
선형성, 등분산성, 독립성, 정규성 등을 검토하게 된다.
복잡한 실제 상황을 단순환하여 컴퓨터상의 모델로 만들어 이를 재현 또는 변경함으로써 현상을 보다 잘이해하고 미래의 변환에 따른 결과를 예측하는데 사용하는 고급 분석 시법이다.
로직스틱 회귀모형에서 exp(x1)의 의미, 성공률을 실패율로 나눈 값이다.
원데이터 집합으로부터 크기가 같은 표본을 여러 번 단
붓스트랩 표본을 추출하여 분류기를 만든 후, 그 분류결과를 이용하여 각 데이터가 추출될 확률을 조정한후, 다음 붓스트랩 표본을 추출하는 과정을 반복한다. 잘못된 데이터에 더 큰 가중을 주어 표본을 추출한다.
배깅에 랜덤 과정을 추가한 앙상블 방법론
비정상시계열을 정상시계열로 전화하는 방법 중 현 시점의 자료값에서 전 시점의 자료값을 빼주는 것
크기가 비슷한 군집끼리 병합하는 경향
두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최소값
같은 군집에 속하는 관측치는 알려진 최대 거리보다 짧으며, 군집들의 내부 응집성에 중점을 둔 방법이다.
과정 반복하면 모든 데이터를 포함하는 하나의 군집 형성된다.
기준 통계치를 가장 많이 개선시키는 변수를 추가하는 방법이다. 상수모형부터 시작해 중요하다고 생각되는 설명변수부터 차례로 추가하는 방법이다.
회귀분석 단계적 변수 선택에서 모든 변수가 포함된 모델에서 기준 통계치에 가장 도움이 되지 않은 변수 또는 영향을 가장 적게 주는 변수부터 하나씩 제거하는 방법이다.
코호넨에 의해 제시 및 개발되었으며 일명 코호넨 맵이라고 한다.
비지도 신경만으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한다.
대상들의 특성에 기초하여 유사한 성질을 갖는 대상들을 동일한 집단으로 분류하는 기법이다.
상관관계가 있는 변수들을 결합해 상관관계 없는 변수끼리 분산을 극대화하여 변수를 축약하는 분석기법이다. 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원자료로 변화시키는 방법으로 자료의 차원을 축소하는데 사용한다. 즉, 차원축소를 하는데 쓰인다.
상관관계가 있는 변수들을 결합해 서로 상관관계가 없고 분산을 극대화 하는 변수로 축약하는데 사용한다. 즉, 여러변수들 가느이 상관성, 연관성을 이용하여 주성분차원으로 변수를 축소한다. 변수 간 다중공선성이 있을 경우 분석결과에 영향을 줄 수 있으며, 상관도가 높은 변수를 축소한다.
혼합분포군집은 모형 기반의 군집 방법으로서 데이터 K개의
의사결정 규칙을 나무 구졸 나타내어 전체 자료를 몇 개의 소집단으로 분류
Single Word (1) | 2023.02.07 |
---|---|
데이터 베이스 구성요소 (0) | 2021.05.19 |
빅데이터 시대의 위기 요인 및 위기요인에 대한 통제 방안 (0) | 2021.05.19 |
빅데이터 활용 기본 테크닉 (0) | 2021.05.19 |
한글 워드클라우드 생성하기 (0) | 2021.04.06 |
댓글 영역