상세 컨텐츠

본문 제목

ADSP 용어

AI/빅데이터

by cepiloth 2021. 5. 21. 16:27

본문

728x90
반응형

OLTP 온라인 거래 처리

여러 단말에서 보낸 메시지에 대해 호스트 컴퓨터가 DB 접근 및 처리 결과 반환함 
데이터 갱신을 위주로 진행하는 Processing

 

OLAP 온라인 분석 처리

정보 위주의 분석 처리 
다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 제공해주는 기술
데이터 조회를 위주로 진행하는 Processing

BI

데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스를 말한다.
데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구이다.

 

BA

데이터 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석 방법이다

 

데이터 사이언스

 컴퓨터공학, 통계학, 수학 등의 학문적 지식은 물론 시각화 및 해커로서의 소양에 이르는 관련 분야의 전문지식을 종합한 학문을 일컫는다. 기존의 통계학과 이것이 다른 다른점은 총체적 접근법을 사용한다는 것이다. 핵심 구성요소로는 IT영역, 분석적 영역, 비즈니스 컨설팅 영역이 있다.

 

스키마

데이터 베이스 스키마는 데이터 베이스에서 자료의 구조, 자료의 표현 방법, 자료간의 관계를 형식 언어로 정의한 구조이다.

 

DIKW 피라미드

데이터
정보
지식
지혜

 

정성적 데이터

언어 문자 등의 데이터이다. 형태와 형식이 정해져 있지 않고 언어 또는 문자로 기술되는 데이터이다.

 

정량적 데이터

도형, 기호, 수치 등의 데이터이다. 수치로 명확하게 표현되는 이것은 데이터의 양이 크게 증가해도 이를 관리하는 시스템에

 

알고리즈미스트

데이터 오용의 피해를 막아주는 역할을 한다. 컴퓨터, 수학, 통계학뿐 아니라 비즈니스 전반에 대한 이해가 필요하고, 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람들을 구제하는 전문직 종사자로 부상할 것이다.

 

빅데이터

일반적인 데이터베이스 소프트웨어 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다. 데이터의 양, 데이터 유형과 소스 측면의 다양성, 데이터 수집과 처리 측며에서 속도가 급격히 증가하면서 나타난 현상이다.

 

상관관계

두 변수 간에 일정한 관계가 있음을 뜻함
두 변수 간의 관계가 증가할 때 양의 상관관계, 감소할 때는 음의 상관관계라고 함

 

인과관계

원인과 결과의 관계이다. 변인들간의 인과관계를 많이 알수록 현상에 대한 이해의 폭과


유전알고리즘

 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법예) 최대의 시청률

 

렌즈

빅데이터 기는 중 렌즈 역할의 대표적은 사례로 구글이 제공하는 엔그렘 뷰어 관련 서비스 내용이다.

 

사용자 로그

빅데이터 출현에 따른 변화로 사용자 로그 (정보)사용자가 인터넷에 접속한 시간과 정보, 검색기록

ERP

기업 전체의 자원을 효과적이며, 통합적으로 관리하고 경영의 효율화를 기하는 수단으로 정보의 통합을 위해 기업의 모든 자원을 최적상태로 관리하기 위한 기업 경영정보시스템

 

CRM

기업이 고객과 관련된 내외부 자료 분석, 통합해 고객 중심 자원 극대화
고객 특성에 맞게 마케팅 활동 계획, 지원, 평가


SCM 공급망관리

원재료 생산, 유통 등 모든 공급망 단계 최적화하여 수요자가 원하는 제품을 원하는 시간, 장소에 제공

 

KMS 지식관리시스템

기업경영을 지식이라는 관점에서 새롭게 조명하는 접근방식

 

데이터오용

포드가 자동차를 만들려고 했을 때 사람들의 의견을 물었다면 사람들은 더 빠른 말이 필요하다는 대답을 했을거라고 비유한다.

 

책임 원칙 훼손

영화 '마이너리티 리포트'는 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포되는 내용입니다.

 

맵리듀스

클라우드 분산 병렬처리 컴퓨팅 중 빅데이터와 같은 대용량 처리 비용을 획기적으로 줄여준다.

 

DBMS

데이터베이스 형태로 저장된 방대한 양의 각종 정보를 체계적으로 관리하는 데이터베이스 시스템

 

형식지

객관적인 데이터인 책과 같이 형식지를 만드는 표출화된 지식을 개인의 지식으로 연결과 형식지는 상호작용한다.

 

암묵지

개인에게 축적된 내면화된 지식을 조직의 지식으로 공통화하여 암묵지는 상호작용한다.
개인의 습득한 지식으로 다른 사람에게 공유하기 어렵다는 단점이 있다.

 

데이터 사이언티스트

 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가 역할을 할 것으로 기대된다. 정량분석이라는 과학과 인문학적 통찰에 근거한 합리적 추론을 조합한다.

빅데이터 활용에 필요한 3요소는 데이터, 기술, 인력이다.

 

하둡

여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이다. 하둡의 부족한 기능을 서로 보완하는 에코시스템이 등장하여 솔루션을 제공한다. 대량의 자료를 처리할 수 있도록 대형 컴퓨터 클러스터에서 동작하는 분산 응용프로그램 지원 프레임워크



데이터베이스

통합된 데이터로 다양한 방법으로 필요한 정보를 검색할 수 있는 검색 가능성을 가진다.
변화되는 데이터로 데이터의 삽입, 삭제, 갱신에도 항상 현재의 정확한 데이터를 유지해야 한다.
여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용함으로 



데이터 익명화

가명, 일반화, 치환 등을 포함한 다양한 방법으로 이것을 구현한다.

총체적 접근법

데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당분야의 전문지식을 종합한 학문으로 정의하기도 한다.


데이터웨어하우스

특정 주제에 따라 데이터들이 분류, 저장, 관리된다.
관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장한다.


SQL

사용자와 데이터베이스 사이에서 사용


분석유스케이스

풀어야할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것이다.


분석 마스터 플랜

기업 또는 기관의 전사 차원에서 식별된 다양한 분석과제를 대상으로 제한된 예산과 자원을 효과적으로 수행하기 위하여 

분석준비도

빅데이터 분석을 도입하기에 앞서 혀재 기업의 분석 수준을 명확하게 파악하는 것이 중요하다.
진잔을 통한 향후 분석 목표 및 방향성 수립을 위해 진단하는 6가지 평가 영역이있다.

소프트 스킬 - 가트너
데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련과 관련된 능력인 하드 스킬과 데이터 속에 숨겨친 가지를 발견

데이터 준비
데이터 분석 방법론 중 KDD는 데이터 전처리에 분석 재사용 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별

프레이밍 효과
동일한 사안이라고 해도 제시되는 방법에 따라 그에 관한 해석이나 의사결정이 달라

하향식 접근 방식
문제가 먼저 주어지고 해답을 찾기 위해 과정을 체계적으로 단계화하여 수행하는 방식, 체계적으로 단계적이다.

상향식 접근 방식
문제의 정의 자체가 어려운 경우 데이터 기반으로
시행착오를 통한 문제 해결인 프로토타이핑 접근법이다.
다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정이다.

모델링
CRISP-DM 단계중 Traning Data와 Test Data를 평가하여 모델 과적합 등의 문제를 발견하고 대응 방안을 마련하는 단계이다.


프로토타이밍

 신속하게 해결책 모형을 제시 및 상향식 접근방법에 활용한다. 접근법의 기본적인 프로세스는 가설의 생성 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰도출 및 가설 확인으로 구성된다.

 

나선형

여러 번의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시켜가는 모델이며 대규모 시스템 소프트웨어 개발에 적합하다.

 

정보전략계획(ISP) - 중장기 로드맵, 중장기 마스터 플랜

기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한다. 정보기술 또는 정보시스템 전략적으로 활용하기 위하여 중장기 마스터 플랜을 수립하는 절차이다.

 

애자일 방법론

폭포수형 모델과 반대의 개념으로 탄생한 모델이다.


분석 마스터 플랜

데이터 분석 기획의 특성을 고려하여 수행하고 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 중장기로 나누어 계획을 수립한다.


EDA

데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석한다.
다양한 차원과 값을 조합해 가며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정이다.

 

데이터 거버넌스

 - 마스터 데이터, 메타 데이터, 데이터 사전
전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임 워크 및 저자소를 구축하는 것을 말한다.

 

마스터 데이터

자주 변하지 않고 처리 운영에 기본자료로 제공되는 자료의 집합으로

 

분석 과제 정의서

향후 프로젝트 수행계획을 위해 입력물로 사용하기 때문에 프로젝트를 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공여부를 판별할 수 있는 주요한 자료로서 명확하게 작성되어야 한다.

 

지도학습

 명확한 목적 하에 테이터분석을 실시하는 것을 말하며, 분류, 추측, 예측, 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적이다. O와 X를 구분 짓게 하는 분류이다.
지도학습의 경우 결과로 도출되는 값에 대하여 사전에 인지하고 어떠한 데이터를 넣었을 때 어떠한 결과가 나올지를 예측하는 것이다.

 

비지도학습

상향식 접근 방식의 데이터 분석은 비지도학습에 의해 수행된다. 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.


비지니스 모델

시장에서 경쟁자의 활동들과 다른 활동들을 수행하거나 유사한 활동들을 다른 방식으루 수행하여 자사가 경쟁사보다 겨쟁 우위를 갖기 위한 것을 말한다.

 

분석기획

기업의 비즈니스 모델 분석을 통해 경쟁력 강화를 위한 핵심을 식별한다.

 

분석 정의서

분석 활용 시나리오와 분석 체계를 보다 상세히 나타내는 방법으로서 분석별로 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석 수행주기


데이터 거버넌스 구성요소 3가지

원칙
조직
프로세스


지지도

얼마나 빈번하게 나타나는 경우인지를 설명하는 상대적인 값이다.

신뢰도

A를 사건 고객이 B를 삭 확률이다.조건부 확률을 사용한다.


계절요인

분해 시계열 분석에서 요일마다 반복되거나 일 년 중 각


추세요인

분해 시계열 분석에서 자료의 그림을 그렸을 때 그 형태가 오르거나 도는 내리는 추세요인

 

순환요인
분해 시계열 분석에서 경제적이나 자연적인 


불규칙 요인

분해 시계열 분석에서 추세, 계절, 순환 요인으로 회귀분석에서 오차에 해당하는 요인이다.

 

ARMA

시계열 모형 중 과거 시점의 관측 자료와 과거 시점의 백색잡음의


잔차분석

선형성, 등분산성, 독립성, 정규성 등을 검토하게 된다.


시뮬레이션

복잡한 실제 상황을 단순환하여 컴퓨터상의 모델로 만들어 이를 재현 또는 변경함으로써 현상을 보다 잘이해하고 미래의 변환에 따른 결과를 예측하는데 사용하는 고급 분석 시법이다.

 

오즈

로직스틱 회귀모형에서 exp(x1)의 의미, 성공률을 실패율로 나눈 값이다.

배깅

원데이터 집합으로부터 크기가 같은 표본을 여러 번 단

부스팅

붓스트랩 표본을 추출하여 분류기를 만든 후, 그 분류결과를 이용하여 각 데이터가 추출될 확률을 조정한후, 다음 붓스트랩 표본을 추출하는 과정을 반복한다. 잘못된 데이터에 더 큰 가중을 주어 표본을 추출한다.

 

랜덤 포레스트

배깅에 랜덤 과정을 추가한 앙상블 방법론

 

차분

비정상시계열을 정상시계열로 전화하는 방법 중 현 시점의 자료값에서 전 시점의 자료값을 빼주는 것

 

와드연결법

크기가 비슷한 군집끼리 병합하는 경향

 

최단연결법

두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최소값

 

최장연결법

같은 군집에 속하는 관측치는 알려진 최대 거리보다 짧으며, 군집들의 내부 응집성에 중점을 둔 방법이다.

 

평균연결법

과정 반복하면 모든 데이터를 포함하는 하나의 군집 형성된다.

 

전진선택법

기준 통계치를 가장 많이 개선시키는 변수를 추가하는 방법이다. 상수모형부터 시작해 중요하다고 생각되는 설명변수부터 차례로 추가하는 방법이다.

 

후진제거법

회귀분석 단계적 변수 선택에서 모든 변수가 포함된 모델에서 기준 통계치에 가장 도움이 되지 않은 변수 또는 영향을 가장 적게 주는 변수부터 하나씩 제거하는 방법이다.

 

A.SOM(자기조직화지도)

코호넨에 의해 제시 및 개발되었으며 일명 코호넨 맵이라고 한다.
비지도 신경만으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한다.


k-평균 군집 분석

대상들의 특성에 기초하여 유사한 성질을 갖는 대상들을 동일한 집단으로 분류하는 기법이다.

 

주성분분석

 상관관계가 있는 변수들을 결합해 상관관계 없는 변수끼리 분산을 극대화하여 변수를 축약하는 분석기법이다. 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원자료로 변화시키는 방법으로 자료의 차원을 축소하는데 사용한다. 즉, 차원축소를 하는데 쓰인다.
 상관관계가 있는 변수들을 결합해 서로 상관관계가 없고 분산을 극대화 하는 변수로 축약하는데 사용한다. 즉, 여러변수들 가느이 상관성, 연관성을 이용하여 주성분차원으로 변수를 축소한다. 변수 간 다중공선성이 있을 경우 분석결과에 영향을 줄 수 있으며, 상관도가 높은 변수를 축소한다.


EM 알고리즘

혼합분포군집은 모형 기반의 군집 방법으로서 데이터 K개의 

 

의사결정나무

의사결정 규칙을 나무 구졸 나타내어 전체 자료를 몇 개의 소집단으로 분류














728x90
반응형

관련글 더보기

댓글 영역