LocalDisk (R:)

[분석리뷰] 포르자 호라이즌 5 : 업계 1위는 그냥 하는것이 아니다

Rev32 — Sat, 11 Jan 2025 23:34:52 +0900

Forza Horizon 5 대표이미지 / 출처 : Steam

포르자 호라이즌 5는 Microsoft 산하의 Playground Games에서 개발한 오픈월드 레이싱 게임입니다. 2021년 11월 9일 Xbox, Steam에서 동시 출시하였고, 출시 후 만 3년 2개월이 지난 2025년 1월 11일 기준으로도 스팀 레이싱 게임 카테고리에서 인기순위 3등을 유지하고 있습니다. 특히, 집계 기준을 IP로 확대하면 레이싱게임에서 동접자 부동의 1위를 지키고 있습니다. 스팀 동접자뿐만 아니라, OpenCritic 기준 평론가 점수도 높아, 현세대 레이싱 게임의 레퍼런스 중 하나가 되었습니다.

OpenCritic "Mighty" / 출처 : Opencritic

Metacritic "Must-Play" / 출처 : Metacritic

포르자 호라이즌 5가 출시된지 만 3년이 지난 지금, 포르자 호라이즌은 판매실적으로 보나, 유저 커뮤니티에 미친 영향력을 보나 레이싱게임의 대세입니다. 비슷한 컨셉과, 개임 전개 방식을 가지고 24년 4월 18일에 출시한 유비소프트의 더 크루 모터페스트는 출시한지 1년도 되지 않아 일일 피크 동접자 1,363명이라는 처참한 성적을 보이고 있는데 비해 포르자 호라이즌 5는 17,196명의 동접자를 유지하고있습니다.

FH5는 어떻게 롱런하고 있는가?

포르자 호라이즌 5의 출시 이후, 굵직한 오픈월드 레이싱 게임 IP들의 신작이 없던것은 아닙니다. EA 의 니드 포 스피드 언바운드, Ubisoft 의 더 크루 모터페스트, Nacon의 테스트 드라이브 언리미티드 : 솔라크라운 등 AAA급 오픈월드 레이싱 게임의 출시는 결코 적지 않았습니다. 그럼에도 포르자 호라이즌 5는 신작들에게 그 자리를 내준적이 없는데, 크게 두가지 이유가 있다고 봅니다.

Forza Horizon 5 를 벤치마크 하여 출시한 Ubisoft의 The Crew Motorfest / 출처 : Epic Games

게임의 체급

물론 앞서 나열한 오픈월드 레이싱 게임들은 모두 AAA게임이라는 대분류로 묶여 있지만, 게임의 마감과 전반적 퀄리티에 있어 포르자 호라이즌 5는 타 게임들과 체급이 다릅니다. 포르자 호라이즌 5의 그래픽은 타 게임에 비해 화려하지 않습니다. 오히려 슴슴한 편에 가깝습니다.

Forza Horizon 5 인게임 스크린샷

Need for speed : Unbound 인게임 플레이 사진 / 출처 : Eurogamer

부스터 시스템이 있어 시각적 도파민이 있는 더 크루 시리즈, 화려한 이펙트가 프랜차이즈의 상징이 되어버린 니드 포 스피드 시리즈에 비하면 굉장히 담백합니다. 하지만 이런 담백한 그래픽이 유저들의 니즈에 맞아떨어졌습니다. 오픈월드 레이싱게임은 서킷을 도는 모터스포츠 게임과 지향점이 다릅니다. 모터스포츠 게임의 지향점이 시간, 속도, 경쟁자, 나 자신과의 싸움이라면 오픈월드 레이싱 게임의 지향점은 "드림카를 빠르게 운전한다"에 더 가깝습니다. "유저에게 최적의 자동차 운전경험을 제공한다"는 목표 아래, 자동차 모델링부터 오픈월드 맵 모델링까지, 현실적으로 보이도록 공을 들였습니다.

포르자 호라이즌 5 제작진은 상술한 그래픽뿐만 아니라, 사운드적인 요소에도 많은 공을 들였습니다. 타 게임이 인위적이고, 공격적인 배기음을 통해 아드레날린과 도파민을 유도할때, 포르자 호라이즌 5는 활주로 하나를 통째로 빌려 실제 차량의 배기음을 녹음했습니다.

Forza Horizon 5의 사운드 녹음 과정 / 출처 : Youtube

현실적이고 디테일한 그래픽과 사운드가 맞물려, 포르자 호라이즌 5는 자동차 애호가들에게 "꿈"을 체험하는 플랫폼이 되었습니다.

지속적인 컨텐츠 업데이트

미션 / 퀘스트 달성을 통해 레벨을 올리고, 레벨에 해당하는 보상을 얻는 배틀패스 시스템은 요즘 라이브 서비스 게임을 플레이 해봤다면 생소한 개념이 아닐것입니다. 배틀패스를 통한 BM이 효과적이라는것이 입증된 이후로는, 장르불문하고 수많은 게임이 비슷한 모델을 사용중입니다.

포르자 호라이즌 5도 배틀패스가 있습니다. 하지만, 포르자 호라이즌 시리즈는 배틀패스를 통해 수익을 내지 않습니다. 배틀패스는 게임 타이틀을 가지고 있는 유저라면 누구나 접근할 수 있으며, 배틀패스와 관련된 어떠한 재화, 결제도 필요없습니다.

Forza Horizon 5의 배틀패스 화면 - 기아 자동차의 EV6가 월간 보상이다. / 출처 : Officail Forza Community Forums

포르자 호라이즌 5의 배틀패스는 4주 마다 메인테마가 변경되고, 매주 새로운 미션 세트가 제공됩니다. 배틀패스 미션 클리어를 통해 얻은 포인트로 매주 차량과 재화를 제공하고, 4주간의 획득 포인트를 합산해 테마 보상까지 제공하는 방식입니다.
매주 새로운 컨텐츠와 함께 새로운 차량이 제공되는것은 유저들에게 굉장히 매력적으로 다가옵니다.

이미 오픈월드 레이싱 게임의 기본기(그래픽, 사운드, 오픈월드)를 잘 만들어뒀기 때문에, 새로운 차량으로 오픈월드를 달리는것이 유저들이 매주 게임에 접속해 지속적으로 게임 플레이를 이어나갈 충분한 이유가 됩니다.

형보다 나은 아우 없다

이렇게 보면 포르자 호라이즌5가 순항중인 것 같지만, 포르자 호라이즌5의 라이브서비스가 성공적이라고 단언하긴 힘듭니다. 아래 표는 최근 3개월(2025년 1월 11일 기준) 포르자 호라이즌 4와 포르자 호라이즌 5의 동시 접속자 그래프입니다.

파란색 : 포르자 호라이즌 4, 초록색 : 포르자 호라이즌 5 / 출처 : SteamDB

2018년 10월에 출시한 포르자 호라이즌4가 역대 최고 동시접속자 수가 낮음에도 불구하고, 최근 3개월동안 거의 항상 포르자 호라이즌5보다 더 많은 동시접속자를 보여주고 있습니다. 포르자 호라이즌 5가 포르자 호라이즌 4 보다 시각적, 청각적으로 훨씬 진보한 최신 시리즈인데, 왜 이런 현상이 발생하는것일까요?

엔드게임 컨텐츠의 부재

포르자 호라이즌 5의 동시접속자 그래프를 잘 보면, 7일 주기로 목요일에 접속자가 늘었다가, 목요일 전까지 하락하고 다시 목요일에 증가하는 패턴을 반복하고 있습니다.

Forza Horizon 5 일별 동시접속자 그래프 / 출처 : SteamDB

이는 앞서 말했던 배틀패스와 관련이 있습니다. 스토리나, 각종 미션을 모두 깬 플레이어가 포르자 호라이즌5에서 찾을 수 있는 새로운 요소는 매주 목요일 초기화 되는 미션과 신규 차량 보상밖에 없기 때문에, 목요일을 기준으로 유저가 이탈 / 복귀하게 됩니다. 즉, 포르자 호라이즌 5는 매주 추가되는 배틀패스 외에 유저들의 지속적인 참여를 독려할 매력적인 컨텐츠가 부족하다고 볼 수 있습니다.

Forza Horizon 4 일별 동시접속자 그래프 / 출처 : SteamDB

반면, 포르자 호라이즌4의 동시접속자 그래프는 일정 구간에서 포르자 호라이즌 5와 같은 양상을 보이긴 하나, 비교적 영향을 덜받는것으로 보입니다. 이는 포르자 호라이즌 4에는 후속작에 없는 '랭크매치'가 있기 때문입니다. 포르자 호라이즌 4의 경우 더 높은 티어에 대한 갈망이라는 지속적인 동기를 제공하는 반면, 포르자 호라이즌 5는 매주 목요일의 업데이트 말고는 강력한 플레이 동기부여 수단이 없습니다.

차량 간 밸런스 문제

포르자 호라이즌 5에도 별도의 랭크 책정 시스템은 없지만, 상대와 레이싱을 할 수 있는 컨텐츠가 있습니다. 하지만, 최신작임에도 전작보다 동시접속자가 적다는 것은 이 컨텐츠에도 문제가 있다는것을 시사합니다. 아래 이미지는 포르자 호라이즌 5의 오프로드 서킷 WR(세계 최고 기록) 타이밍과, 사용한 차량을 정리해둔 시트입니다.

Forza Horizon 5 : S2 Class Dirt circuit WR leaderboard / 출처 : snosaes

20개의 오프로드 서킷 중, 18개의 서킷의 최고 기록이 동일한 차량으로 작성되었습니다. 서킷의 레이아웃과 관계 없이, 어느 상황에서나 가장 좋은 소위 "메타"차량의 존재가 게임 내 밸런스를 망가뜨리고 있습니다. 레이싱은 결국 누가 먼저 결승선을 통과하느냐를 겨루는 행위입니다. 상대와 동등한 조건에서 싸워 이기려면 특정 차량을 타도록 강제되는 상황 자체가 유저들이 이 게임에 쉽게 질리게 만드는 요인 중 하나일 것입니다.

그럼에도 아직 인기를 유지하고 있는 이유

포르자 호라이즌 5가 가진 두개의 큰 문제는, 레이싱 게임에게 치명적인 결함이 아닐 수 없습니다. 그럼에도, 서론에서 설명한 것 처럼 포르자 호라이즌 5는 아직 현세대 레이싱게임의 레퍼런스로써 많은 게임들에게 영향을 주고 있음은 부정할 수 없습니다. 엔드게임도 부실하고, 밸런스도 망가진 게임을 어떻게 출시 후 3년동안 흥행 할 수 있게 만들었을까요?

등장 차량 수

3년간 매주 신규 차량을 출시하다보니, 2025년 1월 11일 기준으로 포르자 호라이즌 5에는 총 894대의 차량이 있습니다. 전세계 14개국의 100개 이상의 브랜드가 있고, 1930년대 차량부터 2024년 출시 차량까지 수많은 종류의 차량이 구비되어있습니다. 모든 차량을 5분씩만 타본다고 해도 단순 계산으로 75시간이 소요되고, 해당 차량들의 획득에 필요한 시간까지 생각해보면 적어도 100시간 이상이 플레이타임이 보장되는 셈입니다. 몇년 전, 현대에서 공개해서 화제가 된 N vision 74를 처음으로 정식 출시한 게임이기도 합니다.

현대 자동차의 차세대 스포츠카, N Vision 74 / 출처 : Hyundai Worldwide

다른 레이싱 게임에도 800개 이상의 차량을 사용 가능한 게임이 있습니다. 하지만, 800개 이상의 정식 라이센스를 가진 차량을 제공하는 게임은 포르자 호라이즌 시리즈가 유일합니다. 경쟁작 중엔 더 크루 모터페스트가 600개로 그나마 가장 많은 차량 수를 가지고 있지만, 300대의 차이는 꽤 큽니다. 게다가, 더 크루 모터페스트는 한달에 한번 꼴로 최신 차량이 1 ~ 2대씩 추가 되지만, 포르자 호라이즌 5의 경우 매주 최신 차량이 추가되기 때문에, 차량 목록의 퀄리티도 차이가 있습니다.

물리엔진

앞서 포르자 호라이즌 5와 주로 비교했던 더 크루 모터페스트, 니드 포 스피드 언바운드는 아케이드(조작이 쉽고, 비현실적인)계열 물리엔진을 사용합니다. 덕분에 초보자도 쉽게 게임에 적응할 수 있고, 조금만 연습하면 화려하게 자동차를 컨트롤 할 수 있습니다. 반면, 포르자 호라이즌 5의 물리엔진인 ForzaTech는 비교적 현실적인 편입니다. 그 이유는 포르자 호라이즌 5의 물리엔진 개발 과정에 있는데, ForzaTech는 원래 시뮬레이션 레이싱 게임인 포르자 모터스포츠 7의 물리엔진으로 개발되었습니다. 현실적인 주행감각을 목적으로 하는 물리엔진을 유저가 더 쉽게 접근할 수 있도록 수정한 결과물이 포르자 호라이즌 5의 물리엔진입니다.

Forza Horizon 5 물리엔진의 출처, Forza Motorsports 7 대표이미지 / 출처 : Forza Support

결과적으로 물리엔진의 태생의 차이가 경쟁작들과 차이를 만들었습니다. 현실세계의 자동차는 관성에 의해, 주행중 실시간으로 하중이 쏠리는 위치가 변하게 되고, 이를 하중이동이라고 표현합니다. 오늘날의 모터스포츠에서도 이러한 하중이동에 대한 개념은 가장 먼저 익혀야 할 개념 중 하나입니다.

코너를 도는 차량의 하중이 좌측 전방으로 쏠린 모습 / 출처 : Suspension Secrets

포르자 호라이즌 5의 물리엔진이 원래는 시뮬레이션을 목적으로 만들어진 만큼, 포르자 호라이즌에는 하중이동의 개념이 구현되어 있습니다. 현실적인 그래픽, 사운드와 맞물려 더 현실적인 경험을 제공하는데 일조하는 셈입니다.

하지만 단순히 게임이 현실적이기만 했다면 기존 오픈월드 레이싱 게임을 즐기는 유저(아케이드 성향 물리엔진에 익숙한 유저)들이 적응하지 못해 지금과 같은 흥행은 이루지 못했을 것입니다. 포르자 호라이즌 5는 여러 보조장치를 통해 유저들이 자신에게 맞는 세팅을 찾을 수 있도록 만들었고, 이는 성공적인 접근이었습니다.

Forza Horizon 5의 다양한 난이도 조절 옵션

보조장치를 많이 사용할수록 조금씩 느려지지만 차를 몰기 쉽게 만드는 반면, 숙련자들은 보조장치의 도움을 받지 않고 최대의 속도로 운전할 수 있도록 설계하였습니다. 난이도와 속도의 증감 조절 방식을 차량의 출력(마력)제한과 같은 단순한 방식이 아닌, 차량의 성능(접지력, 하중이동 속도, 변속 속도 등 현실에 기반한 요소)을 한계까지 사용할 수 있도록 설계하여 초심자와 숙련자 모두 만족시켰습니다.

마치며

포르자 호라이즌 프랜차이즈는 4번째 시리즈인 포르자 호라이즌 4가 나온 2018년 부터 레이싱게임 카테고리에서 부동의 1위를 유지중입니다. 하지만 레이싱 게임 시장의 크기가 타 장르에 비해 작은 편이기도 하고, 플레이그라운드 게임즈는 2024년에 포르자 모터스포츠 8을 출시하였으나, 흥행에 실패하기도 했습니다. 제작사의 향방이 다음 출시 예정작인 포르자 호라이즌 6에 달려 있는 만큼, 다가오는 6월에 있을 Xbox game show를 기대해봐도 좋을 것 같습니다.

[아티클 정리] 양질의 데이터를 판별하는 5가지 방법 : 데이터 양은 충분한가?

Rev32 — Thu, 28 Nov 2024 14:33:58 +0900

데이터는 인사이트 분석, 고객 트렌드 분석 덕분에 21세기의 석유라고 불리고 있다. 하지만 무수히 많은 데이터를 모두 쉽게 활용할 수 있는것은 아니다. 어떤 데이터는 다른 데이터와 연결되어야 하고, 어떤 데이터는 심각한 오류를 가지고 있어 활용이 불가능한 경우도 있다.

양질의 데이터란 무엇인가?

가능한 많은 데이터를 확보하면, 쓸 수 있는 데이터도 늘어나기 때문에 많은 데이터를 수집하는것을 목표로 해야한다. 하지만, 다양한 데이터를 확보하는것이 곧 데이터를 통해 이득을 본다로 직결되진 않는다. 정말 필요한 데이터의 품질이 낮다면, 이를 가공하고 보완하여 활용해야 한다. 즉, 데이터 수집과 분석의 효율성을 높이기 위해 양질의 데이터를 판별할 줄 아는 능력은 중요하다.

아쉽게도 데이터 품질을 명확히 정의하는 방법은 없다. 하지만 분석을 하기 쉬운 데이터인지, 이 데이터로 분석을 하면 결과를 명확히 받아들일 수 있는지 등으로 질문을 바꾸면 어느정도 대답이 가능하다.

분석에 유리한 데이터를 양질의 데이터라고 정의 내릴때, 양질의 데이터는

- 데이터의 수가 충분히 많다

- 데이터 자체의 오류가 적다

- 관계형 데이터베이스 방식을 잘 지키고 있다.

- 수치형 데이터 형식을 많이 보유하고 있다.

- 활용 목적에 적합하다. 등이 있다.

데이터가 충분히 많은가?

적은 데이터 수는 분석결과의 신뢰성 하락으로 연결된다.

데이터 양을 중요하게 고려해야하는 경우는, 표본이 모집단을 대표하지 못할 때 이다. 단순히 데이터의 갯수가 중요한것이 아니다. 내가 분석하고자 하는 목표에 부합하는 데이터의 수가 많아야한다. 이는 AI 알고리즘에도 적용된다. AI 또한 데이터의 수가 많을수록 AI 정확도가 높아진다.

어느 정도의 데이터가 충분한 양일까?

충분한 데이터의 양 또한 명확한 분류방법은 없다.

하지만 보통

- 통계적인 분석을 할 때 : 최소 500개 이상의 데이터

- 머신러닝을 할 때 : 변수의 수 * 100개 이상의 데이터가 필요하다.

특히 통계적 분석을 할 때, 데이터 수의 300~500개 이상일 때 부터 통계적 유의미성을 띄기 시작한다.

Dataset 배포 사이트 리스트

https://www.data.go.kr/

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

공공데이터포털 : Open API 제공

https://kosis.kr/index/index.do

KOSIS 국가통계포털

내가 본 통계표 최근 본 통계표 25개가 저장됩니다. 닫기

kosis.kr

국가통계포털 : Open API 제공

https://data.seoul.go.kr/

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

서울 열린 데이터 광장 : Open API 제공

https://datasetsearch.research.google.com/

Dataset Search

datasetsearch.research.google.com

구글 데이터셋 : Open API 제공

https://elitedatascience.com/datasets

Datasets for Data Science and Machine Learning

Curated list of free, high-quality datasets for data science and machine learning. Organized into 11 of the most popular use cases.

elitedatascience.com

EliteDataScience : 데이터사이언스, 머신러닝에 적합한 데이터셋 소개 사이트

https://archive.ics.uci.edu/

UCI Machine Learning Repository

Welcome to the UC Irvine Machine Learning Repository We currently maintain 670 datasets as a service to the machine learning community. Here, you can donate and find datasets used by millions of people all around the world!

archive.ics.uci.edu

UCI ML Repository : 머신러닝에 사용 가능한 데이터셋, 학술논문 링크 포함

https://learn.microsoft.com/en-us/azure/azure-sql/public-data-sets?view=azuresql

Public data sets for Azure analytics - Azure SQL

Learn about public data sets that you can use to prototype and test Azure analytics services and solutions.

learn.microsoft.com

Azure Analytics : 공개 데이터셋 모음, 온라인 서비스 데이터 포함

https://registry.opendata.aws/

Registry of Open Data on AWS

registry.opendata.aws

AWS Open Data : AWS에 등록된 데이터셋 열람 / 업로드 가능

https://www.reddit.com/r/datasets/?rdt=47025

r/datasets

A place to share, find, and discuss Datasets.

www.reddit.com

레딧 dataset subreddit : 데이터셋 공유 커뮤니티

https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research

List of datasets for machine-learning research - Wikipedia

From Wikipedia, the free encyclopedia Machine learning based fault detection in Electronics Circuit These datasets are used in machine learning (ML) research and have been cited in peer-reviewed academic journals. Datasets are an integral part of the field

en.wikipedia.org

Wikipedia datasets : ML에 적합한 데이터셋 목록

https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public

Where can I find large datasets open to the public?

Answer (1 of 186): Here are some big corpora we use in NLP in addition to the ones already mentioned: * ukWaC: a 2 billion word corpus constructed from the Web limiting the crawl to the .uk domain and using medium-frequency words from the BNC as seeds. The

www.quora.com

Quora : 데이터셋 서브레딧과 비슷한 성격의 데이터셋 공유 커뮤니티

[아티클 정리] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘

Rev32 — Thu, 21 Nov 2024 14:27:31 +0900

실무에서 원활히 업무에 머신러닝을 적용하려면 선형, 군집, 트리 같은 기본개념과 XGboost 와 LightGBM같은 최신 알고리즘을 알면 기본적인 도구는 갖춘 셈이다. 추후 서술될 알고리즘들은 성능이 뛰어나거나 꼭 이해해야하는 알고리즘들이다.

Linear Regression : 선형회귀

가장 기초적인 머신러닝 모델 중 하나이다. 여러 데이터를 활용해 연속형 변수인 목표 변수를 예측하는것이 목표이다.

- 지도학습

- 회귀

- 종속변수와 독립변수가 선형관계에 있는 데이터에 적합

복잡한 알고리즘에 비해 예측력은 떨어지지만, 데이터가 복잡하지 않을때는 쉽고 빠른 예측이 가능하기 때문에 많이 사용된다. 다른 모델과 성능을 비교하는 지표가 되기도 한다.

Logistic Regression : 로지스틱 회귀

- 지도학습

- 분류

- 종속변수와 독립변수가 선형관계에 있는 데이터에 적합

너무나도 기본 알고리즘이라 꼭 알아야 한다. 실제로 이진분류가 필요한 상황이 많기 때문에 기본적이다.

하지만 선형관계가 아닌 데이터에 대한 예측력이 떨어진다.

KNN : K- 최근접 이웃

- 지도학습

- 회귀, 분류

- 아웃라이어가 적은 데이터

가까이에 있는 데이터를 고려하여 예측값이 설정된다.

다중분류 문제에 가장 간편히 적용 가능한 알고리즘이다. KNN을 사용하면 쉽게 예측모델을 구현할 수 있다.

하지만, 데이터가 커질수록 상당히 느려지고 아웃라이어(이상치)에 취약하다.

Naive Bayes : 나이브 베이즈

- 지도학습

- 분류

- 독립변수의 종류가 매우 많은 경우

베이즈 정리를 활용한 조건부 확률 기반의 분류모델이다. 스팸메일 필터처럼 자연어 처리가 목적일 때 나이브 베이즈 모델이 좋을 수 있다. (딥러닝이 자연어 처리를 더 잘하지만, 간단한 방법으로 자연어 처리를 원할 때)

모든 독립변수가 독립적일 떄 만 사용 가능하다. 실제로 변수들이 전부 독립적이라면 다른 알고리즘보다 우수하지만, 실제 데이터에서는 그런 경우가 많지 않다.

Decision Tree : 결정 트리

나무 모양으로 데이터를 분류. 수많은 트리모델의 기반이 되는 모델이다.

- 지도 학습

- 회귀 / 분류

- 일반적인 데이터

예측력과 성능을 따지면 트리 모델을 사용할 일은 없다. 하지만, 모든 트리 기반 모델을 설명하려면 결정 트리를 알아야 한다. 트리기반 모델은 딥러닝을 제외하면 가장 많이 사용되는 모델이다.

트리가 깊어지면 오버피팅 문제가 발생한다. 또한, 발전된 트리기반 모델들에 비해 예측력이 상당히 떨어진다.

Random Forest : 랜덤 포레스트

결정트리의 단점인 오버피팅 문제를 완화시키는 모델이다. 랜덤으로 생성된 무수히 많은 트리를 이용해 예측한다.

- 지도학습

- 회귀 / 분류

- 일반적인 데이터

트리 기반 모델 중 가장 보편적인 방법이다. 부스팅모델에 비해 예측력이나 속도에서 부족한 부분이 있지만 다음단계인 부스팅 모델을 알려면 꼭 알아야 하는 알고리즘이다.

XGBoost : XG부스트

부스팅은 순차적으로 트리를 만들어 이전 트리보다 더 나은 트리를 만들어내는 알고리즘이다. 랜덤포레스트 보다 훨씬 빠른 속도와 더 좋은 예측능력을 보여주는 특징이 있다.

- 지도 학습

- 회귀 / 분류

- 일반적인 데이터

캐글 컴피티션 우승자가 많이 사용하는 부스팅 모델이다. 가장 인기있는 모델이기 때문에 구글링을 통해 많은 정보를 접할 수 있다.

LightGBM : 라이트GBM

XGBoost이후로 나온 최신 부스팅 모델이다. 캐글 컴피티션에서도 좋은 모습을 많이 보여주었다.

- 지도학습

- 회귀 / 분류

- 일반적인 데이터

Catboost, XGBoost와 함께 가장 좋은 성능을 보여주는 알고리즘이다. XGBoost보다 빠르고 높은 정확도를 보여주는 경우가 많다. 변수 종류가 많고, 데이터가 클수록 상대적으로 뛰어난 성능을 보여준다.

K Means Clustering : K-평균 군집화

K-평균 군집화는 비지도 학습의 대표적인 알고리즘으로, 목표 변수가 없는 상태에서 데이터를 비슷한 유형끼리 묶어내는 기법이다. 여러 클러스터링 기법 중 가장 보편적이고 무난하게 사용된다.

PCA : 주성분 분석

비지도 학습에 속하여 종속변수가 존재하지 않고, 어떤것을 예측하지도 분류하지도 않는다. 데이터의 차원을 축소하는데 그 목적이 있다. 차원축소를 통해 시각화 / 모델링 효율성을 개선할 여지가 있다. 변수가 너무 많아 모델 학습에 시간이 너무 오래 걸릴 때 사용할 수 있고, 오버피팅 문제를 방지할 수 있다.

[아티클 정리] 내 커리어도 피벗팅 할 수 있을까?

Rev32 — Tue, 19 Nov 2024 14:20:16 +0900

최근 AI의 발달 때문에 내가 가지고 있는 역량이 한순간에 쓸모 없어질 수 있다. 이러한 상황에서 이 아티클은 커리어의 피벗팅을 통해 커리어의 불확실성을 이겨낼 수 있다고 소개한다.

불확실한 상황에서 유리한 값을 예측하기

알파고와 같은 AI 모델은 확률적으로 가장 적합한 수를 계산하고, 이를 기반으로 다음 수를 계산한다. 하지만, 아무리 AI라고 해도 모든 수를 검토하지는 않는다. 이런 인공지능의 계산 방식을 커리어 발전에 적용시킬 수 있다. 이는 스타트업이 이야기하는 피벗팅과도 유사하다. 비전이라는 중심을 가지고 전략을 바꿔보며 효과적인 방법을 찾는것이다.

- 줌인 : 내가 가진 기술 역량 중 특별히 인정 받고 있던 기술을 주 커리어로 전환

- 줌아웃 : 내 업무 영역을 넓혀 직군 전환

- 고객 세분화 : 같은 직군중에서도, 그 직군이 더 중요한 역할을 하는 다른 업종으로 이직

- 고객 니즈 : 아직 전문가는 없지만 분명 새롭게 나타날 분야에 대한 도전

- 플랫폼 : 본인이 열정을 느낀 케이스를 직접 수행하기 위해 도전

- 사업구조 : 동일 역량을 가진 회사 정규직에서 프리랜서로 변화

- 가치 캡처 : 유튜버 등 개인이 가진 가치를 무료로 공유하며 영향력 증대

- 성장 엔진 : 개발 결과물을 API, SDK, 사내 위키 등으로 만들어 파급력 키우기

- 채널 : 팀 내부에서만 인정받던 지식을 전사 또는 외부에 공유

- 기술 : 본인의 코어 역량이 특정 분야 안에서만 유의미하다면 이를 타 분야로 이식 시도

코어에 발을 붙이고 여러 번 시도하기

여러 유형의 피벗팅이 있는것처럼, 개인도 여러 방식의 피벗팅을 시도할 수 있다. 스타트업도 피벗팅 과정에서 프로덕트나 비즈니스를 바꾸더라도 비전, 미션은 최대한 유지한다. 금융분야의 유명한 저서 불변의 법칙에서도 불확실성이 큰 미래를 예측하는 일 보다 변하지 않는 것에 집중하는것에 대한 중요성을 말한다. 즉, 변하지 않는 나의 가치를 찾아야한다.

추가 조사

An Introduction To Data Analyst Workflow

https://www.linkedin.com/pulse/introduction-data-analysis-workflow-chonghua-yin-bbqgc

An Introduction To Data Analysis Workflow

[TL;DR] A data analysis workflow delineates a systematic, repeatable, and scalable process for analysing data. It comprises several distinct stages, each with its prescribed tasks and objectives, offering a structured approach to ensure methodical data ana

www.linkedin.com

이 아티클을 읽고, 데이터분석가가 할 수 있는 일 중 어떤것이 '변하지 않는 가치'일지 고민해보았다. 위 글에 따른

Define Question - Data Preparation - Analysis - Reporting - Review - Delivery 과정에서 각 과정을 생각해 보았다.

Define Question : AI가 하기 힘든 작업같다. 단순히 수치에서 드러나지 않는 문제도 해결해야 하기 때문이다.

Data Preparation : AI가 충분히 커버 할 수 있는 범위같았다.

Data Analysis : 이것 또한 코딩 자체는 AI가 커버할 수 있는 범위 같다.

Reporting : 시각화 자체는 AI도 할 수 있으나, 맥락에 맞춰 적절한 시각화를 선택하는것은 AI가 할 수 없다.

Internel Review : AI가 할 수 없는 범위

Delivery : AI가 충분히 할 수 있다.

결론적으로 문제를 제시하고, 결과를 해석하는 과정은 AI가 개입할 여지가 보이지 않았다. 내 커리어를 내 강점을 기반으로 피벗팅 하려면 결국 이런 AI가 대체할 수 없을 요소를 더 열심히 연습해야 한다는 결론이다.

출처

https://yozm.wishket.com/magazine/detail/2595/

[아티클 정리] 데이터 분석의 시작은 Business이다.

Rev32 — Thu, 14 Nov 2024 14:19:29 +0900

데이터 분석을 할 때, 각 회사의 비즈니스 모델을 파악하는것이 중요하다. 데이터 분석가의 역량 중 가장 중요한 역량 중 하나가 도메인 지식이다. 도메인의 흐름을 빠르게 파악하기 위해 Business와 Market Place에 대한 이해가 필요하다.

첫 시작은 비즈니스

현업에서는 비즈니스 -> 프로덕트, 서비스 -> 데이터 순서로 데이터 분석을 진행한다. 데이터 분석을 시작하기 전, 비즈니스가 어떤 산업에 속해있는지, 어떤 시장의 형태를 띄는지 확인해야한다.

비즈니스를 먼저 파악하지 않고 Raw data만으로 데이터분석을 하게 되면 비즈니스에서 Action으로 이어지기 힘들다

비즈니스 파악은 해당 비즈니스가 2-sided Market 인지 3-sided Market인지 확인하면 빠르다.

2-Sided Market : Airbnb

2sided Market은 플랫폼 내에서 상호작용하고 거래할 수 있도록 두개의 그룹을 연결하는 플랫폼이다. 플랫폼에서 상호간의 원만한 상호작용과 거래를 가능하게 하는것이 주 목적이다.

3-Sided Market : Uber Eats

3sided Market은 3가지 주요 업체를 연결한다. 우버이츠를 예시로 들면 라이더, 상점 주인, 고객을 연결한다. 3 - Sided Market에서 상점과 라이더 또한 고객이 될 수 있다.

수요와 공급의 불균형

3 - Sided Market에서는 빈번하게 수요와 공급의 불균형이 일어난다. 우버 이츠로 예시를 들어보면

- 주문하는 고객이 적으면 상점은 플랫폼에 입점을 원치 않는다

- 상점이 충분하지 않으면 플랫폼에서 주문하려는 고객이 줄어든다

- 주문이 감소하면 라이더의 수입이 줄어들고 인센티브가 제공되지 않는다

- 라이더의 수가 적으면 고객에게 음식이 전달되는 배달시간이 길어지고 고객의 경험에 영향을 준다

눈여겨봐야할 주요 산업지표

계산하기 쉬운 북극성 지표 (핵심지표)를 설정하는 것 이전에 비즈니스에 가장 적합한 지표를 정해야 한다.

- 우리는 어떤 가치를 고객에게 제공하고자 하는가?

- 우리 비즈니스를 가장 잘 측정하는 방법과 지표는 무엇일까?

북극성 지표를 설정하는데에는, 크게 6가지로 중점 사항을 분류할 수 있다.

1. Revenue : 매출

2. Customer growth : 사용자 수

3. Comsumption growth : 단순히 사이트를 방문하는 것 이상의 서비스 이용강도

4. Engagement grwoth : 서비스에서 활동하는 유저 수

5. Growth efficiency : 지출대비 수익의 효율성

6. User experience : 서비스에 대한 유저의 경험

결론적으로 데이터 분석에 앞서 도메인 지식을 얻기 위해 비즈니스에 대해 알아야 하고

이를 효과적으로 알기 위해 Marketplace의 종류를 파악해야 하며

이에 따른 적합한 지표를 설정하여 데이터 분석을 진행해야 한다.

추가조사 : Data Analysts : Domain Knowledge

https://www.linkedin.com/pulse/data-analysts-domain-knowledge-brett-long

Data Analysts: Domain Knowledge

Domain Knowledge and Its Importance for Data Analysts Domain knowledge refers to understanding a particular industry, field, or business area that data analysts need to have to interpret data and draw meaningful insights effectively. Having strong domain k

www.linkedin.com

이 글에선 데이터분석가가 각 도메인에서 데이터 분석을 하기 위해 어떤 도메인 지식이 있어야 하는지 설명한다.

- 헬스케어 : 치료 과정, 의학적 이론, 관련 법규, 치료 과정

- 마케팅 : 검색, SNS, 광고, 판매과정, 수익전환등의 채널에 대한 이해

- 경제 : 시장, 금융상품, 각종 규제 이슈, 회계원칙에 대한 이해

- E-커머스 : 평균 주문량, 주문전환률, 장바구니 관련 지표, 공급망 관리 등의 지표

추가조사 : 5 best ways to Build Domain Knowledge in Data Analysis

https://emeritus.org/blog/data-science-and-analytics-data-analyst-subjects/

대체적으로 도메인 지식을 쌓기 위한 5가지 좋은 방법이 있다.

1. 연구를 통해 접근 : 산업에 관련된 논문등을 읽어 트렌드, 난점, 컨셉등에 대한 지식 쌓기

2. 업계 전문가와 협업 : 업계의 전문가들과 네트워크를 형성하거나 온라인 학회에 참여

3. 멘토 or 가이드 찾기 : 해당 업계에 대해 잘 알고있는 데이터분석가를 찾아 네트워크 형성

4. 업계 출판물 읽기 : 업계의 최신 동향이나, 연구 내용을 담고 있는 출판물을 지속적으로 읽기

5. 직접 해보기 : 개인 프로젝트, 인턴, 협업을 통해 데이터 분석 역량을 늘린다.

출처 : https://medium.com/@jeongmin-ju/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EC%9D%98-%EC%8B%9C%EC%9E%91%EC%9D%80-business%EA%B0%80-%EB%B0%98%EC%9D%B4%EB%8B%A4-47f9c84bcb34

[아티클 정리] SQL 질문 잘 하는 방법

Rev32 — Tue, 12 Nov 2024 13:54:42 +0900

SQL을 공부하며, 여러 문제가 생길 수 있다. 문제를 해결하는데는 크게 두가지 방법이 있다.

1. 구글링

2. 같이 공부하고 있는 사람 혹은 멘토에게 물어보기

결국 내가 아닌, 다른사람에게 물어봐야 문제를 해결할 수 있다는데에 공통점이 있다.

질문전 체크리스트

- 코드에 이탈자가 있는지 확인

- 쿼리 실행 후 에러메시지 읽어보기

- 문제에서 요구하는 조건을 빠짐없이 달성했는지 확인

- 질문에 포함된 쿼리를 실행해 보았는지

- 문법에 맞는 DMBS가 선택되어있는지 확인

구글링 방법

- 기술검색은 무조건 구글에서 한다.

네이버는 블로그, 카페 위주로 검색결과를 보여준다. 반면 구글은 공식문서나, stackoverflow와 같은 사이트가 검색결과로 나오게 된다.

- 검색은 영문으로 한다.

기술문서는 한국어로 된것도 있지만, 영어로 된 문서가 압도적으로 많다. MySQL, PostgreSQL과 같은 대표적인 DBMS의 문서의 기본언어는 영어이다. 영어에 대해 걱정하지 않아도 좋다. 검색하고 싶은 단어를 나열만 해도 검색이 잘 된다. 영어 결과를 얻기 위해 언어 설정을 영어로 해두는것도 좋다.

- 검색 키워드 잘 넣기

검색 범위를 잘 설정해야 한다. 너무 좁지도, 넓지도 않게 검색하는것이 좋다.

- 신뢰할 수 있는 사이트 이용

stackoverflow와 같은 신뢰할 수 있는 사이트를 사용해야한다. 공식문서를 볼 수 있다면, 공식문서가 가장 정확하다.

- 언제 쓰여졌는지 확인하기

DBMS는 다른 프로그래밍 언어나 프레임워크에 비해 업데이트가 느린 편이지만, DBMS의 특정 버전 이후에서만 사용 가능한 구문 등 시기가 중요한 정보도 있다.

주변 사람에게 질문할때의 탬플릿

- 문제 링크

- 작성한 코드 : 코드 복붙

- 문제 상황 서술 : 기대했던 결과와 실제로 나온 결과의 차이

- 기타 추가 설명 : 구글 검색어, 참고한 자료 링크 등

답변자의 편의를 위해서가 아니라, 질문자가 문제를 빠르게 해결하기 위해 정확한 질문을 하는것이 중요하다.

느낀점

주변의 데이터분석가나, 개발자 현업자 지인들에게 내 선생님은 인도 형님들이라는 말을 자주 들었다. 그만큼 현업에서도 구글링 능력이 문제해결능력에 큰 영향을 준다는 방증이다.

출처 : https://datarian.io/blog/how-to-ask-good-sql-questions

241112 TIL

Rev32 — Tue, 12 Nov 2024 13:30:33 +0900

AB 테스트

두 그룹을 비교하는게 포인트

두 버전중 어느것이 더 효과적인지 평가하기 위해 사용되는 검정방법

두 그룹간의 변화가 우연인지, 통계적으로 유의미한지 확인하는 과정

가설검정

데이터가 특정 가설을 지지하는지 검정하는게 포인트

표본 데이터를 통해 모집단의 가설을 검증하는 과정

귀무가설 H0, 대립가설 H1을 설정하고 귀무가설을 기각할지를 결정

- 확증적 자료분석 : 미리 가설을 세우고 가설을 검증

- 탐색적 자료분석 : 가설을 먼저 정하지 않고 데이터를 탐색

통계적 유의성 : 결과가 우연히 발생한것이 아니라, 효과가 실제로 존재함을 나타내는 지표

보통 p값이 0.05 미만이면 결과를 통계적으로 유의하다고 판단

p값 : 귀무가설이 참일 때, 관찰된 결과를 벗어나는 극단적인 값이 나올 확률

t 검정

두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법

독립표본 t 검정 : 두 독립된 그룹의 평균을 비교

대응표본 t 검정 : 동일한 그룹의 사전 / 사후 평균을 비교

다중검정

여러 가설을 동시에 검정하지만, 오류가 발생할 수 있음

각 검정마다 유의수준을 조정하지 않으면 1종 오류 (귀무가설이 참이지만 기각하는 오류)가 발생

보정방법 : 본페로니 보정

보정방법은 결국 유의수준을 더 엄격하게 만드는 과정

카이제곱검정

범주형 데이터의 분석에 사용하는 검정방법

범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정 (적합도 검정)

두 범주형 번수 간의 독립성을 검정 (독립성 검정)

적합도 검정 : 관찰된 분포와 기대된 분포가 일치하는지 검정

p값이 높으면 데이터가 귀무가설에 맞음

독립성 검정 : 두 범주형 변수간의 독립성을 검정

p값이 높으면 두 변수 간의 관계가 연관성이 없음

1종 오류와 2종 오류

1종오류 : 귀무가설이 참인데 기각하는 오류

아무련 영향이 없는데 영향이 있다고 하는것 = 위양성

유의수준을 정함으로써 1종 오류를 제어할 수 있다.

만약 유의수준이 0.05라면, 100번중 5번정도는 1종 오류를 감수하겠다는 것

2종 오류 : 귀무가설이 거짓인데 기각하지 않는 이유

영향이 있는데 영향이 없다고 하는것 = 위음성

줄이는 방법 : 표본 크기를 늘린다.

1종오류 확률과 2종 오류 확률은 상충관계에 있음. = 1종 오류 확률을 너무 낮추면 안된다

단순선형회귀

회귀 : 가지고있는 데이터를 가지고 특정 값을 예측하려는 때 사용한다

선형회귀 : 직선과 같은 관계를 회귀할 때 사용

단순선형 회귀 : 하나의 독립변수와 종속변수간의 관계를 직선으로 모델링하는 방법

데이터가 직선적 경향을 따를 때 사용하고, 간단하고 해석이 용이하다는 장점이 있다.

단, 데이터가 선형적일 경우 적합하지 않은 데이터이다.

다중선형회귀

독립변수가 2개 이상일때 하나의 종속변수와의 관계를 모델링하는 방법

종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용

여러 변수의 영향을 동시에 분석 가능하지만, 다중공선성 문제가 발생할 수 있다.

다중공선성 : 회귀분석에서 독립변수들간에 높은 상관관계가 있는 경우

독립변수가 서로 상관관계가 높으면 각 변수의 개별적인 효과를 분리하기 어려워 회귀의 해석을 힘들게 만듬

해결방법 진단 : 상관계수를 계산하여 0.7 이상의 상관관계가 있는 변수가 있는지 확인

해결방법 심화 진단 : 분산팽창계수 VIF를 계산하여 VIF값이 10 이상인지 확인하는 방법

다중공선성 해결방법 : 높은 계수를 가진 변수 중 하나를 제거하는 방법

다중공선성 심화 해결방법 : 주성분 분석 PCA와 같은 변수를 줄이는 차원분석방법을 적용하여 해결

범주형 변수의 회귀

회귀에서 범주형 변수의 경우에는 특별히 변환을 해주어야 한다.

순서가 있는 경우 : 더미변수로 변환하여 회귀분석에 사용 ex) XL - 3 / L - 2 / M - 1 등등...

순서가 없는 경우 : 원-핫 인코딩을 사용하여 데이터를 변환해야 한다. ex) 부산 = [1,0,0,0]

pandas의 get_dummies 메서드를 이용해 쉽게 인코딩을 진행할 수 있다.

다항회귀, 스플라인 회귀

다항회귀 : 비교적 데이터가 복잡할 때 사용하는 회귀

독립변수와 종속변수의 관계가 선형이 아닐 때 사용. 독립변수의 다항식을 사용하여 종속변수를 예측

= 데이터가 곡선적 경향을 따를 때 사용

고차 다항식의 경우 과적합 위험이 있다.

과적합 = 일반화가 안되는 상황

스플라인 회귀 : 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링

구간별로 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성

피어슨 상관계수

가장 대표적으로 사용하는 상관계수이다.

데이터가 선형적이고, 연속적이 정규분포를 따른다는 가정하에만 사용할 수 있다.

-1 과 1 사이의 값을 가지고, 1은 완전한 양의 선형관계, -1은 완전한 음의 선형관계, 0은 선형관계가 없음을 의미

비모수 상관계수

데이터가 정규분포를 따르지 않을 때 사용하는 상관계수

데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용

대표적으로 스피어만 상관계수, 켄달의 타우 상관계수가 있음

스피어만 : 두 변수 순위간의 일관성을 측정 - 데이터내 편차와 에러에 민감

켄달의 타우 : 순위간의 일치 쌍 및 불 일치 쌍의 비율을 바탕으로 계산

상호정보 상관계수

두 변수 간의 상호정보를 측정.

변수 간의 정보 의존성을 바탕으로 비선형 관계를 탐지

서로의 정보에 대한 불확실성을 줄이는 정도를 바탕으로 계산

범주형 데이터에 대해서도 적용 가능

가설검정의 주의점

재현가능성 : 우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나오는지 확인해야 한다

재현가능성의 원인 : 완전 동일하게 다시 똑같은 실험을 진행하기 어려움

재현가능성의 원인 2 : 가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 생길 수 있음

가설검정의 잘못된 사용

- p값이 0.05가 되게끔 유도하는 조작이 이루어질 수 있음. (p해킹)

- 실제로는 통계적으로 아무 의미가 없음에도 의미가 있다고 해버리는 1종 오류를 저지를 수 있음

- 0.05 = 20번중 1번은 귀무가설이 옳음에도 기각될 수 있음

- 유의수준으로 통제하는것이 중요한데, 유의수준을 너무 낮추면 베타값이 오르는 문제가 있다.

P 해킹

인위적으로 p값을 낮추지 않도록 조심해야한다.

p 해킹 : 데이터분석을 반복하여 p-값을 인위적으로 낮추는 행위

- 유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함

여러 가설 검정을 시도하여 유의미한 p 값을 얻을때까지 반복 분석하는것을 조심해야 한다.

p값이 유리하게 나오는 상황만 선별적으로 보고하는것을 조심해야한다.

선택적 보고

유의미한 결과만을 보고하고, 유의미 하지 않은 결과는 보고하지 않는 행위를 지양

이는 데이터 분석의 결과를 왜곡하고, 신뢰성을 저하시킨다.

자료수집 중단 시점 결정

원하는 결과가 나올 때 까지 자료를 수집하는 것을 조심해야한다.

데이터 수집을 시작하기 전에 언제 수집을 중단할지 결정하지 않으면, 원하는 결과가 나올때까지 데이터를 계속 수집할 수 있음. 이는 결과의 신뢰성을 하락시킴.

데이터 탐색과 검증 분리

검증하기 위한 데이터는 반드시 따로 분리해두어야 한다.

데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는것

이는 데이터 과적합을 방지하고, 결과의 신뢰성을 높임

데이터를 분리해두면 탐색과정에서 발견된 패턴이 검증 데이터에서도 유효한지 검증 가능

보통 데이터셋을 탐색용과 검증용으로 분리하여 사용한다.

추가로 통계학을 공부하기 위하여

여인권 교수님의 기초통계학

고지마 히로유키 - 세상에서 가장 쉬운 통계학 입문

아베 마사토 - 통계 101 x 데이터 분석

241111 TIL

Rev32 — Mon, 11 Nov 2024 19:50:04 +0900

통계가 중요한 이유

데이터 기반의 의사결정

데이터분석에서 통계는 데이터를 이해하고 해석하는데 중요
데이터를 요약하고, 패턴을 발견
추론을 통해 결론을 도출
데이터 기반의 의사결정 내리기

기술통계, 추론통계

데이터의 요약 vs 미래 예측

기술통계 : 데이터를 요약하고 설명하는 통계방법 (평균, 중앙값, 분산, 표준편차)
데이터를 특정 대표값으로 요약하는것 : 데이터의 대략적인 특징을 쉽고 간단하게 알 수 있음
데이터의 예외를 확인할 수 없음
평균 : 데이터의 대표적인 값을 나타냄
중앙값 : 데이터를 크기 순서대로 정렬했을 때 중앙에 위치한 값 : 이상치의 영향을 덜 받는다
분산 : 데이터가 평균에서 얼마나 떨어져 있는지 - 데이터의 흩어짐 정도
표준편차 : 데이터가 평균에서 얼마나 떨어져 있는지 - 분산의 제곱근

추론통계 : 표본데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계방법
데이터의 일부를 가지고 데이터 전체를 추정하는것이 핵심
신뢰구간 : 모집단의 평균이 특정 범위 내에 있을것이라는 확률
가설검정 : 모집단에 대한 가설을 검증하기 위해 사용

데이터의 분포

모집단은 전체! 표본은 일부!

모집단 : 대상이 되는 전체 집단

표본 : 모집단에서 추출된 일부

전체 모집단을 조사하는것은 비용과 시간이 많이 들고, 대부분 불가능하거나 비효율적이다.

표본을 통해 모집단을 조사하면 자원을 절약하면서도 유의미한 결과를 도출할 수 있다.

대표성 : 잘 설계된 표본은 모집단의 특성을 반영할 수 있다. 모집단 전체에 일반화

무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함

여기서 무작위란 : 개체들의 특징들이 한곳에 치우치지 않도록 하는것

표본을 통해 데이터를 분석하면 데이터 처리와 분석이 용이하고

데이터 품질을 더 쉽게 관리하여 오류나 이상값을 식별하여 수정가능하다

표본 데이터를 활용하여 통계적 모델을 검증할 수 있다.

전수조사 : 모집단 전체를 조사하는 방법

표본조사 : 표본만을 조사하는 방법. 비용과 시간이 적게 들지만, 표본이 대표성을 가져야 함

실제로 모든 데이터를 조사할 수 없을때 주로 사용된다.

표본오차와 신뢰구간

표본오차 : 표본에서 계산된 통계량과 모집단의 진짜 값 간 차이

표본 크기가 클수록 표본오차는 작아짐

신뢰구간 : 모집단의 특정 파라미터에 대해서 추정된 값이 포함될 것으로 기대되는 범위를 나타냄

일반적으로 95% 신뢰수준을 사용하고, 해당하는 Z값은 1.96이다

정규분포

종 모양의 대칭분포로, 대부분의 데이터가 평균 주위에 몰려있다.

평균에서 멀어질수록 데이터의 빈도가 감소한다.

표준편차는 분포의 퍼짐정도를 나타낸다.

가장 많이 사용되고, 가장 흔한 분포 중 하나이다.

긴 꼬리 분포

대부분의 데이터가 데이터의 한쪽 끝에 물려있고, 반대쪽으로 긴 꼬리가 이어지는 형태

특정한 하나의 분포를 의미하지 않고, 여러 종류의 분포를 포함하는 개념 (파레토분포, 지프의 법칙, 멱함수)

긴 꼬리 분포는 아무리 데이터가 많아져도 정규분포가 되지 않는다.

스튜던트 t 분포

데이터 표본이 적을 때 정규분포 대신 사용하는 분포

모집단의 표준편차를 알 수 없고, 표본 수가 작을 때 (30이하) 사용하는 분포

스튜던트 t 분포의 자유도 = 표본의 크기와 연관이 있음

데이터의 표본 수가 증가하면 정규분포에 가까워진다.

카이제곱분포

독립성 검정이나 적합도 검정에 사용되는 분포

카이제곱 또한 표본수가 많아지면 정규분포에 수렴하게 된다.

상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 완벽히 서로 다른 질적 자료일 때 활용

이항분포

결과가 2개가 나오는 상황일때 사용하는 분포

이항분포는 연속된 값을 가지지 않고, 특정한 정수 값 만을 가질 수 있다.

연속된 값을 가지지 않으므로 이산형 분포이다.

이항분포 또한 표본 수가 많아질수록 정규분포에 수렴하게 된다.

푸아송 분포

희귀한 사건이 발생할 때 사용하는 분포

푸아송 분포 또한 람다가 높아지면 정규분포에 수렴하게 된다.

람다 = 특정 사건이 발생할 횟수(확률) = 평균 발생률

연속된 값을 가지지 않으므로 이산형 분포이다.

데이터 수가 충분하다 = (무조건) 정규분포
데이터 수가 적다 = 스튜던트 t 분포
일부 데이터가 전체적으로 큰 영향을 미친다 = 롱 테일(파레트) 분포
범주형 데이터의 독립성 검정, 적합도 검정 = 카이제곱 분포
결과가 두개만 나오는 상황 = 이항 분포
특정시간, 공간에서만 발생하는 사건 = 푸아송 분포

[아티클 정리] 데이터 분석가에게 코딩테스트가 필요할까?

Rev32 — Fri, 8 Nov 2024 10:46:57 +0900

코딩 테스트란?

코딩이 포함된 자격증이 매년 늘어나고 있는 추세이다. 2017년 이후, 매년 50개가 넘는 코딩 자격증이 추가 되고 있다. 코딩테스트는 실제 업무와 유사하지만 간략한 환경에서 코드가 정상적으로 돌아가고, 올바른 결과값을 보여주는지, 리소스를 얼마나 사용하여 푸는지, 시간을 어느정도 걸리는지를 채점하는 방식이다. '

기업 내 데이터 분석가의 업무

기업은 데이터분석가들에게 다음과 같은 특징을 기대한다.

- 분석할 수 있는 데이터는 준비되어있다.

- 서비스를 통해 풀고자 하는 문제를 명확히 인지한다.

- 복잡한 혹은 최신 논문에 나오는 분석기법을 사용하지 않는다

- 데이터 분석팀 외에도 다양한 팀과의 협업을 통해 문제를 해결한다.

- 특별히 어떤 툴을 썼다 하는 내용은 언급되지 않는다.

정리하자면 문제정의, 데이터 분석에 대한 이해, 타 직군과 협업, 빠른 학습 등이 요구된다.

정해진 답이 없는 데이터분석가의 업무

데이터 분석가는 데이터를 활용해 정해진 답이 없는 문제를 해결한다. 보통 이러한 능력을 테스트하는데에는 코딩테스트보다는 과제 전형이 대체로 효과적이다. 보통 데이터분석 사례들에서 특별히 어떤 툴을 사용했다 하는 내용이 언급되지 않는다. 많은 조직에서 데이터분석가에게 어떤 문제를 풀어서 어떤 변화를 만들 수 있는지가 문제를 어떻게 풀것인지 보다 중요하기 때문이다.

코딩테스트와 데이터 분석

코딩테스트는 기술 역량을 확인하는데 있어 아주 효과적이다. 하지만, 데이터 직군의 경우 코딩테스트로는 확인하기 어려운 역량들 또한 필요하다. 데이터분석가는 너무 기술적인 관점에만 몰입하면 정작 필요한 결과를 얻기 어렵다. 코딩역량이 중요하지 않다는 이야기는 아니다. 데이터 직군의 코딩테스트에서 언급되는 예시들은 다음과 같다.

- 머신러닝 모델의 평가 지표 계산

- SQL을 활용한 메트릭 계산

- 텍스트 등의 데이터 파싱 및 전처리

추가적으로 데이터분석가에게 필요한 이론적 배경도 있다.

- 통계학 : 수 많은 데이터 분석 기법들이 통계학에 베이스를 두고 있다.

- 심리학 : 고객의 심리를 파악하고, 구매와 같은 액션을 끌어내는 방향으로 데이터를 활용한다.

느낀점

어느정도의 코딩 실력이 필요하지만, 너무 기술적인 면에 매몰되면 안된다는 점을 깨달았다.

출처

https://yozm.wishket.com/magazine/detail/1708/

[아티클 정리] 사용자 데이터를 효과적으로 분석하는 법

Rev32 — Tue, 29 Oct 2024 19:27:25 +0900

사용자 조사는 고객 관점에서의 사업 기회 발굴, 디자인 개선 등의 효과가 있다. 하지만, 단순히 수집한 데이터 만으로는 이러한 결과를 도출해낼 수 없다. 사용자 조사를 통해 유의미한 결과를 얻으려면 데이터를 분석하고, 시각화 하는 과정이 필요하다. 사용자 조사를 통해 다양한 데이터를 얻을 수 있는데, 크게 정량 데이터와 정성 데이터로 나눌 수 있다.

정량적 경험 데이터 분석하기

1. 기술통계

- Categorical Data : 범주형 데이터 : 선호하는 디자인 타입, 과제 성공 여부와 같은 데이터 분석 -> 빈도 / 백분율

- Numerical Data : 수치형 데이터 : 만족도, 수행시간 등을 분석 -> 평균, 표준편차와 같은 통계 값

참가자의 전형적인 행동을 알 수 있는 Central tendancy (중심경향) 지표를 활용

- mean : 가장 널리 활용됨. 하지만, Extreme Value가 포함 될 경우 해석에 조심해야 함

- median : Extreme Value가 많은 경우 사용해볼 수 있는 값.

- mode : 가장 빈번하게 나타나는 값 : 5점 척도 등의 제한된 데이터를 다룰 때 용이

범주형 데이터는 사용자의 행동이 어떤 영역에 많이 분포되는지 확인하게 된다.

- 범주형 데이터 : Pie chart, Stacked bar graph 등을 통해 경향성을 한 눈에 파악

- Pie chart : 특정 행동이 전체의 행동에서 차지하는 비율 표시 : 세그먼트가 너무 많으면 효과가 반감

- Stacked bar graph : 연속된 일련의 데이터 집합을 가지고 있을 때 효과적

- 수치형 데이터 : Bar chart, Line chart를 활용하여 경향성을 한눈에 파악

- Bar chart : 분리된 카테고리에 대한 연속적인 값을 표현

- Line chart : 카테고리가 연속적인 속성을 가진다면 선 그래프를 활용하는것이 효과적

-이러한 데이터는 신뢰구간 95%를 활용하여 많이 분석.

- 방사형 그래프와 산점도 : Radar chart, Scatterplot을 통해 전체적인 경향성을 유추

- Radar chart : 특정 대상이 잘 하는것과 못 하는것을 쉽게 알 수 있음

- Scatterplot : 서로 다른 두 척도를 비교하고, 두 변수 간의 관계를 확인

2. 추론통계

표본을 통해 모집단을 추론하거나, 가설을 검정하기 위한 방법

- Population (모집단) : 전체 사용자 집단

- Sample (표본) : 사용자 조사의 참가자

Population 전체에 대한 조사를 할 수 없기 때문에 Sample을 통해 모집단의 속성을 추론

추론 통계를 위해서는 데이터의 정규성이 확보되었는지를 보아야 한다. 최소 30명 이상의 참가자가 모집이 되어야 정규성을 가정하고 추론 통계를 진행할 수 있다.

- t-test (t검정) : 데이터를 통해 도출된 결과가 유의미한 결과인지 p-value를 통해 확인

- Correlation analysis (상관분석) : 2개 이상의 변수들의 선형적인 관계를 살펴보기 위한 분석방법

- Regression analysis(회귀 분석) : 하나의 종속변수에 대해 다수의 독립변수들이 어떻게 영향을 미치는지 확인

현업에서 활용하는 법

정량적 데이터의 경우, 파워포인트나 엑셀등으로 쉽게 활용 가능하다. 하지만, 추론 통계를 직접 활용하기 위해서는 심리학적 실험 설계 방법이나, 통계분석, 통계분석 툴에 대한 기술이 필요하다.

그래프를 그릴때는 데이터의 왜곡이 발생하지 않도록 중요한 차이나 변화의 흐름에 대해 정확하게 보여주는것이 필요하다.

데이터만으로 의사결정이 쉽지 않은 상황은 흔히 발생한다. 이럴때는 데이터가 수집되지 않은 환경에 있던 맥락적 상황을 검토해야한다. 그 예로는 서비스의 방향성, 변화하는 트렌드, 사업적인 해석 등이 있을 수 있다.

내 생각

한정된 데이터를 통해 더 유의미한 인사이트를 얻기 위해서는 기술통계도 중요하지만 추론통계도 잘 해야 한다. 통계학, 통계학 계산이 가능한 툴들에 대한 높은 이해도가 있다면 추론통계의 완성도에 큰 도움이 될 것 같다.

데이터를 통해 의사결정이 어려운 상황에서는 논리적 비약이 더 쉽게 일어날 것 같다. 항상 데이터에 기반한 사고방식을 가지는것이 굉장히 중요할 것 같다.

출처 : https://yozm.wishket.com/magazine/detail/1967/