전체 글 17

정리) 빅데이터를 지탱하는 기술 - Ch2 빅데이터의 탐색 - 1

현재 업무 내용과 가장 연관도가 높은 챕터라 아는 부분은 스킵하고 모르는 내용 위주로 읽었다. 도서명 / 저자 : 빅데이터를 지탱하는 기술 / 니시다 케이스케 2-1 크로스 집계의 기본 | 트랜잭션 테이블, 크로스 테이블, 피벗 테이블 크로스 테이블 (Cross table) : 행과 열이 교차하는 부분에 숫자 데이터가 입력되는 형식 데이터베이스에서는 다루기 어려운 데이터 형식 ex) 엑셀, 스프레드 시트 트랜잭션 테이블 (Transaction table) : 행 방향으로만 증가하고 열 방향 데이터는 증가하지 않는 형식으로 작성 크로스 집계 (Cross tabulation) : 트랜잭션 테이블 -> 크로스 테이블 변환 피벗 테이블 (Pivot table) : 스프레드 시트에서 소량의 데이터를 크로스 집계 ..

배우기/책리뷰 2024.02.26

정리) 빅데이터를 지탱하는 기술 - Ch1 빅데이터의 기초 지식

지금까지 어사인된 프로젝트에서는 태블로를 이용한 시각화 업무를 메인으로 진행해왔는데, 2023년 하반기 새롭게 어사인된 프로젝트에서 시각화와 더불어 데이터 마트를 설계하는 업무도 하게 되었다. 고객사의 데이터 팀과 협업하고 소통해야하는 상황이 늘어났기 때문에, 업무를 더 원활하게 진행하기 위해 이 책을 읽기 시작했다. 현재 업무와 관계도가 높은 챕터 -> 낮은 챕터 순으로 내용을 정리할 예정이다. 여담이지만, 일본에서 데이터 관련 직종에 종사하는 사람으로서 원문은 어떤 단어로 쓰였을지 생각하면서 읽는 것이 재미있었다. 도서명 / 저자 : 빅데이터를 지탱하는 기술 / 니시다 케이스케 1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임 | 데이터 프레임, 기초 중의 기초 데이터 프레임이란? 표 형식의 데..

배우기/책리뷰 2024.02.25

태블로 자격증 Tableau Certified Data Analyst 취득 후기&팁

2023/10/21 태블로 자격증, Tableau Certified Data Analyst를 취득했다. $250이라는 사악한 가격이지만 합격하면 회사에서 수험료와 인센티브를 지급해주기에 한 번 도전해보았다..! Tableau Certified Data Analyst는 Tableau Desktop Specialist와 다르게 준비하는 과정에서 인터넷상에 시험 정보나 샘플 문제를 찾는게 어려웠기 때문에, 어떤 시험인지, 어떻게 준비했는지 남겨보려고 한다. 참고로, 한국에서 시험을 응시한 것이 아니라, 도쿄에서 직장을 다니고 있기 때문에 타마치의 테스트 센터에서 응시했다. 일본에선 영어와 일본어 옵션이 있는데, 일본어 번역이 발번역이라 ㅎ 언어는 영어로 선택해서 응시했기 때문에 한국에서 보는 것과 크게 다르진..

[Tableau] 세부 수준(Level of Detail) 정리

회사에서 태블로 관련 이야기가 나오면 LoD함수라는 단어도 함께 등장하곤 했는데, LoD가 대체 무엇인고 하니, Level of Detail의 약자였다.. 😂 한국에서는 Level of Detail Expression을 한국어로 번역하여, 세부 수준 계산식이라고 부르는 듯 하다. LoD가 Level of Detail이라는 것을 알고 나니, 세부 수준 계산식에 대한 개념도 이해하기 쉬웠다. ・세부 수준(Level of Detail) 이란? 태블로는 측정값으로 항상 집계(Aggregate)된 값을 표시하는데 세부 수준이란, 측정값을 '얼마나 세밀한 수준에서' 볼 것이냐?를 의미한다. 세부 수준은 얕을 수도 있고 깊을 수도 있다. 세부 수준이 얕다 = 측정값이 분리되어 있지 않다. 세부 수준이 깊다 = 차원에..

[Tableau] 조인(Join) vs 블렌딩(Blending) vs 관계(Relation)

입사후 약 9개월간 진행한 첫 번째 프로젝트에서는 데이터 시각화 툴로 루커 스튜디오를 사용했는데, 프로젝트가 종료된 현재, 태블로나 파워BI를 사용하는 BI 프로젝트에 새롭게 배치될 예정이라 학습하는 기간을 갖고 있다. 태블로는 데이터 소스를 준비하는 방법이 다양하여 학습한 내용을 정리해두고자 한다. 태블로에서 데이터를 준비하는 방법은 세 가지로, 조인, 블렌딩, 관계가 있다. 조인 (Join) 테이블을 물리적으로 결합하는 방법. 관계형 데이터베이스에서의 조인과 같은 역할이라고 생각하면 쉽다. ・유의점 - 조인은 분석을 시작하기 전에 설정되어야 한다. - 테이블이 서로 다른 세부 수준에 있는 경우, 데이터 손실이나 중복이 발생할 수 있다. - 조인은 게시된 데이터 원본을 사용할 수 없다. 따라서, 로컬에..

2022년 회고 : 도쿄에서 데이터 분석가로 커리어를 시작하다

들어가며 20년 말, 우여곡절 끝에 일본의 한 IT기업에 22년 신졸로 내정을 받았다. 당시만 해도 코로나가 심각한 상황이었기에, 입사 직전인 22년 2월까지만해도 입국규제가 풀리느냐 마느냐, 입사를 제 때 하느냐 마느냐로 불안한 시기를 보내고 있었는데, 22년 3월 초 입국규제가 눈 녹듯 완화되었다. 덕분에 4월 1일 입사일에 맞추어 일본에 입국할 수 있었고, 그렇게 도쿄에서의 커리어가 시작되었다. 4월 1일 입사 후, 두 달간은 연수가 이어졌다. 4월에는 전체 연수로, 회사 내규나 비즈니스 매너에 대해 배웠는데, 4~5명으로 구성된 팀으로 나뉘어 고객 미팅 롤플레이를 하거나, 회의록을 작성해보거나 하는 것이 주된 내용이었다. 이 연수를 통해 앞으로 외국어로 일하는 것이 쉽지 않은 일이겠구나 생각했다...

[Looker studio] 루커 스튜디오 - GA4 데이터 세트 구성 오류 대응책

구글 애널리틱스와 루커 스튜디오를 이용하여 클라이언트의 웹사이트를 분석하고, 대쉬보드를 작성하는 업무를 진행하고 있습니다. 특히 4분기에는 대쉬보드의 데이터 소스를 UA에서 GA4로 변경한 후, UA와 차분을 검증하는 작업이 한창입니다. 그런데 지난 11월 10일, 구글의 갑작스런 API 할당량 제한 발표로 인해 스케줄에 상당히 차질을 빚고 있습니다. (이 시점에 할당량 제한이라니😂) ■ 원인 오류는 GA4를 데이터 소스로 연결한 루커 스튜디오 보고서에서 API 할당량을 초과하는 데이터를 요청했기 때문에 발생합니다. API 할당량에 대한 자세한 사항은 구글 애널리틱스 개발자 가이드에서 확인할 수 있습니다. https://developers.google.com/analytics/devguides/repor..