최적의 아이돌 인스타 피드 만들기 : 2일차 (데이터 수집하기)

2024. 9. 7. 00:14·Project/최적의 인스타 피드

무엇을?

주제는 < 브랜딩과 홍보를 위한 7~8월 스테이씨 인스타그램 피드 분석 > 이다.

 

그렇다면 무엇을 수집해야 하는가. 이 질문이 정말 중요하다.

R 프로그래밍 언어에 대해 기본적인 숙지가 된 후 여러 주제를 생각해봤다.

" 야구 좋아하니까, 야구 데이터를 수집해볼까? " , " 기숙사에 사니까, 기숙사 엘레베이터 데이터는 어떨까? " 등..

 

내가 생각한 좋은 데이터 분석 주제의 특징은 다음과 같다.

  • 이미 나와 있는 데이터도 좋지만, 내가 직접 수집해보는 과정까지 겪어보자.
  • 주제는 내가 필요에 의해 정하는 거지, 이미 나와있는 주제는 의미가 떨어진다.
  • 분석할 거리가 많은 주제면 좋다. (데이터 프레임의 열이 많아야 한다는 의미)
  • 다양한 시각화가 가능한 데이터
  • 꾸준하게 수집하기 용이한 데이터
  • 이미 수집 체계가 갖추어져 있지 않은 데이터

야구는 사실 '통계의 스포츠' 라고 불릴 정도로 이미 데이터가 많다.

기숙사 엘레베이터는 내가 꾸준하게 수집할 자신이 없었다. (하루종일 엘베 앞에 앉아있을 수도 없고..)

 

그래서 고심 끝에 이 주제를 정하게 되었던 것이다.

 

수집 시작!

내가 수집하기로 한 것들은 다음과 같다.

내가 나름대로 정한 좋은 데이터의 기준에 따라 수집한 결과.

 

인스타그램 피드에 대한 최적화를 하겠다면 당연히 좋아요, 댓글 수, 공유 데이터는 기본이다.

해당 사진 혹은 동영상이 홍보 관점에서 성공적이였는지에 대한 직접적인 지표가 되어준다.

 

'pos' 열은 포지션을 의미한다.

LV(Lead Vocal), MV(Main Vocal), SB(Sub Vocal), RP(Rapper) 로 총 4개의 분류를 돕는다.

포지션별 수치의 비교는 그룹 내 어떤 포지션이 높은 트래픽을 기록하는지에 대한 인사이트를 제공할 수 있고

추후 다른 그룹에 대한 분석을 진행할 때도 이러한 경향성을 참고할 수 있다.

 

'num_of_post' 는 포스트의 개수를 의미한다.

 

'hair_type' 는 헤어스타일의 종류를 의미한다.

원래 이 열은 '피드의 주제' 에 대한 열이였다. 하지만 10개정도 분석을 진행하다 보니 문제가 생겼다.

내가 특정하지 못할 피드가 자꾸만 나오는 것이였다.

내 나름대로 분석을 위해 주제를 10개 정도로 구분을 했었는데,

정말 애매한 포스트가 보이면 나는 어떻게 분류를 할지 도통 감이 오지 않았다.

 

이건 도대체 어떻게 분류를 해야해요 이사님..

 

 

그래서 급하게 다른 분류 체계를 갖추었다.

헤어 스타일에 대한 분류는 사실 5개 정도로 대부분이 커버가 되었기에

수월한 수집이 가능했었다.

 

 

나중에 텍스트마이닝이나 AI 관련 분야를 학습하게 되면

피드 텍스트도 평균화할 수 있지 않을까.. 주제가 핵심인데..

 

 

'eye_direction' 과 'face_location' 은 각각 눈의 방향과 얼굴의 위치를 의미한다.

해당 데이터가 이번 프로젝트의 핵심이라고 생각하는 이유는,

해당 데이터들은 웹 스크래핑으로 수집하지 못하는 사진의 특징이기 때문이다.

 

사실 좋아요나 댓글같은 경우는 추후 Javascript 에 대한 스크래핑을 배우고 나서

충분히 스크래핑이 가능할 것이지만

 

얼굴 위치가 Chrome F12 를 누르면 '뿅!' 하고 나오지는 않는다.

내가 직접 수집해야 하는 데이터라는 점에서 꼭 수집해보고 싶었다.

또한 히트맵(Heatmap) 을 통해 멋진 시각화를 수행하기 딱 좋은 데이터라서 매력이 있었다.

 

'background' 는 배경 타입에 대한 데이터이다.

'audio_type' 은 피드의 오디오 포함 여부, 스테이씨 노래인지에 대한 여부 등을 기록했다.

'member' 는 멤버의 구분이고, 'date' 와 'day' 는 날짜 관련 기록이다.


수집을 위한 체계

위의 자료를 유심히 보면 이상한 점이 있다.

헤어스타일, 눈 방향, 위치 등이 모두 숫자로 표현되어 있다.

물론 수집할 때 일일히 '웨이브' , '왼쪽' , '우상향' 등 명시적으로 적어도 되지만,

미리 숫자로 분류해 놓게 되면 훨씬 수집이 용이해진다.

 

웨이브 = 1, 묶은 머리 = 2 ... 이런 느낌으로.

배경 데이터의 분류

 

위치, 시선 데이터를 분류하기 위한 체계

 

 

이렇게 위치 데이터를 표현하기 위해 각각의 영역을 숫자로 표현해놓게 되면

나중에 시각화를 하기 아주 편리해진다. 수집하기 쉬운건 덤 ^^7

 

수집은 시간 날때마다 짬짬이 하다 보니

한 일주일 걸린 것 같다.

힘들긴 했지만, 가끔씩 엑셀에서 상태표시줄에 뜨는 '개수' 창이 올라가는 것을 보곤

뿌듯함과 기대감이 느껴지곤 했다.

 

마무리

정말 중요한 것은 '분석하기 좋은 주제' 를 선정하고 나서

실제로 수집에 임하는 것이다.

그냥 그저 그런 데이터가 있는 반면

보면 볼수록 가능성이 보이는, 닦으면 닦을수록 빛이 나는 데이터도 있는 법이다.

 

내가 그런 데이터를 수집했길 바란다.

 

instagram_post_data.xlsx
0.02MB

 

 

'Project > 최적의 인스타 피드' 카테고리의 다른 글

최적의 아이돌 인스타 피드 만들기 : 1일차 (계획 짜기)  (0) 2024.09.03
'Project/최적의 인스타 피드' 카테고리의 다른 글
  • 최적의 아이돌 인스타 피드 만들기 : 1일차 (계획 짜기)
흑석동사는시골쥐
흑석동사는시골쥐
문과 경영학도 숫자 배우기 프로젝트
  • 흑석동사는시골쥐
    NaN
    흑석동사는시골쥐
  • 전체
    오늘
    어제
  • 링크

    • 독서 일지
    • 올리고 싶은 거 올려요
    • 분류 전체보기 (75)
      • Coding & Data Analysis (52)
        • Python (23)
        • R (21)
        • Excel & Data (2)
        • Git & Github (4)
        • Certificate (2)
      • Project (15)
        • 일자리 스크래핑 서비스 (8)
        • 최적의 인스타 피드 (2)
        • 주식 & 비트코인 분석 (5)
      • Economics (1)
        • 경제기사 스크랩 (1)
      • Records & Thoughts (6)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 공지사항

  • 인기 글

  • 태그

    개발
    시각화
    Python
    동아리
    AI반도체
    다항회귀
    엔비디아
    파이썬
    git
    지도
    데이터수집
    adsp공부법
    웹스크래퍼
    자격증
    r
    데이터분석
    기초
    주가분석
    Colab
    주식
    matplotlib
    프로그래밍
    ADSP
    비전공자
    데이터
    FLASK
    머신러닝
    전처리
    심장병 데이터
    코랩
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.2
흑석동사는시골쥐
최적의 아이돌 인스타 피드 만들기 : 2일차 (데이터 수집하기)
상단으로

티스토리툴바