인트로
변수 생성, 변수명 변경, 조건에 따른 데이터 추출, 정렬, 병합 등의 일련의 과정 : 데이터 가공
데이터 전처리, 데이터 핸들링, 데이터 마트 ( Data Mart ) 등이라고도 부른다.
dplyr 패키지 추가 개념
- select 함수에서 열 제외 옵션 : 변수명 앞에 ' - ' 붙이기
- group_by 와 summarize 함수 사용 예시
select(-col) # col 열 제외
data %>% group_by(col1) %>% summarize( SUM=sum(col2) )
# group_by 함수는, 특정 열을 기준으로 데이터를 그룹화 하는 것이다.
# col1 기준으로 그룹화 ( A그룹, B그룹 ... ) --> col2 값의 각 그룹 합을 구함
데이터 결합하기
결합 | 함수 | 설명 | |
세로 | bind_rows ( 테이블1, 테이블2 ) | 세로 ( 블럭 쌓기) 형식으로 데이터를 결합한다. | |
가로 | left_join ( 테이블1, 테이블2, by = '변수' ) | by 에 들어가는 변수를 key 변수라고 부른다. 테이블1을 기준으로 테이블2 데이터가 오른쪽에 붙는다. |
|
가로 | inner_join ( 테이블1, 테이블2, by = '변수' ) | 테이블1과 테이블2의 key 변수가 동일한 경우에만 데이터가 오른쪽에 붙는다. |
|
가로 | full_join ( 테이블1, 테이블2, by = '변수' ) | key 변수를 기준으로 모든 데이터가 붙는다. |
'Coding & Data Analysis > R' 카테고리의 다른 글
[R] 5-4. 데이터 정제하기 (1) | 2024.08.16 |
---|---|
[R] 5-3. 데이터 구조 변형하기 (0) | 2024.08.16 |
[R] 5-1. dplyr 패키지의 데이터 가공 함수 (0) | 2024.08.15 |
[R] 4-3. 데이터 시각화 (0) | 2024.08.14 |
[R] 4-2. 데이터 관측하기 (0) | 2024.08.13 |