[Python] Pandas 기본 1

Pandas가 자료를 저장하는 구조에는 크게 두 가지가 있습니다.

1. 시리즈(Series): 정수, 실수, 문자열, 객체 등 모든 데이터를 저장할 수 있는 1차원 배열 자료구조

시리즈의 각각의 데이터는 레이블(label)을 가질 수 있는데, 이 레이블들을 묶어서 인덱스(index)라고 부릅니다. 즉, 시리즈가 가지고 있는 각각의 데이터를 구분하는 레이블이 인덱스입니다.

데이터를 사용하여 시리즈를 생성하면 각각의 데이터에 대해 레이블이 부여되며 이 레이블들을 인덱스라고 볼 수 있습니다. 기본적으로 인덱스는 데이터의 조회 및 연산을 위해 사용됩니다.

Pandas의 인덱스는 비유일성(non-unique)을 지원합니다. 인덱스는 정수가 될 수도 있고 문자열이 될 수도 있습니다.

2. 데이터프레임(DataFrame): 서로 다른 유형의 데이터를 가지는 컬럼들로 구성된 2차원 배열 자료구조

시리즈가 1차원 구조라면 데이터프레임은 여러 시리즈를 모아둔 2차원 구조로 볼 수 있습니다. 하나의 시리즈가 하나의 컬럼이 되며 각각의 컬럼들은 이름(레이블)을 가지고 있습니다.

여러 시리즈로 구성된 것이므로 서로 다른 시리즈들의 데이터는 시리즈명(컬럼명)으로 구분됩니다. 여러 시리즈가 모여서 데이터프레임이라는 구조가 되며 여러 시리즈들의 데이터가 모여서 데이터프레임의 데이터가 됩니다.

시리즈와 마찬가지로 데이터프레임의 각각의 데이터를 구분하는 레이블이 인덱스입니다. 데이터프레임에서는 각각의 행을 구분하는 행 레이블(row labels)은 인덱스(index), 각각의 시리즈를 구분하는 열 레이블(column labels)이 컬럼(column)이 됩니다.

시리즈와 데이터프레임은 Pandas에서 데이터를 저장하는 자료구조 객체입니다. 두 객체의 생성 및 초기화, 조작 방법에는 차이가 있으며 Numpy의 ndarray 객체와도 연관이 있습니다. 다음 글에서는 시리즈와 데이터프레임의 생성 및 초기화에 대해 알아보겠습니다.

Categories:

Updated:

Comments