1일차 순서 진행
파이썬 다양한 Library 소개
Numpy 패키지
Numpy 는 파이썬에서 가장 많이 쓰는 수치 계산 라이브러리 벡터와 행렬 등 수학적인 데이터 구조를 표현하고, 연산하고 기본적인 효율적 구현되어있다. 우리가 사용하는 대부분의 패키지가 numpy에 의존함.
사용방법
import numpy as np
matrix_a = np.asarray([[4, 5, 2],
[5, 2, 6],
[6, 1, -2]])
matrix_b = np.asarray([[5, 9, 2],
[2, 0, 3],
[1, -4, 5]])
matrix_c = matrix_a + matrix_b
print(matrix_c)
Result [[ 9 14 4] [ 7 2 9] [ 7 -3 3]]
Pandas 패키지
Pandas는 numpy를 기반으로, 보다 고차원적인 데이터 처리를 돕는 라이브러리이다. 동일한 데이터를 가진 Series를 기본으로하여, 이를 여러개 묵어 사용하는 Dataframe을 사용하여 표형태로 된 자료를 다룬다.
import pandas as pd
col_id = pd.Series(data=[5, 14, 21, 25])
col_team = pd.Series(data=['A', 'A', 'B', 'B'])
col_name = pd.Series(data=['김패캠', '정코딩', '박데사', '장머신'])
col_score = pd.Series(data=[100, 95, 60, 80])
df = pd.DataFrame(data={'Id': col_id,
'Team': col_team,
'Name': col_name,
'Score': col_score})
df.set_index('Id', inplace=True)
print(df)
Result
Team Name Score
A | 김패캠 | 100 |
A | 정코딩 | 95 |
B | 박데사 | 60 |
B | 장머신 | 80 |
df.groupby('Team').mean()
A 97.5
B 70
과같이 편리한 연산이 가능한 라이브러리
Matplotlib 패키지
Matplotlib는 Python에서 Matlab 스타일의 그래프를 그리기 위한 오픈소스 패키지이다. 각종 그래프를 표현할 수 있는 기반이 된다.
import matplotlib.pyplot as plt
x = np.linspace(0, 1, 100)
y = x
yy = x ** 2
fig = plt.figure()
ax = fig.gca()
ax.plot(x, y, 'r-')
ax.plot(x, yy, 'g-')
ax.set_title('Title')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.legend(['y = x', 'y = x^2'])
ax.grid()
fig.show()
와 같은 방식으로 사용가능하다.
Seaborn 패키지
Seaborn은 matplotlib 패키지를 기반으로 보다 편하게 통계를 시각화 하기
위한 도구이다. 일반적으로 데이터사이언스에서 사용하는 대부분 그래프 지원함.
import seaborn as sns
sns.histplot(x='Score', data=df, hue='Team')
sns.boxplot(y='Score', x='Team', data=df)
Plotly 패키지
Plotly 패키지는 Plotly 사에서 개발, 서비스하는 반응형 그래프 생성 엔진이다. 클라우드 기반의 엔터프라이즈 서비스는 유료로 젝공되지만, 로컬에서 사용하는 개인용 라이브러리는 오픈소스로 제공되어 무료로 사용할 수 있다.
import plotly.express as px
fig = px.line(x=["a","b","c"], y=[1,3,2], title="sample figure")
fig.show()
확대 축소등 차트를 보다 더 정확하게 사용가능하다.