본문 바로가기

수업정리20

파이썬 데이터 전처리 week13 목차 1. 전처리 기초 지식 1.1 전처리 개념 머신러닝 모델에 학습시키기전 데이터 가공 1.2 데이터 품질 문제 데이터의 분포가 너무 광범위 활때 >> 피쳐스캐일링으로 데이터의 최솟값과 최댓값을 0~1사이 값으로 바꾸거나 정규화 시켜 정규분포 형태로 나타내기 범주형 데이터(명목형과 서수형) 명목형(남자,여자,혈액형)과 서수형(1등,2등)같은 범주형 데이터는 숫자로 나타내기 힘듬 >> 원핫인코딩을 통해 컴퓨터가 인식할수 있는 수자 형태 정보로 변형 결측치(실제로 존재하지만 기록되지 않고 탈락된 데이터공간) >>드롭으로 없애거나 평균값,중간값,빈도값 같은 걸로 채워 넣기 이상치 : 비이상적으로 극단적으로 크거나 작은 값 >> 제거 2. 결측치 처리 : 드롭과 채우기 ※결측치 확인법 >> isnull메소드 .. 2023. 12. 28.
시본과 플롯리 시각화 week12_2 목차 1.시본 1.1 시본 설명 맷플롯립과 동일한 결과가 나오지만 작성과정이 간단. 일종의 래퍼(wrapper) 모듈 복잡한 설정없이 데이터프레임과 x,y에 해당하는 열 이름만 지정하면됨. 매개변수 hue는 표현하기 복잡한 범주형 데이터에 사용시 간단히 자동으로 나타내줌 hue ="범주형 데이터 이름" 사용법: import seaborn as sns 1.2 시본에서 사용하는 그래프 1.2.1 회귀 그래프 : 회귀식을 적용하여 선형회귀 추세선을 그래프에 함께 작성 사용법 : sns.regplot(x="total_bill", y="tip", data = tips, x_ci=95) 매개변수 : x_ci는 신뢰구간을 나타낼 확률 1.2.2 산점도 사용법 : sns.scatterplot(x="total_bill".. 2023. 12. 17.
matplotlib 시각화 week12 목차 1.특징 1.1구조 1.2 그림과 축 1.3 서브플롯 행렬 2. 그래프 꾸미기 2.1 색상, 선의 형태, 제목, 범례 3. 그래프 종류 3.1 산점도 3.2 막대 그래프 3.3 누적그래프 3.4 히스토그램 3.5 상자그림 1.특징 시각화 도구 : 맷플롯립, 시본, 플롯리 외 다양 1.1 설명 맷플롯립 : 매트랩의 기능을 가져와 파이썬에도 그대로 쓸 수 있도록 하는 시각화 모듈 import matplotlib.pyplot as plt 파이플롯(pyplot)은 그림(fig)과 축이 올라갈 바탕 1.2 그림(밑바탕)과 축(그래프) fig라는 커다란 밑바탕에 축(그래프)를 그린다고 생각 1.3 서브플롯 행렬 >> 그래프를 여러개 플랏하는 것 fig를 여러개를 만들어 plot을 여러개 하는 것도 가능하고, .. 2023. 12. 17.
판다스 week10 목차 1. 판다스 개념 2. 데이터 추출 3. 그룹별 집계 4. 데이터 변환 1. 판다스 개념 넘파이는 배열 처리를 위한 것이라면 판다스는 데이터 프레임을 처리하기 위한것. 데이터 프레임은 배열의 모임이라고 볼 수있기에 판다스는 넘파이를 효율적으로 처리하기위 한 다양한 함수를 제공한다고 볼 수 있음. 데이터프레임 : 데이터 전체 시리즈객체 : 데이터, 인덱스, 데이터타입으로 구성됨. 데이터 프레임의 하나의 열이라고 생각해도 좋음 따라서 데이터 프레임은 시리즈 객체의 모음 1.1 시리즈 객체 특징 넘파이배열의 하위 클래스 넘파이가 지원하는 어떠한 데이터 타입도 지원 인덱스와 반드시 정렬되어 있을 필요는 없음 인덱스 값은 중복을 허용 1.2 판다스 메소드 1.2.1 데이터 프레임 생성(pd.DataFrame.. 2023. 12. 17.