컴붕이의 감자 탈출기 10

[혼공분석]6주차_복잡한 데이터 표현하기

06 - 1 객체지향 API로 그래프 그리기pyplot  방식 vs  객체지향 API 방식pyplot 방식은 matplotlib.pyplot에 있는 함수를 사용하는 방식으로 함수들이 하나의 피겨객체에 대한 상태를 공유한다객체지향 API방식은 피겨 객체와 서브플롯 객체를 만들고 이 객체의 메서드를 사용하는 방식으로 복잡한 그래프를 그리는 경우 특히 하나의 피겨에 여러 개의 서브플롯을 추가하는 경우 객체지향 API 방식을 사용하는 것이 좋다 그래프에 한글 출력하기✔️미리 네이버 폰트에서 나눔고딕을 다운 받아 Library/Fonts/ 경로에 넣어둔 상태로 진행import matplotlib.pyplot as pltplt.rc('font', family='Nanum Gothic')⚠️진짜 다 맞게 했는데 계속..

[혼공분석] 5주차_데이터 시각화하기

05 - 1 맷플롯립 기본 요소 알아보기Figure 객체모든 그래프 구성 요소를 담고 있는 최상위 객체명시적으로 figure 객체를 만들어 활용하면 다양한 그래프 옵션 조절 가능그래프 크기 바꾸기figsize 매개변수plt.figure(figsize=(9,6)) #너비가 9인치, 높이가 6인치인 피겨 객체 생성plt.scatter(ns_book7['도서권수'], ns_book7['대출건수'], alpha = 0.1)plt.show()dpi 매개변수plt.figure(dpi=144)plt.scatter(ns_book7['도서권수'], ns_book7['대출건수'], alpha = 0.1)plt.show()❗️DPI란? dot per inch의 약자로 1인치를 몇 개의 점으로 표현하는지 나타낸다. 맷플롯립의..

[혼공분석]4주차_ 데이터 요약하기

04-1 통계로 요약하기평균 : 데이터 값을 모두 더해 데이터 값의 개수로 나눈 것, 평균을 구하는 방법은 정말 다양하며 상황에 맞게 적절한 평균을 도출 할 수 있어야함중앙값 : 데이터가 홀수인 경우에는 중간에 위치하는 값, 짝수인 경우에는 가운데 두 값의 평균, 즉 데이터의 50%에 해당하는 부분 최솟값 : 말 그대로 시리즈 내에서 가장 작은 값을 나타냄최댓값 : 최솟값과 마찬가지로 시리즈 내에서 가장 큰 값을 나타냄분위수 : 순서대로 정렬한 데이터를 일정한 간격으로 나누는 기준점에 해당하는 것을 나타냄분산 : 평균으로부터 데이터가 얼마나 퍼져있는지를 나타내는 지표. 분산이 클수록 데이터가 넓게 펴져있음. 각 데이터에서 평균을 빼고 제곱한 값을 더해 데이터의 개수로 나눈 값표준편차 : 분산에 제곱근을 ..

[혼공분석]3주차_데이터 정제하기

3주차import pandas as pdns_df = pd.read_csv('도서관 자료.csv', low_memory=False)03 - 1 불필요한 데이터 삭제하기1. 열 삭제하기loc 메서드와 불리언 배열- column 속성은 판다스의 index 클래스의 객체로 이 객체의 원소는 파이썬의 리스트처럼 숫자인덱스로 참조 할 수 있다selected_columns = ns_df.columns != 'unnamed: 13' // 'unnamed: 13'을 제외한 모든 열이 True인덱스를 가짐ns_book = ns_df.loc[:,selected_columns] //True인 열의 모든 행을 선택》》 결과값으로 'unnamed: 13' 열이 삭제된 데이터 프레임을 얻게 된다 같은 방법으로 '부가기호' 열을 ..

[혼공분석]2주차_JSON, XML, 웹스크래핑

API?두 프로그램이 서로 대화하기 위한 방법을 정의한 것API를 구현하는 방법은 다양하고 각기 장단점이 있음웹기반 API는 주로 CSV, JSON, XML 형태로 데이터를 전달함파이썬에서 JSON 데이터 다루기JSON?JSON은 파이썬의 딕셔너리와 리스트를 중첩해놓은 것과 같은 '텍스트' 파일이다웹 기반 API로 데이터를 전달할때는 파이썬 딕셔너리가 아니라 '텍스트'로 전달해야 한다JSON 문자열 Python 객체d = {"name" : "혼공분석", "author" : "박해선", "year" : 2022}1. 파이썬 객체를 JSON문자열로 변환하기 : json.dump()함수import jsond_str = json.dumps(d, ensure_ascii=False)print(type(d_str)..

[혼공분석]1주차_CSV파일의 이해

01 - 3 이 도서가 얼마나 인기가 좋을까요?CSV 파일csv 파일이란 ','로 구분된 텍스트 파일이다. 한 줄이 하나의 레코드이며 레코드는 콤마로 구분된 여러 필드 혹은 열로 구성된다. csv 파일의 장점은 여러가지 type의 정보들이 한 번에 저장 될 수 있다는 것이다.  CSV 파일을 데이터프레임으로 읽기: read_csv()함수import pandas as pddf = pd.read_csv('파일 이름', encoding='EUC-KR', low_memory = False)매개변수 'encoding=' 은 파일이 인코딩 된 것과 같은 것을 넣어줘야 한다.read_csv의 default 인코딩 값은 'UTF-8'로 설정 돼 있어 'UTF-8'로 인코딩 된 파일이라면 상관없지만 오류가 생긴다면 그에..

[기본] Git/Github 사용법

1. GitHub 이란?GitHub이란 코드를 저장, 공유 할 수 있는 클라우드 서비스라고 보면 된다. 컴퓨터에 저장하지 않아도 된다는 장점과 실무자들이 공동 프로젝트를 진행할 때 모든 코드를 공유, 수정 할 수 있다는 장점에 의해 코딩 외에 실무적인 문제를 해결 해 주는 역할을 한다   2. Git 이란?소스코드를 컴퓨터에서 GitHub으로 올려주는 역할을 하는 것이 Git이다. 또한 코드를 수정 했을 때 어떻게 수정 했는지 비교할 수 있도록 히스토리를 만들어 준다   3. Git/GitHub 설치하기깃허브에 가입하고 새로운 repository를 만드는 방법은 일단 생략하고 작성 하도록 하겠다.이렇게 새로운 레퍼지토리를 만들어 주고  Git을 다운 받아야 한다Window의 경우 구글에 Git을 검색하고..

[잡글] 이 블로그를 시작하는 이유

그렇다...이 블로그는 한낱 컴퓨터 공학과를 전공하고 있는 이제 겨우 1학년을 마친 한 사람이 시작하는 블로그다.. 사실 남들 보라고 시작하는 블로그는 아니다물론 전체 공개로 해놓을 거고 누군가 내 블로그를 보고 도움이 됐다면 한 없이 뿌듯하겠지만 난 그저 내 공부를 하기 위해 블로그를 하기로 마음 먹었다 가장 큰 이유는 선대수를 하면서 깨달은게 많았기 때문이다.지금까지 고등학교때 세특을 쓰기 위해 찾아본 ML/DL 과 관련한 수 많은 수학적 수식들... 그때까진 단 하나도 이해 할 수 없었던 그 수식들중 많은 것을 선대수를 하면서 배울 수 있었다. 선대수를 배우고 난 후 다시 찾아보려고 했지만 내가 남겨놓은 자료가 하나도 없었기에 나는 그때 이해하지 못하고 남겨 놓은걸 영원히 찝찝하게 남겨 놓게 되었다..