데이터 채굴하기 1편: 웹 스크래핑
·
Data Science/Python 기초
정오늘의 공부 내용, 웹 스크래핑 참고 유튜브: 나도코딩 https://youtu.be/yQ20jZwDjTE 이번 게시물은 웹 스크래핑을 하기 위한 이론편이다. 웹 스크래핑? 웹 페이지에서 내가 원하는 부분만 떼어오는 것 웹 크롤링이랑 뭐가 다른데? 웹 크롤링은 페이지 내의 링크들을 따라가면서 모~든 내용을 가져오는 것. 마구잡이로 가져옴 데이터를 채굴하는 현장에서 매우 빈번하게 쓰이는 기술이나, 크롤링/스크래핑으로 가져온 데이터는 휘발성이 강하며 변화가 잦다. 웹의 구성 1. HTML : 집의 뼈대 2. CSS : 인테리어 3. JS (JavaScript) : 사람의 다양한 활동(살아있게 하는 것) → 창문 여닫기, 불 끄고 켜기 등 HTML Hyper Text Markup Language : elem..
Python numpy: np.log1p()란 뭘까?
·
Data Science/Python 기초
포스코 빅데이터 프로젝트의 데이터 전처리 부분을 봤는데, 연속형인 결과변수에 np.log1p() 함수를 취해준 것을 보았다. 왜 np.log1p()를 해준 것일까? https://velog.io/@gjtang/np.log1p%EB%A5%BC-%ED%95%98%EB%8A%94-%EC%9D%B4%EC%9C%A0 np.log1p()를 하는 이유 np.log1p()를 하는 이유 velog.io ※ 참고 로그 큰 값을 작은 값으로 표현하기 위해 사용된다. 예를 들어, NN이나 logistic regression의 경우, binary classification의 마지막 레이어에서 activation function으로 sigmoid를 활용한다.(softmax는 multinomial classification) 이건..
Python numpy: reshape(-1, n) 에서 -1은 뭘까?
·
Data Science/Python 기초
Regression 인강듣는 도중 나온 reshape(-1, 1)을 보고 -1이 왜 들어가는걸까? 하고 궁금해서 찾아봄 결론부터, -1은 마치 n과 같이 가변적임을 나타내는 숫자이며, 뒤의 열의 숫자에 따라서 모든 원소가 누락되지 않도록 행렬을 구성해줌 ex) a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]]) a.shape >> (3, 4) a.reshape(-1, 12) >> 열이 12개가 되도록 행이 1개가 됨 a.reshape(-1, 6) a.reshape(-1, 2) a.reshape(-1,12) 열이 6개가 되어야 하므로 2x6 행렬 구성 열이 2개가 되어야 하므로 6x2 행렬 구성 열이 12개가 되어야 하므로 1x12 행렬 구성 1 3 5 7 9 11 ..
Python 기초
·
Data Science/Python 기초
잠시 티스토리를 방치하고 블로그에 정리해뒀던 것을 다시 티스토리로 백업하기... https://blog.naver.com/rlawozl96/222573880972 Python 1 다시 파이썬... 티스토리까지 관리할 자신이 없어서 다시 블로그로 돌아옴 예전에 들었던 부분 기억이 안나... blog.naver.com Python 1 -데이터 타입, list tuple set dict 개념, length 파악 https://blog.naver.com/rlawozl96/222587658689 Python 2 0. Other Calculation a = 10 b = 3 1) % : 몫을 나눈 나머지를 구함 a % b = 1 (10/3... blog.naver.com Python 2 -calculation, in..