"""icrawler 패키지를 이용해서, Google 이미지 검색 결과의 이미지들을 다운로드> pip install icrawler"""from icrawler.builtin import GoogleImageCrawlerimport os # 이미지 저장 폴더 경로save_dir = os.path.join('..', '..', 'images')# GoogleImageCrawler 객체 생성google_crawler = GoogleImageCrawler(storage={'root_dir': save_dir})google_crawler.crawl(keyword='펭수', max_num=50) 결과 >> 위의 결과는 images.google.com에서 '펭수' 검색 결과를 가져온 것이다. 그 밖에 여러 검색 조..
Python
import requestsfrom bs4 import BeautifulSoup # 접속할 사이트(웹 서버) 주소url = 'https://search.daum.net/search?w=news&q=%EB%A8%B8%EC%8B%A0%20%EB%9F%AC%EB%8B%9D&DA=YZR&spacing=0' # 사이트(웹 서버)로 요청(request)를 보냄html = requests.get(url).text.strip() # 요청의 결과(응답, response - HTML)를 저장# print(html[0:100]) # 전체 문자열에서 100자만 확인 # BeautifulSoup 객체를 생성soup = BeautifulSoup(html, 'html5lib') # HTML 문서의 모든 링크에 걸려 있는 주소들을 ..
파이썬으로 HTML 문서 분석:설치해야할 패키지(pip install package-name)1) beautifulsoup4: HTML 요소들을 분석하는 패키지2) html5lib: HTML 문서를 parsing(분석)3) requests: HTTP 요청(request)을 보내고, 서버로부터 응답(response)을 받는 기능을 담당. web01.html----------------------------------------------------------------------------------------------------------------- 처음 작성하는 HTML HTML: HyperText Markup Language 여기는 paragraph입니다. 여기는 division입니다. 다음 카카..
import numpy as npimport pandas as pd np.random.seed(1)df = pd.DataFrame({ 'pop': np.random.randint(1, 10, 4), # 1~ 10 범위의 난수 4개 'income': np.random.randint(1, 10, 4), # 1~10 범위의 난수 4개 }, index=['a', 'b', 'c', 'd'])print(df) pop incomea 6 1b 9 2c 6 8d 1 7 # agg(aggregate): DataFrame의 축(axis)을 기준으로 통계량을 집계(aggregate)하기 위한 함수# 통계량(statistics): 합계(sum), 평균(mean), 분산(var), 표준편차(std),# 최솟값(min), 최댓값(..