import pandas as pd # 1. 데이터 준비col_names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class'] # csv 파일에서 DataFrame을 생성dataset = pd.read_csv('iris.csv', encoding='UTF-8', header=None, names=col_names) # DataFrame 확인print(dataset.shape) # (row개수, column개수)print(dataset.info()) # 데이터 타입, row 개수, column 개수, 컬럼 데이터 타입print(dataset.describe()) # 요약 통계 정보 (150, 5) RangeIndex: 150 e..
분류 전체보기
"""icrawler 패키지를 이용해서, Google 이미지 검색 결과의 이미지들을 다운로드> pip install icrawler"""from icrawler.builtin import GoogleImageCrawlerimport os # 이미지 저장 폴더 경로save_dir = os.path.join('..', '..', 'images')# GoogleImageCrawler 객체 생성google_crawler = GoogleImageCrawler(storage={'root_dir': save_dir})google_crawler.crawl(keyword='펭수', max_num=50) 결과 >> 위의 결과는 images.google.com에서 '펭수' 검색 결과를 가져온 것이다. 그 밖에 여러 검색 조..
import requestsfrom bs4 import BeautifulSoup # 접속할 사이트(웹 서버) 주소url = 'https://search.daum.net/search?w=news&q=%EB%A8%B8%EC%8B%A0%20%EB%9F%AC%EB%8B%9D&DA=YZR&spacing=0' # 사이트(웹 서버)로 요청(request)를 보냄html = requests.get(url).text.strip() # 요청의 결과(응답, response - HTML)를 저장# print(html[0:100]) # 전체 문자열에서 100자만 확인 # BeautifulSoup 객체를 생성soup = BeautifulSoup(html, 'html5lib') # HTML 문서의 모든 링크에 걸려 있는 주소들을 ..
파이썬으로 HTML 문서 분석:설치해야할 패키지(pip install package-name)1) beautifulsoup4: HTML 요소들을 분석하는 패키지2) html5lib: HTML 문서를 parsing(분석)3) requests: HTTP 요청(request)을 보내고, 서버로부터 응답(response)을 받는 기능을 담당. web01.html----------------------------------------------------------------------------------------------------------------- 처음 작성하는 HTML HTML: HyperText Markup Language 여기는 paragraph입니다. 여기는 division입니다. 다음 카카..