1. ホーム
  2. パイソン

タグ内の全データを取得するためのBeautifulSoupとPython

2022-02-26 10:26:33
# -*- coding:utf-8 -*-
# python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#Tag manipulation


from bs4 import BeautifulSoup
import urllib.request
import re


#If it's a URL, you can use this to read the page
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc)  
#webpage = urllib.request.urlopen(req)  
#html = webpage.read()



html = """


<タイトル

ヤマネの話


ヤマネの物語

むかしむかし、あるところに3人の姉妹がいました。 <未定義 , ラシー そして ティリー ; レイシー 井戸の底に住んでいた。

...

""" soup = BeautifulSoup(html, 'html.parser') # document object #find a tag, will only find a a tag #print(soup.a)# for k in soup.find_all('a'): print(k) print(k['class'])# look up the class attribute of the a tag print(k['id'])#check the id value of the a tag print(k['href'])#check the href value of the a tag print(k.string)#check the string of the a tag #tag.get('calss'), which can also achieve this effect <未定義 for k in soup.find_all('a'): print(k) print(k['class'])# look up the class attribute of the a tag print(k['id'])#check the id value of the a tag print(k['href'])#check the href value of the a tag print(k.string)#check the string of the a tag #tag.get('calss'), which can also achieve this effect