免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
BeautifulSoup4的安裝及使用
    一、BeautifulSoup4的安裝
   方法一:cmd->easy_install BeautifulSoup
   方法二:從http://www.crummy.com/software/BeautifulSoup/bs4/download/
下載->cmd->進入下載的文件目錄->pythonsetuyp.py install

二、 BeautifulSoup4的使用 
  1、導(dǎo)入
    from bs4 import BeautifulSoup
    注意:要是BeautifulSoup的版本為3.x,則導(dǎo)入方式為:from BeautifulSoup importBeautifulSoup
  2、example
    html文件:
    html_doc = """

  The Dormouse's story

   Once upon a time there werethree little sisters; and their names were Elsie,Lacie and Tillie; and they lived at the bottom of awell.

...

"""

  代碼:
  from bs4 import BeautifulSoup
  soup = BeautifulSoup(html_doc)
 
  接下來可以開始使用各種功能

   soup.X(X為任意標(biāo)簽,返回整個標(biāo)簽,包括標(biāo)簽的屬性,內(nèi)容等)

  如:soup.title

    #

    soup.p

    #

  The Dormouse's story

   soup.a (注:僅僅返回第一個結(jié)果)

    # Elsie

   soup.find_all('a') (find_all 可以返回所有)

    # [Elsie,

    # Lacie,

    # Tillie]

   find還可以按屬性查找
   soup.find(id="link3")
    # Tillie

   要取某個標(biāo)簽的某個屬性,可用函數(shù)有 find_all,get
    for link insoup.find_all('a'):
     print(link.get('href'))
    #http://example.com/elsie
    #http://example.com/lacie
    #http://example.com/tillie

   要取html文件中的所有文本,可使用get_text()
   print(soup.get_text())
    # TheDormouse's story
    # TheDormouse's story
    # Once upona time there were three little sisters; and their names were
    #Elsie,
    # Lacieand
    #Tillie;
    # and theylived at the bottom of a well.
    # ...

   如果是打開html文件,語句可用:
    soup =BeautifulSoup(open("index.html"))
   BeautifulSoup中的Object
    tag (對應(yīng)html中的標(biāo)簽)
    tag.attrs(以字典形式返回tag的所有屬性)
  可以直接對tag的屬性進行增、刪、改,跟操作字典一樣

    tag['class']= 'verybold'

    tag['id'] =1

    tag

    #<blockquote class="verybold"id="1">Extremelybold</blockquote>


    deltag['class']

    deltag['id']

    tag

    #<blockquote>Extremelybold</blockquote>

   tag['class']

    # KeyError:'class'

   print(tag.get('class'))

    # None


    X.contents(X為標(biāo)簽,可返回標(biāo)簽的內(nèi)容)

    eg.

    head_tag =soup.head

   head_tag

    #<head><title>TheDormouse'sstory</title></head>

   head_tag.contents

   [<title>The Dormouse'sstory</title>]

    title_tag =head_tag.contents[0]

   title_tag

    #<title>The Dormouse'sstory</title>

   title_tag.contents

    # [u'TheDormouse's story']


   解決解析網(wǎng)頁出現(xiàn)亂碼問題:
    importurllib2
      fromBeautifulSoup import BeautifulSoup
     
      page =urllib2.urlopen('http://www.leeon.me');
      soup =BeautifulSoup(page,fromEncoding="gb18030")
     
      printsoup.originalEncoding
      printsoup.prettify()
 

    
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Python爬蟲學(xué)習(xí)(六)BeautifulSoup來襲
bs4網(wǎng)頁解析庫安裝
【Python爬蟲學(xué)習(xí)筆記(3)】Beautiful Soup庫相關(guān)知識點總結(jié)
Beautiful Soup模塊詳解
Beautiful Soup 4.4.0 教程
Python BS4庫的安裝與使用詳解
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服