一文看懂爬蟲解析神器：BeautifulSoup 使用指南

編程教室 >《待分類》

2025.07.02 江蘇

關注

大家好，歡迎來到 Crossin的編程教室！

在做爬蟲項目時一定遇到過這樣的問題：網頁是抓取下來了，但打開來發(fā)現都是“亂糟糟”的 HTML 代碼。

那么，要如何從一堆 HTML 標簽文本中挖出自己想要的數據呢？

那就不得不說說今天文章的主角：BeautifulSoup，一個讓網頁解析像喝湯一樣簡單的 Python 神器！

PyPI 上，它月下載量過億，堪稱爬蟲界的明星。想快速提取標題、價格或鏈接？幾行代碼就能搞定！下面通過簡單示例和對比，帶你輕松上手這個“美麗的湯”！

BeautifulSoup 是什么？

BeautifulSoup（簡稱 BS）是一個 Python 庫，專為解析 HTML 和 XML 設計，名字靈感來自《愛麗絲夢游仙境》，透著股奇幻文藝范兒。它的作者 Leonard Richardson 從 2004 年開始開發(fā)這個項目，目標是讓開發(fā)者輕松提取網頁數據，無需鉆研復雜的正則表達式或 XPath 語法。

相比其他工具，BS 有啥獨特之處？

正則表達式：萬能但復雜，一不小心就“滿屏報錯”。
lxml：速度快，但 API 偏硬核，適合高級玩家。
pyquery：模仿 jQuery，適合前端開發(fā)者，但上手稍慢。

BS 的殺手锏是簡單：直觀的 API，強大的社區(qū)支持，搭配多種解析器，無論是新手還是老手都能快速上手。

為什么選 BeautifulSoup？

假設你要從網頁提取一個商品價格，比如 <p>價格：99.9 元</p>。用 Python 內置的字符串操作或正則表達式，代碼可能是這樣的：

# 字符串操作s = '<p>價格：99.9 元</p>'start = s.find('價格：')end = s.find(' 元')print(s[start+3:end])  # 99.9
# 正則表達式import rer = re.search(r'[\d.]+', s)print(r.group())  # 99.9

字符串操作繁瑣，HTML 一復雜就容易出錯；正則表達式雖強，但寫起來費腦筋。換成 BeautifulSoup，則只需幾行代碼：

from bs4 import BeautifulSoups = '<p>價格：99.9 元</p>'soup = BeautifulSoup(s, 'html.parser')price = soup.p.get_text().split('：')[1].split(' ')[0]print(price)  # 99.9

BS 通過解析 HTML 結構，直接定位元素，代碼簡潔又直觀。無論是提取文本、屬性還是嵌套標簽，BS 都能讓你事半功倍！

快速上手：安裝與基本操作

安裝

安裝 BS 超級簡單，運行以下命令：

pip install beautifulsoup4

注意：包名是 beautifulsoup4（bs4），老版本 BeautifulSoup（bs3）已不推薦。如果用 Anaconda，BS 和常用解析器已默認包含。想提升性能的話可以額外安裝 lxml：

pip install lxml

BS 支持多種解析器，影響性能和容錯性：

html.parser：Python 內置，簡單但對不規(guī)范 HTML 容錯性一般。
lxml：高性能，強烈推薦。
html5lib：容錯性強，適合亂七八糟的網頁（需安裝：pip install html5lib）。

基本用法

BS 的核心是把 HTML 解析成結構化對象，再通過標簽、屬性或選擇器提取數據。來看個經典示例：

from bs4 import BeautifulSoup
html_doc = """<html><head><title>童話故事</title></head><body><p class="title"><b>三姐妹的故事</b></p><p class="story">從前有三個小女孩，她們的名字是<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> 和<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>。</p></body></html>"""
soup = BeautifulSoup(html_doc, 'lxml')# 獲取標題print(soup.title.text)  # 童話故事# 獲取第一個 p 標簽的 classprint(soup.p['class'])  # ['title']# 查找所有 a 標簽links = soup.find_all('a')for link in links:    print(link['href'])  # http://example.com/elsie, ...# 用 CSS 選擇器story = soup.select('p.story')[0].get_text()print(story)  # 從前有三個小女孩...

初始化：BeautifulSoup(html, 'lxml') 創(chuàng)建對象。
元素訪問：soup.tag 獲取標簽，soup.tag['attr'] 獲取屬性。
查找：

find('tag', id='id')：返回單個元素或 None。

find_all('tag', class_='class')：返回元素列表。

select('css_selector')：支持 CSS 選擇器。

輸出：get_text() 提取文本，prettify() 格式化 HTML。

更多用法可查官方文檔，簡單幾頁就能上手！

實戰(zhàn)案例：提取網頁數據

假設我們要從一個電商網頁提取商品名稱和價格，先用 requests 抓取網頁，再用 BS 解析：

import requestsfrom bs4 import BeautifulSoup
url = 'https://example.com/products'response = requests.get(url)soup = BeautifulSoup(response.text, 'lxml')
# 假設商品在 class="product" 的 div 中products = soup.find_all('div', class_='product')for product in products:    name = product.find('h2').get_text()    price = product.find('span', class_='price').get_text()    print(f'商品: {name}, 價格: {price}')

相比正則表達式的復雜匹配，BS 直接通過標簽和類名定位，代碼量減少一半，邏輯清晰。如果網頁是動態(tài)加載的，可搭配 Selenium 獲取 HTML 后再用 BS 解析。

進階技巧

性能優(yōu)化：用 lxml 解析器，速度比 html.parser 快數倍。
錯誤處理：檢查 find 返回的 None 或 find_all 的空列表，避免程序崩潰。
深入學習：官方文檔（中文版）清晰友好，10 分鐘就能上手。

BeautifulSoup 就像一碗“美味的湯”，讓網頁解析簡單又高效。無論是新手還是老手，它都能幫你快速提取網頁數據。需要采集數據的小伙伴趕緊動手試一試吧。

如果本文對你有幫助，歡迎點贊、評論、轉發(fā)。你們的支持是我更新的動力~

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現有害或侵權內容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

python爬蟲之定位網頁元素的三種方式

從零開始學爬蟲系列2：下載小說的正確姿勢

Python3中BeautifulSoup的使用方法

智能營銷總部：Python 爬蟲從入門到進階之路（十二）

Python 爬蟲介紹 | 菜鳥教程

Python網絡爬蟲（一）

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版