免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

Python每日一庫之Beautiful Soup

2022年9月14日 12:22 ? 社會

Beautiful Soup4是一個 Python 庫，用于從 HTML 和 XML 文件中提取數(shù)據(jù)。它是一個工具箱，通過解析文檔為用戶提供需要抓取的數(shù)據(jù)，Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。

BeautifulSoup安裝

使用pip來安裝BeautifulSoup

pip install bs4

另外要安裝解析器，下列表格列出一些常用的解析器。

解析器	使用方法	優(yōu)點	缺點
Python內置解析器html	BeautifulSoup(doc,”html.parser”)	Python內置的標準庫，執(zhí)行速度中等，文檔容錯能力強	中文文檔容錯能力差
lxml HTML解析器	BeautifulSoup(doc,”lxml”)	執(zhí)行速度快，文檔容錯能力強	需要依賴C語言的庫
lxml XML解析器	BeautifulSoup(doc,”xml”)	執(zhí)行速度快，唯一支持XML的解析器	需要依賴C語言的庫
html5lib	BeautifulSoup(doc,”html5lib”)	以瀏覽器的方式解析文檔可以生成HTML5格式的文檔	速度慢

使用BeautifulSoup及四大對象

創(chuàng)建BeautifulSoup對象

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)print(soup.prettify())// 格式化輸出print(soup.get_text()) // 獲取網(wǎng)頁所有的文字內容

BeautifulSoup四大對象

Beautiful Soup 將復雜 HTML 文檔轉換成一個復雜的樹形結構，每個節(jié)點都是 Python 對象，所有對象可以歸納為 4 種。

Tag：HTML中的標簽，簡單來說就是html標簽。
NavigableString：簡單來說就是標簽里面的內容，它的類型是一個NavigableString，翻譯過來叫可以遍歷的字符串。
BeautifulSoup：BeautifulSoup對象表示的是一個文檔的全部內容，大部分時候，可以把它當作Tag對象，是一個特殊的Tag，我們可以分別獲取它的類型、名稱、以及屬性
Comment：一個特殊類型的NavigableString對象，其實輸出的內容不包括注釋符號

Tag對象示例

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)print(soup.title)print(soup.a)print(soup.p)

運行輸出如下圖所示，但是發(fā)現(xiàn)好像這個網(wǎng)頁不止一個a標簽跟p標簽，是因為它查找的是在所有內容中的第一個符合要求的標簽，要是想得到所有符合要求的標簽，后面會介紹find_all函數(shù)。

在Tag對象中有兩個重要的屬性，name和attrs。

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)print(soup.a.attrs)

運行輸出如下圖所示，name輸出的是標簽的本身，attrs輸出的是一個字典的類型，如果我們需要得到某個標簽的某個屬性可以使用字典一些方法去獲取比如get方法，print(soup.p.get(“class”))或者直接使用print(soup.p[“class”])

NavigableString代碼示例

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)print(soup.a.string)

運行輸出如下圖，可以NavigableString類型的string方法輕松獲取到了標簽里面的內容。

BeautifulSoup代碼示例

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)print(soup.name)print(soup.attrs)

運行輸出如下圖所示

Comment代碼示例

from bs4 import BeautifulSouphtmlText = ‘#’soup = BeautifulSoup(htmlText)print(soup.a.string)

運行輸出如下，a 標簽里的內容實際上是注釋，但是如果利用 .string方法來輸出它的內容，發(fā)現(xiàn)它已經(jīng)把注釋符號去掉了，所以這可能會給帶來不必要的麻煩。

文檔樹遍歷

直接子節(jié)點

tag里面的content屬性可以將tag的子節(jié)點以列表的形式返回。通過遍歷content.返回的列表來獲取每一個子節(jié)點或者直接使用tag的children方法來獲取。

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)print(soup.head.contents)for child in soup.head.contents:print(child)for child in soup.head.children:print(child)

運行輸出結果如下圖所示

所有子孫節(jié)點

tag里面的.descendants 屬性可以對所有tag的子孫節(jié)點進行遞歸循環(huán)，和 children類似，我們也需要遍歷獲取其中的內容。

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)for child in soup.descendants: print(child)

運行結果輸出如下圖所示

節(jié)點內容

使用.string方法來獲取內容，如果一個標簽里面沒有標簽了，那么 .string 就會返回標簽里面的內容。如果標簽里面只有唯一的一個標簽了，那么 .string 也會返回最里面的內容，如果標簽里面沒有內容則返回None

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)print(soup.a.string)print(soup.title.string)

運行結果輸出如下圖所示

多個內容

使用strippend_strings 屬性來獲取多個內容還可以出除多余的空白字符，需要使用遍歷來獲取，

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content)for child in soup.stripped_strings:print(child)

運行結果輸出如下圖所示

父節(jié)點

通過元素的 .parents 屬性可以遞歸得到元素的所有父輩節(jié)點

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”html.parser”)parentObject = soup.head.titlefor parent in parentObject.parent:print(parent.name)

運行結果輸出如下圖所示

還有一些節(jié)點就不舉例，跟其它獲取節(jié)點一樣也是需要遍歷，而且使用的場景不同，兄弟節(jié)點使用.next_siblings或者.previous_sibling方法，前后節(jié)點使用.next_element或者.previous_element方法。

搜索文檔樹

find_all(name,attrs,recursive,text,**kwargs)，find_all()方法用于搜索當前tag的所有tag子節(jié)點，并判斷是否符合過濾條件。

name 參數(shù)

name參數(shù)可以查找所有名字為name的tag,字符串對象會被自動忽略掉

傳字符串

最簡單的過濾器是字符串，在搜索方法中傳入一個字符串參數(shù)，beautifulsoup會查找與字符串完整匹配的內容，下面的例子用于查找文檔中的所有a標簽

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.find_all(“a”))

傳正則表達式

如果傳入正則表達式作為參數(shù)，beautiful soup會通過正則表達式的match()來匹配內容，下面例子中找出所有以b開頭的標簽，這表示b開頭標簽都應該被找到，如果都正則表達式不熟悉的可以看我之前寫關于正則表示式的文章：https://www.toutiao.com/article/7140941215431819783/?log_from=4bb8705803d45_1663051238064

from bs4 import BeautifulSoupimport requestsimport reurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)for tag in soup.find_all(re.compile(‘^b’)):print(tag.name)

運行結果如下圖所示

傳列表

如果傳入列表參數(shù),Beautiful Soup會將與列表中任一元素匹配的內容返回.下面代碼找到文檔中所有標簽和標簽

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.find_all([“a”, “p”]))

運行結果如下圖所示

傳True

true 可以匹配任何值,下面代碼查找到所有的tag,但是不會返回字符串節(jié)點

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)for tag in soup.find_all(True):print(tag.name)

運行結果如下圖所示

傳函數(shù)

如果沒有合適過濾器,那么還可以定義一個函數(shù)，函數(shù)只接受一個元素參數(shù) [4] ,如果這個方法返回 True 表示當前元素匹配并且被找到,如果不是則返回 False

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)def has_class_but_no_id(tag):return tag.has_attr(‘class’) and not tag.has_attr(‘id’)print(soup.find_all(has_class_but_no_id))

輸出結果如下圖所示

keyword 參數(shù)

注意：如果一個指定名字的參數(shù)不是搜索內置的參數(shù)名，搜索時會把該參數(shù)當作指定名字tag的屬性來搜索，如果包含一個名字為id的參數(shù)，Beautifulsoup會搜索每個tag的’id’值

import refrom bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.find_all(id=’lg’))print(soup.find_all(href=re.compile(“hao123”)))

運行結果如下圖所示

find(name , attrs , recursive , text , **kwargs )，它與 find_all() 方法唯一的區(qū)別是 find_all() 方法的返回結果是值包含一個元素的列表,而 find() 方法直接返回結果。

CSS選擇器

在使用BeautifulSoup中常用的有5中css選擇器方法，用到的方法是 soup.select()，返回類型是列表

通過標簽名查找

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.select(“title”))

運行結果如下圖所示

通過CSS類名查找

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.select(“.mnav”))

運行結果如下圖所示

通過ID來查找

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.select(“#lg”))

運行結果如下圖所示

組合查找

組合查找有點類似前端CSS選擇器中的組合選擇器，組合查找還可以使用子代選擇器。

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.select(‘p #lg’))print(soup.select(‘p > a’))

運行結果如下圖所示

通過CSS屬性查找

使用屬性需要用中括號括起來，注意屬性和標簽屬于同一節(jié)點，所以中間不能加空格，否則會無法匹配到。

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.select(‘a[class=”mnav”]’))

不同節(jié)點使用屬性查找

from bs4 import BeautifulSoupimport requestsurl = “https://www.baidu.com”content = requests.get(url).contentsoup = BeautifulSoup(content,”lxml”)print(soup.select(‘span input[class=”bg s_btn”]’))

運行結果如下圖所示

修改文檔樹

Beautiful Soup的強項是文檔樹的搜索,但同時也可以方便的修改文檔樹

修改tag的名稱和屬性

from bs4 import BeautifulSoupimport requestssoup = BeautifulSoup(‘Extremely bold‘,”lxml”)tag = soup.btag.name = “newtag”tag[‘class’] = ‘newclass’tag[‘id’] = 1print(tag)del tag[‘class’]print(tag)

運行結果如下圖所示

修改標簽內容

給tag的 .string 屬性賦值,就相當于用當前的內容替代了原來的內容，如果當前的tag包含了其它tag,那么給它的 .string 屬性賦值會覆蓋掉原有的所有內容包括子tag

from bs4 import BeautifulSoupimport requestsmarkup = ‘I linked to example.com’soup = BeautifulSoup(markup,”lxml”)tag = soup.atag.string = “New link text.”print(tag)

運行結果如下圖所示

在tag中添加內容

Tag.append() 方法可以在tag中添加內容

from bs4 import BeautifulSoupimport requestssoup = BeautifulSoup(“Foo”,”lxml”)soup.a.append(“Bar”)print(soup)print(soup.a.contents)

運行結果如下圖所示

總結

本篇內容比較多，把 Beautiful Soup 的方法進行了大部分整理和總結，但是還不夠完整只是列出一些常用的，如果需要完整的可以查看Beautiful Soup 官網(wǎng)的文檔，希望對大家有幫助，掌握了 Beautiful Soup，一定會給你在數(shù)據(jù)爬取帶來方便，下一期我將分享Python pands庫，如果對我的文章感興趣可以關注我，如果有想了解的Python庫也可以在評論留言，我將采納你們的意見寫一篇文章來分享給大家。

鄭重聲明：本文內容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權歸原作者所有，如有侵權請聯(lián)系管理員(admin#wlmqw.com)刪除。

內容標簽節(jié)點

OPPO K10 家族新成員 OPPO K10x 驚喜上線

上一篇 2022年9月14日 12:22

阿里豪擲84億盤下新加坡第一高樓，支付寶女王彭蕾也悄然移民于此

下一篇 2022年9月14日 12:22

社會
冰雪狂歡進行時，四季沐歌空氣能冰雪挑戰(zhàn)賽邀你#雪戰(zhàn)到底一起熱力曬
在銀裝素裹的哈爾濱亞布力滑雪場,皚皚白雪覆蓋著連綿山巒,宛如一幅天然的冰雪畫卷。這里,不僅是滑雪愛好者的天堂,更是一場集冰雪體育競技、娛樂體驗與綠色科技展示于一體的冰雪盛會,也是四…
社會 2025年2月22日
147
社會
在零下30℃的極寒哈爾濱，空氣能十大品牌四季沐歌燃起全民冰雪熱情
在銀裝素裹的北國冰城哈爾濱,奇幻的冰雪盛宴和盛大的冰雪賽事吸引了整個亞洲的目光。而在這片冰雪世界中,一場別開生面的四季沐歌空氣能全民冰雪挑戰(zhàn)賽正在點燃人們的熱情。這不僅是一場吸引了…
社會 2025年2月14日
166
社會
#雪戰(zhàn)到底一起熱力曬，四季沐歌空氣能抖音冰雪挑戰(zhàn)賽燃起全民冰雪熱情
從冰雪季開場的“爾濱之約”到哈爾濱冰雪大世界開園、第41屆中國·哈爾濱國際冰雪節(jié)盛大開幕、哈爾濱第41屆“四季沐歌”公益冰雪集體婚禮,再到熱度爆棚的春節(jié)假期冰雪旅游以及第九屆亞洲冬…
社會 2025年2月10日
267
社會
空氣能十大品牌四季沐歌助力鄂爾多斯東城區(qū)開啟清潔取暖新時代
在綠色低碳、環(huán)保意識日益增強的今天,清潔取暖成為了各地改善民生、守護藍天的重要舉措。在這場清潔取暖變革中,鄂爾多斯東勝區(qū)邁出了堅實有力的步伐。鄂爾多斯位于內蒙古自治區(qū)西南部,冬季…
社會 2025年1月23日
220
社會
第二批捐贈物資已發(fā)車！四季沐歌助力西藏日喀則災區(qū)群眾溫暖過冬
在第一批愛心物資于1月8日送達后,四季沐歌集團捐贈的第二批愛心物資也于1月17日順利發(fā)車,1000臺采暖設備及物資馳援西藏日喀則地震災區(qū)。近日,西藏自治區(qū)日喀則市突發(fā)6.8級地震…
社會 2025年1月20日
242
社會
四季沐歌榮膺「金致獎2024年度家居消費者信賴安心交付品牌」
守正創(chuàng)新是家居行業(yè)的靈魂,也是推動行業(yè)高質量發(fā)展的不竭動力。2024年,中國家居產(chǎn)業(yè)發(fā)展經(jīng)歷了深刻變革,眾多杰出品牌和行業(yè)精英堅定不移地邁向高質量發(fā)展之路,在面對產(chǎn)業(yè)變革與不確定的…
社會 2025年1月11日
277
社會
歡樂冰雪共創(chuàng)未來——第十一屆全國大眾冰雪季啟動暨四季沐歌空氣能松花江冰雪嘉年華溫暖驛站正式開館
1月7日上午,第十一屆全國大眾冰雪季啟動儀式暨四季沐歌空氣能松花江冰雪嘉年華溫暖驛站開館儀式在哈爾濱松花江冰雪嘉年華隆重舉行。哈爾濱文化旅游規(guī)劃設計院有限公司董事長黃訓軍、市場部部…
社會 2025年1月9日
264
社會
空氣能十大品牌四季沐歌空氣能備受贊賞，推動集中供暖舒適化變革
在山東省濰坊市泰和華府小區(qū),身為空氣能十大品牌的四季沐歌空氣能熱泵以其高效、環(huán)保、節(jié)能的特點和舒適溫暖效果,受到了小區(qū)業(yè)主們的喜愛與好評。這不僅是對整個小區(qū)業(yè)主冬季采暖需求的滿足,…
社會 2025年1月3日
296
社會
他們的愛情故事 | 遇見她就是愛情最好的模樣！
“沒想到竟然真的能去參加哈爾濱冰雪集體婚禮,本來是抱著試試看的態(tài)度報名,想要給我們的愛情一份浪漫儀式感,因為她一直很向往哈爾濱的冰雪?！笨吹剿募俱甯杩諝饽芄镜墓枮I公益冰雪集體婚…
社會 2024年12月30日
215
社會
【用戶告白】第二十八期|四季沐歌空氣能收獲感謝信！為道孚縣各級師生送去溫暖與舒適
在青藏高原東南緣的鮮水河斷裂帶,有一個被群山環(huán)抱的縣城——甘孜藏族自治州道孚縣。這里地形復雜,最高海拔達5820米,平均海拔為3245米,氣候以寒冷干燥、冬長夏短著稱。在這片高寒之…
社會 2024年12月26日
616

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時間：周一至周五，10:30-18:30，節(jié)假日休息