Keen
讀完需要
6分鐘
速讀僅需 2分鐘
你有沒有遇到過這樣的問題,網(wǎng)頁里面有幾百個網(wǎng)址鏈接,需要你統(tǒng)計下來,你會一一粘貼復(fù)制到表格里嗎?
或者要統(tǒng)計公司潛在客戶的郵箱,需要通過關(guān)鍵詞去搜索,然后每個網(wǎng)頁都要點擊進去,找找看有沒有郵箱呢?
對于上面這張種大批量重復(fù)的工作,難道就沒有更好的、快捷的、簡單的解決方案嗎?
當(dāng)然是有的,今天這篇文章將給你分享 ——如何利用簡單爬蟲解決重復(fù)大量的工作。
不過,在進入教程之前,我們要聊聊:
什么是爬蟲
簡單來說,爬蟲就是一種網(wǎng)絡(luò)機器人,主要作用就是搜集網(wǎng)絡(luò)數(shù)據(jù),我們熟知的谷歌和百度等搜索引擎就是通過爬蟲搜集網(wǎng)站的數(shù)據(jù),根據(jù)這些數(shù)據(jù)對網(wǎng)站進行排序。
既然谷歌可以利用爬蟲搜集網(wǎng)站數(shù)據(jù),那我們是否能利用爬蟲幫我們搜集數(shù)據(jù)呢?
當(dāng)然是可以的。
我們可以用爬蟲做什么
前面已經(jīng)講過,如果你遇到一些重復(fù)大量的工作,其實都可以交給爬蟲來做,比如:
?搜集特定關(guān)鍵詞下的用戶郵箱?批量搜集關(guān)鍵詞?批量下載圖片?批量導(dǎo)出導(dǎo)入文章?……
比如我想搜索iphone case的相關(guān)用戶郵箱,那么可以去Google搜索iphone case這個關(guān)鍵詞,然后統(tǒng)計下相關(guān)網(wǎng)頁,把網(wǎng)址提交給爬蟲程序,接著我們就等著出結(jié)果就行了。
當(dāng)然,創(chuàng)作一個特定的爬蟲程序需要一定的技術(shù)基礎(chǔ),市面上主流都是使用python來制作爬蟲程序,不過我們今天用一個更簡單易懂的爬蟲軟件——Google Sheet,不用寫任何代碼的哦!
利用Google Sheet爬取數(shù)據(jù)
Google sheet(以下簡稱GS)是Google旗下的在線辦公套件之一,和微軟的辦公三劍客正好一一對應(yīng):
?Google doc - Word?Google sheet - Excel?Google presentation - PPT
基本上Excel上的公式都可以在GS上運行,不過GS還要另外一個公式,是Excel不具備的,也就是
IMPORTXML
我們新建一個GS,這個操作和Execl操作一致,然后在A1欄輸入我們需要爬取數(shù)據(jù)的網(wǎng)址,記得網(wǎng)址必須包含https或http,只有這種完整寫法才會生效。
然后在B1欄輸入
=importxml(A1,''//title")
在B1欄輸入完成之后我們就會得到如下數(shù)據(jù)
這樣就獲得了網(wǎng)址的SEO Title。
SEO Title出現(xiàn)在每個瀏覽器窗口的標簽處,也是網(wǎng)站呈現(xiàn)給Google搜索引擎的第一登陸點,里面包含該網(wǎng)頁的關(guān)鍵詞等重要信息。
接下來我們在C1欄輸入如下公式:
=IMPORTXML(A1,"http://meta[@name='description']/@content")
然后我們就獲得了網(wǎng)頁的Meta Description
我們能看到,剛才搜集的兩個信息就是Google SERPs中很重要的兩個元素,Title和Description,基本上要做好站內(nèi)SEO,這兩點要做好。
批量爬取網(wǎng)頁SEO信息
按照上面的兩個公式,我們分別在A1B1C1欄中輸入網(wǎng)址、Title、Description,然后A列填滿想要爬取的網(wǎng)址,B列和C列利用Excel的復(fù)制下拉選項,就是鼠標放到C1欄的右下角出現(xiàn)十字標識后,往下拉動鼠標,C列的其他欄會自動填充好C1的公式:
然后我們就得到了所有網(wǎng)址的Title和Description
統(tǒng)計完這些數(shù)據(jù)之后,我們之后就再也不用愁怎么寫SEO Title啦。
如果大家想爬取整個網(wǎng)址的Title與Description,可以把競品的網(wǎng)址全部放上來。至于如何獲取整個網(wǎng)址的鏈接,大家可以去查一下網(wǎng)址的sitemap.xml,在這里面可以找到一個網(wǎng)站所有的鏈接。
了解公式結(jié)構(gòu)
既然importxml可以批量爬取SEO Title,那么當(dāng)然也是可以爬取其他內(nèi)容的,比如郵箱地址與鏈接地址,我們先來分析一下公式結(jié)構(gòu):
=IMPORTXML(A1,"default")
A1表示所在列,default表示需要爬取的頁面內(nèi)容結(jié)構(gòu),所以我們只要修改default值,就能夠爬取更多信息,這里給大家展示一下我們在做SEO和統(tǒng)計信息中常用的值
站內(nèi)鏈接,其中的domain.com換成要統(tǒng)計的域名
//a[contains(@href, 'domain.com')]/@href
站外鏈接,其中的domain.com換成要統(tǒng)計的域名
//a[not(contains(@href, 'domain.com'))]/@href
郵箱統(tǒng)計:
//a[contains(@href, 'mailTo:') or contains(@href, 'mailto:')]/@href
社交鏈接,包括linkedin, fb, twitter
//a[contains(@href, 'linkedin.com/in') or contains(@href, 'twitter.com/') or contains(@href, 'facebook.com/')]/@href
如果你想了解更多能使用的爬蟲公式,可以參考Google 官方文檔
https://support.google.com/docs/answer/3093342?hl=zh-Hans
也可以深入了解一下xpath
https://www.w3schools.com/xml/xpath_intro.asp
(來源:外貿(mào)增長官)
以上內(nèi)容屬作者個人觀點,不代表雨果網(wǎng)立場!本文經(jīng)原作者授權(quán)轉(zhuǎn)載,轉(zhuǎn)載需經(jīng)原作者授權(quán)同意。