已收藏,可在 我的資料庫 中查看
關(guān)注作者
您可能還需要

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

你有沒有遇到過這樣的問題,網(wǎng)頁里面有幾百個網(wǎng)址鏈接,需要你統(tǒng)計下來,你會一一粘貼復(fù)制到表格里嗎?

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

Keen

讀完需要

6分鐘

速讀僅需 2分鐘

你有沒有遇到過這樣的問題,網(wǎng)頁里面有幾百個網(wǎng)址鏈接,需要你統(tǒng)計下來,你會一一粘貼復(fù)制到表格里嗎?

或者要統(tǒng)計公司潛在客戶的郵箱,需要通過關(guān)鍵詞去搜索,然后每個網(wǎng)頁都要點擊進去,找找看有沒有郵箱呢?

對于上面這張種大批量重復(fù)的工作,難道就沒有更好的、快捷的、簡單的解決方案嗎?

當(dāng)然是有的,今天這篇文章將給你分享 ——如何利用簡單爬蟲解決重復(fù)大量的工作。

不過,在進入教程之前,我們要聊聊:

什么是爬蟲

簡單來說,爬蟲就是一種網(wǎng)絡(luò)機器人,主要作用就是搜集網(wǎng)絡(luò)數(shù)據(jù),我們熟知的谷歌和百度等搜索引擎就是通過爬蟲搜集網(wǎng)站的數(shù)據(jù),根據(jù)這些數(shù)據(jù)對網(wǎng)站進行排序。

既然谷歌可以利用爬蟲搜集網(wǎng)站數(shù)據(jù),那我們是否能利用爬蟲幫我們搜集數(shù)據(jù)呢?

當(dāng)然是可以的。

我們可以用爬蟲做什么

前面已經(jīng)講過,如果你遇到一些重復(fù)大量的工作,其實都可以交給爬蟲來做,比如:

?搜集特定關(guān)鍵詞下的用戶郵箱?批量搜集關(guān)鍵詞?批量下載圖片?批量導(dǎo)出導(dǎo)入文章?……

比如我想搜索iphone case的相關(guān)用戶郵箱,那么可以去Google搜索iphone case這個關(guān)鍵詞,然后統(tǒng)計下相關(guān)網(wǎng)頁,把網(wǎng)址提交給爬蟲程序,接著我們就等著出結(jié)果就行了。

當(dāng)然,創(chuàng)作一個特定的爬蟲程序需要一定的技術(shù)基礎(chǔ),市面上主流都是使用python來制作爬蟲程序,不過我們今天用一個更簡單易懂的爬蟲軟件——Google Sheet,不用寫任何代碼的哦!

利用Google Sheet爬取數(shù)據(jù)

Google sheet(以下簡稱GS)是Google旗下的在線辦公套件之一,和微軟的辦公三劍客正好一一對應(yīng):

?Google doc - Word?Google sheet - Excel?Google presentation - PPT

基本上Excel上的公式都可以在GS上運行,不過GS還要另外一個公式,是Excel不具備的,也就是

IMPORTXML

我們新建一個GS,這個操作和Execl操作一致,然后在A1欄輸入我們需要爬取數(shù)據(jù)的網(wǎng)址,記得網(wǎng)址必須包含https或http,只有這種完整寫法才會生效。

然后在B1欄輸入

=importxml(A1,''//title")

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

在B1欄輸入完成之后我們就會得到如下數(shù)據(jù)

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

這樣就獲得了網(wǎng)址的SEO Title。

SEO Title出現(xiàn)在每個瀏覽器窗口的標簽處,也是網(wǎng)站呈現(xiàn)給Google搜索引擎的第一登陸點,里面包含該網(wǎng)頁的關(guān)鍵詞等重要信息。

接下來我們在C1欄輸入如下公式:

=IMPORTXML(A1,"http://meta[@name='description']/@content")

然后我們就獲得了網(wǎng)頁的Meta Description

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

我們能看到,剛才搜集的兩個信息就是Google SERPs中很重要的兩個元素,Title和Description,基本上要做好站內(nèi)SEO,這兩點要做好。

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

批量爬取網(wǎng)頁SEO信息

按照上面的兩個公式,我們分別在A1B1C1欄中輸入網(wǎng)址、Title、Description,然后A列填滿想要爬取的網(wǎng)址,B列和C列利用Excel的復(fù)制下拉選項,就是鼠標放到C1欄的右下角出現(xiàn)十字標識后,往下拉動鼠標,C列的其他欄會自動填充好C1的公式:

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

然后我們就得到了所有網(wǎng)址的Title和Description

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

統(tǒng)計完這些數(shù)據(jù)之后,我們之后就再也不用愁怎么寫SEO Title啦。

如果大家想爬取整個網(wǎng)址的Title與Description,可以把競品的網(wǎng)址全部放上來。至于如何獲取整個網(wǎng)址的鏈接,大家可以去查一下網(wǎng)址的sitemap.xml,在這里面可以找到一個網(wǎng)站所有的鏈接。

了解公式結(jié)構(gòu)

既然importxml可以批量爬取SEO Title,那么當(dāng)然也是可以爬取其他內(nèi)容的,比如郵箱地址與鏈接地址,我們先來分析一下公式結(jié)構(gòu):

=IMPORTXML(A1,"default")

A1表示所在列,default表示需要爬取的頁面內(nèi)容結(jié)構(gòu),所以我們只要修改default值,就能夠爬取更多信息,這里給大家展示一下我們在做SEO和統(tǒng)計信息中常用的值

站內(nèi)鏈接,其中的domain.com換成要統(tǒng)計的域名

//a[contains(@href, 'domain.com')]/@href

站外鏈接,其中的domain.com換成要統(tǒng)計的域名

//a[not(contains(@href, 'domain.com'))]/@href

郵箱統(tǒng)計

//a[contains(@href, 'mailTo:') or contains(@href, 'mailto:')]/@href

社交鏈接,包括linkedin, fb, twitter

//a[contains(@href, 'linkedin.com/in') or contains(@href, 'twitter.com/') or contains(@href, 'facebook.com/')]/@href

如果你想了解更多能使用的爬蟲公式,可以參考Google 官方文檔

https://support.google.com/docs/answer/3093342?hl=zh-Hans

也可以深入了解一下xpath

https://www.w3schools.com/xml/xpath_intro.asp

(來源:外貿(mào)增長官)
以上內(nèi)容屬作者個人觀點,不代表雨果網(wǎng)立場!本文經(jīng)原作者授權(quán)轉(zhuǎn)載,轉(zhuǎn)載需經(jīng)原作者授權(quán)同意。

相關(guān)標簽:

分享到:

--
評論
最新 熱門 資訊 資料 專題 服務(wù) 果園 標簽 百科 搜索

收藏

--

--

分享
keen聊獨立站
分享不易,關(guān)注獲取更多干貨