国产成人亚洲影院…,国产a∨片免费看

你有沒有遇到過這樣的問題，網(wǎng)頁里面有幾百個網(wǎng)址鏈接，需要你統(tǒng)計下來，你會一一粘貼復(fù)制到表格里嗎？

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

Keen

讀完需要

6分鐘

速讀僅需 2分鐘

你有沒有遇到過這樣的問題，網(wǎng)頁里面有幾百個網(wǎng)址鏈接，需要你統(tǒng)計下來，你會一一粘貼復(fù)制到表格里嗎？

或者要統(tǒng)計公司潛在客戶的郵箱，需要通過關(guān)鍵詞去搜索，然后每個網(wǎng)頁都要點擊進去，找找看有沒有郵箱呢？

對于上面這張種大批量重復(fù)的工作，難道就沒有更好的、快捷的、簡單的解決方案嗎？

當(dāng)然是有的，今天這篇文章將給你分享 ——如何利用簡單爬蟲解決重復(fù)大量的工作。

不過，在進入教程之前，我們要聊聊：

什么是爬蟲

簡單來說，爬蟲就是一種網(wǎng)絡(luò)機器人，主要作用就是搜集網(wǎng)絡(luò)數(shù)據(jù)，我們熟知的谷歌和百度等搜索引擎就是通過爬蟲搜集網(wǎng)站的數(shù)據(jù)，根據(jù)這些數(shù)據(jù)對網(wǎng)站進行排序。

既然谷歌可以利用爬蟲搜集網(wǎng)站數(shù)據(jù)，那我們是否能利用爬蟲幫我們搜集數(shù)據(jù)呢？

當(dāng)然是可以的。

我們可以用爬蟲做什么

前面已經(jīng)講過，如果你遇到一些重復(fù)大量的工作，其實都可以交給爬蟲來做，比如：

?搜集特定關(guān)鍵詞下的用戶郵箱?批量搜集關(guān)鍵詞?批量下載圖片?批量導(dǎo)出導(dǎo)入文章?……

比如我想搜索iphone case的相關(guān)用戶郵箱，那么可以去Google搜索iphone case這個關(guān)鍵詞，然后統(tǒng)計下相關(guān)網(wǎng)頁，把網(wǎng)址提交給爬蟲程序，接著我們就等著出結(jié)果就行了。

當(dāng)然，創(chuàng)作一個特定的爬蟲程序需要一定的技術(shù)基礎(chǔ)，市面上主流都是使用python來制作爬蟲程序，不過我們今天用一個更簡單易懂的爬蟲軟件——Google Sheet，不用寫任何代碼的哦！

利用Google Sheet爬取數(shù)據(jù)

Google sheet（以下簡稱GS）是Google旗下的在線辦公套件之一，和微軟的辦公三劍客正好一一對應(yīng)：

?Google doc - Word?Google sheet - Excel?Google presentation - PPT

基本上Excel上的公式都可以在GS上運行，不過GS還要另外一個公式，是Excel不具備的，也就是

IMPORTXML

我們新建一個GS，這個操作和Execl操作一致，然后在A1欄輸入我們需要爬取數(shù)據(jù)的網(wǎng)址，記得網(wǎng)址必須包含https或http，只有這種完整寫法才會生效。

然后在B1欄輸入

=importxml(A1,''//title")

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

在B1欄輸入完成之后我們就會得到如下數(shù)據(jù)

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

這樣就獲得了網(wǎng)址的SEO Title。

SEO Title出現(xiàn)在每個瀏覽器窗口的標簽處，也是網(wǎng)站呈現(xiàn)給Google搜索引擎的第一登陸點，里面包含該網(wǎng)頁的關(guān)鍵詞等重要信息。

接下來我們在C1欄輸入如下公式：

=IMPORTXML(A1,"http://meta[@name='description']/@content")

然后我們就獲得了網(wǎng)頁的Meta Description

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

我們能看到，剛才搜集的兩個信息就是Google SERPs中很重要的兩個元素，Title和Description，基本上要做好站內(nèi)SEO，這兩點要做好。

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

批量爬取網(wǎng)頁SEO信息

按照上面的兩個公式，我們分別在A1B1C1欄中輸入網(wǎng)址、Title、Description，然后A列填滿想要爬取的網(wǎng)址，B列和C列利用Excel的復(fù)制下拉選項，就是鼠標放到C1欄的右下角出現(xiàn)十字標識后，往下拉動鼠標，C列的其他欄會自動填充好C1的公式:

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

然后我們就得到了所有網(wǎng)址的Title和Description

零基礎(chǔ)也能使用的SEO爬蟲公式 - 提升你的10倍工作效率

統(tǒng)計完這些數(shù)據(jù)之后，我們之后就再也不用愁怎么寫SEO Title啦。

如果大家想爬取整個網(wǎng)址的Title與Description，可以把競品的網(wǎng)址全部放上來。至于如何獲取整個網(wǎng)址的鏈接，大家可以去查一下網(wǎng)址的sitemap.xml，在這里面可以找到一個網(wǎng)站所有的鏈接。

了解公式結(jié)構(gòu)

既然importxml可以批量爬取SEO Title，那么當(dāng)然也是可以爬取其他內(nèi)容的，比如郵箱地址與鏈接地址，我們先來分析一下公式結(jié)構(gòu)：

=IMPORTXML(A1,"default")

A1表示所在列，default表示需要爬取的頁面內(nèi)容結(jié)構(gòu)，所以我們只要修改default值，就能夠爬取更多信息，這里給大家展示一下我們在做SEO和統(tǒng)計信息中常用的值

站內(nèi)鏈接，其中的domain.com換成要統(tǒng)計的域名

//a[contains(@href, 'domain.com')]/@href

站外鏈接，其中的domain.com換成要統(tǒng)計的域名

//a[not(contains(@href, 'domain.com'))]/@href

郵箱統(tǒng)計：

//a[contains(@href, 'mailTo:') or contains(@href, 'mailto:')]/@href

社交鏈接，包括linkedin, fb, twitter

//a[contains(@href, 'linkedin.com/in') or contains(@href, 'twitter.com/') or contains(@href, 'facebook.com/')]/@href

如果你想了解更多能使用的爬蟲公式，可以參考Google 官方文檔

https://support.google.com/docs/answer/3093342?hl=zh-Hans

也可以深入了解一下xpath

https://www.w3schools.com/xml/xpath_intro.asp

（來源：外貿(mào)增長官）
以上內(nèi)容屬作者個人觀點，不代表雨果網(wǎng)立場！本文經(jīng)原作者授權(quán)轉(zhuǎn)載，轉(zhuǎn)載需經(jīng)原作者授權(quán)同意。