谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網(wǎng)友問微軟慌不慌 |
發(fā)布時間:2022-10-20 文章來源:本站 瀏覽次數(shù):2680 |
家人們,要爬蟲——現(xiàn)在用一個電子表格就行了。 一行代碼也別寫,第三方軟件也甭安。 只需在表格里點幾下就ok。 不信,你瞧: 就這么兩下,網(wǎng)頁上的產(chǎn)品信息都有了。 網(wǎng)友看完都驚呆了,碼個不斷。 一看到這是來自谷歌的產(chǎn)品(Google Sheet,谷歌的“Excel”),大家就立馬cue起了微軟,問它慌不慌。 還有人稱這是在“跨界打擊”它。 (手動狗頭) 好不熱鬧。 來看具體怎么實現(xiàn)。 具體過程以爬亞馬遜某個手機產(chǎn)品的產(chǎn)品頁為例。 咱們先翻開谷歌Sheet(網(wǎng)友版即可),新建一個文檔。 然后copy一下要爬的網(wǎng)址,粘進去。 剩下的都在Sheet里完成。 咱們先列一下要爬的元素,這兒依次為: 產(chǎn)品圖片-識別碼(asin,亞馬遜給每個產(chǎn)品生成的唯一標識)-產(chǎn)品名-價格-評分-圖片網(wǎng)址。 然后就能夠正式開端爬了。 要訣便是一個叫做ImportFromWeb的函數(shù)。 它也是個插件,沒有的需求先裝置一下(裝置地址放文末端),然后通過Google Sheet程序的“擴展程序”菜單導入就行。 咱們只需把ImportFromWeb函數(shù)放進asin那一列,然后第一個參數(shù)選中剛剛粘過來的網(wǎng)址,第二個參數(shù)把要爬的元素單元格拖一遍(除了“圖片”)。 稍等個1~2s,價格、產(chǎn)品名等信息就都出來了! 還差圖片。 簡單~基操~ 用IMAGE函數(shù)把G3格子里得到的圖片網(wǎng)址值給曩昔就行。 至此,第一個產(chǎn)品頁里的東西就爬到了。 唯一麻煩的是,假如還需求爬更多產(chǎn)品的信息,需求把產(chǎn)品網(wǎng)址挨個粘一遍。 然后就沒啥了,除了給單元格地址的行標列標加一下絕對引用符“$”。 這兒能夠不學視頻,直接一個f4就行。 拖一下,全部搞定! 怎么樣?是不是非常方便。 看完整個操作,你也發(fā)現(xiàn)了,其實便是谷歌寫了個腳本給咱封裝好了直接用。 而據(jù)官方介紹,這個ImportFromWeb功能還能自動更新爬取到的信息。 并且只要是用JS寫的網(wǎng)站都能夠爬(根本等于絕大數(shù)網(wǎng)站了),每個函數(shù)還可支持50個url,以及數(shù)千個數(shù)據(jù)點。 |
|