IT培訓(xùn)-高端面授IT培訓(xùn)機(jī)構(gòu)
          云和教育:云和數(shù)據(jù)集團(tuán)高端IT職業(yè)教育品牌
          • 國(guó)家級(jí)
            全民數(shù)字素養(yǎng)與技能培訓(xùn)基地
          • 河南省
            第一批產(chǎn)教融合型企業(yè)建設(shè)培育單位
          • 鄭州市
            數(shù)字技能人才(碼農(nóng))培養(yǎng)評(píng)價(jià)聯(lián)盟
          當(dāng)前位置:
          首頁(yè)IT問(wèn)答正文

          如何利用Java爬取網(wǎng)站數(shù)據(jù)?

          • 發(fā)布時(shí)間:
            2022-11-29
          • 版權(quán)所有:
            云和教育
          • 分享:

          1.Jsoup介紹

           

          – 官網(wǎng)文檔:https://jsoup.org

          – Jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過(guò)DOM,CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)。

          2. Jsoup快速入門

          – 獲取網(wǎng)頁(yè)標(biāo)題

            String url = "https://search.jd.com/Search?keyword=手機(jī)&wq=手機(jī)&page=1";
            Document document = Jsoup.connect(url).get();
            String title = document.select("title").text();
            System.out.println(title);
            ```

          – 運(yùn)行效果:手機(jī) – 商品搜索 – 京東

          3. 網(wǎng)站數(shù)據(jù)分析

          3.1 分析網(wǎng)站的訪問(wèn)地址

          – 以京東商城為例,商品分頁(yè)列表的url地址,需要帶如下幾個(gè)參數(shù),因此,在發(fā)送http請(qǐng)求時(shí),需要攜帶正確的參數(shù)。

          – URL:https://search.jd.com/Search?keyword=手機(jī)&wq=手機(jī)&page=1

          3.2 分析網(wǎng)站的頁(yè)面結(jié)構(gòu)

          – 通過(guò)瀏覽器的開發(fā)者工具,可以分析出頁(yè)面中我們需要的html結(jié)構(gòu)。

          <img src="assets/image-20220717171103097.png" alt="image-20220717171103097" style="zoom:67%;" />

          – 可以看出,我們需要的商品數(shù)據(jù),封裝在一個(gè)id=J_goodsList的div標(biāo)簽中,我們可以方便的通過(guò)DOM解析出這塊數(shù)據(jù)。

          4. 實(shí)戰(zhàn)實(shí)現(xiàn)過(guò)程

          – 獲取第1頁(yè)的商品基本數(shù)據(jù)

          public static void main(String[] args) throws Exception {
              //第1頁(yè)地址
              String url = "https://search.jd.com/Search?keyword=手機(jī)&wq=手機(jī)&page=1";
              //發(fā)送http請(qǐng)求
              Document document = Jsoup.connect(url).get();
              //在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標(biāo)簽
              Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
              lis.forEach(
                      li -> {
                          //獲取商品sku
                          String sku = li.attr("data-sku");
                          //獲取商品name
                          String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                          //獲取商品圖片地址
                          String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");
                         
                          System.out.println(String.format("%s, %s, %s", sku, name, img));
                      }
              );
          }

          – 效果預(yù)覽

          1665718155423_1.jpg

          – 改造為分頁(yè)獲取

          public static void main(String[] args) throws Exception {
              //第N頁(yè)地址
              String url = "https://search.jd.com/Search?keyword=手機(jī)&wq=手機(jī)&page=" + i;
              //發(fā)送http請(qǐng)求
              Document document = Jsoup.connect(url).get();
              //在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標(biāo)簽
              Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
              lis.forEach(
                      li -> {
                          //獲取商品sku
                          String sku = li.attr("data-sku");
                          //獲取商品name
                          String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                          //獲取商品圖片地址
                          String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");
          
                          System.out.println(String.format("%s, %s, %s", sku, name, img));
                      }
              );
          }