IT培訓-高端面授IT培訓機構
          云和教育:云和數據集團高端IT職業教育品牌
          • 國家級
            全民數字素養與技能培訓基地
          • 河南省
            第一批產教融合型企業建設培育單位
          • 鄭州市
            數字技能人才(碼農)培養評價聯盟

          Java培訓:使用JAVA爬取網站數據

          • 發布時間:
            2022-12-14
          • 版權所有:
            云和教育
          • 分享:

          1.Jsoup介紹

          – 官網文檔:https://jsoup.org  - Jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。

          2. Jsoup快速入門

          – 獲取網頁標題

          String url = “https://search.jd.com/Search?keyword=手機&wq=手機&page=1”;
          Document document = Jsoup.connect(url).get();
          String title = document.select(“title”).text();
          System.out.println(title);
          “`
          – 運行效果:手機 – 商品搜索 – 京東

          3. 網站數據分析

          3.1 分析網站的訪問地址

          – 以京東商城為例,商品分頁列表的url地址,需要帶如下幾個參數,因此,在發送http請求時,需要攜帶正確的參數。

          – URL:https://search.jd.com/Search?keyword=手機&wq=手機&page=1

          3.2 分析網站的頁面結構

          – 通過瀏覽器的開發者工具,可以分析出頁面中我們需要的html結構。

          <img src=”assets/image-20220717171103097.png” alt=”image-20220717171103097″ style=”zoom:67%;” />
          – 可以看出,我們需要的商品數據,封裝在一個id=J_goodsList的div標簽中,我們可以方便的通過DOM解析出這塊數據。

          4. 實戰實現過程

          – 獲取第1頁的商品基本數據

          public static void main(String[] args) throws Exception {
          //第1頁地址
          String url = “https://search.jd.com/Search?keyword=手機&wq=手機&page=1”;
          //發送http請求
          Document document = Jsoup.connect(url).get();
          //在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標簽
          Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”);
          lis.forEach(
          li -> {
          //獲取商品sku
          String sku = li.attr(“data-sku”);
          //獲取商品name
          String name = li.select(“div[class=’p-name p-name-type-2′] a em”).text();
          //獲取商品圖片地址
          String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”);

          System.out.println(String.format(“%s, %s, %s”, sku, name, img));
          }
          );
          }
          – 效果預覽

          1665718155423_1.jpg

          – 改造為分頁獲取

          public static void main(String[] args) throws Exception {
          //第N頁地址
          String url = “https://search.jd.com/Search?keyword=手機&wq=手機&page=” + i;
          //發送http請求
          Document document = Jsoup.connect(url).get();
          //在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標簽
          Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”);
          lis.forEach(
          li -> {
          //獲取商品sku
          String sku = li.attr(“data-sku”);
          //獲取商品name
          String name = li.select(“div[class=’p-name p-name-type-2′] a em”).text();
          //獲取商品圖片地址
          String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”);

          System.out.println(String.format(“%s, %s, %s”, sku, name, img));
          }
          );