"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > Java를 사용하여 HTML 문서에서 데이터를 어떻게 추출할 수 있나요?

Java를 사용하여 HTML 문서에서 데이터를 어떻게 추출할 수 있나요?

2024-11-06에 게시됨
검색:429

How can I extract data from HTML documents using Java?

Java HTML 구문 분석

웹사이트에서 데이터를 얻으려면 먼저 HTML 문서의 구조를 이해해야 합니다. HTML 요소는 각 요소의 유형과 콘텐츠를 지정하는 태그를 사용하여 구성됩니다.

예를 들어 다음 HTML은 특정 CSS 클래스가 있는 div 태그를 나타냅니다.

Java에서 이 태그의 데이터를 찾고 검색하려면 Java HTML 파서 라이브러리를 사용할 수 있습니다. 한 가지 옵션은 jsoup로, jQuery와 유사한 구문을 사용하여 편리한 HTML 구문 분석을 허용합니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "
Data to be scraped
"; Document doc = Jsoup.parse(html); boolean usesClass = doc.select("div.classname").hasAttr("class"); String text = doc.select("div.classname").text(); String link = doc.select("div.classname").attr("href");

jsoup를 사용하면 요소에 특정 클래스가 있는지 쉽게 확인하고 해당 텍스트 콘텐츠를 검색하거나 원하는 클래스를 얻을 수 있습니다. 속성이 있을 수 있습니다.

최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3