liderando os analisadores html html: forças e fraquezas
No ecossistema Java, escolhendo o parser que html direito pode ser crucial para várias tarefas de automação da web. Vários analisadores recomendados incluem JTidy, Nekohtml, JSoup e Tagsoup. Cada um oferece recursos e desvantagens exclusivos. Eles variam em sua tolerância ao HTML não bem-sucedido, com Jtidy, Nekohtml, Tagsoup e Htmlcleaner fornecendo "TagSoup" funcionalidade. Fornecendo uma API do tipo navegador da web sem cabeça. Ele permite ações como envio de formulário, execução de JavaScript e teste de página da web. Sua força está em sua facilidade de uso e eficiência da árvore dom. Xpath:
string paragraph1 = (xpath.compile ("//*[@id = 'question'] //*[contém (@classe, 'post-text')] // p [1]")). Xpathconstants.node) .getfirstchild (). GetNodEvalue ();
jsoup:
elemento question = document.select ("#question .post-text p"). Primeiro (); String paragraph1 = question.text ();
A sintaxe concisa e os seletores baseados em CSS do jsoup facilitam a navegação estruturas html e recuperaram dados específicos. Projeto:para o padrão DOM Traversal: jtidy, nekohtml, tagSoup
para testar a unidade HTML: htmlunit
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3