有两种选择。我推荐第一个。一种是在网页请求后读取相关网页中的js和标题,通过处理程序了解获取信息的接口。通过httpclient获取所需信息。2:htmlunit框架提供的方法:javascriptexecutorjsexecutor=(javascriptexecutor)driverjsexecutor.executescript文件(“loginsubmit()”,”)这里的loginsubmit是页面中js方法的名称(页面中应该有这个js方法,当然你可以自己写一些js)。然后通过dom操作获取所需的信息。
如果您对爬网性能没有任何要求,请尝试selenium或watir。web自动化测试脚本可以很好地使用它做很多事情。使用浏览器执行js,然后从dom获取数据。另一方面,如果您知道js是通过ajax或api获取数据的,那么直接转到数据源,获取json或xml,然后处理数据