English

如何使用海葵抓取动态内容

海葵是全球首款可抓取网页动态数据的软件。
抓取动态内容的几种方式:
1.等待一段时间再抓
有些动态内容在页面装载完成后必须等一段时间才会生成,用户可发送wait-time命令让海葵在抓取前等一段时间,这样就可以抓到数据了。
2.执行javascript后再抓
对于某些由网页中特定javascript函数生成的内容,用户亦可以通过海葵执行。方法是:EXEC javascript函数。
如:EXEC test()
3.模拟点击后再抓
对于单击按钮后才能生成的数据,用海葵亦可模拟点击抓取。方法是取得该按钮的绝对xpath值,然后执行EXEC getNodeByXPath(xpath).onclick()
如:EXEC getNodeByXPath('//input[1]').onclick()
意即模拟点击页面上第一个按钮。getNodeByXPath是海葵提供的一个方法,可由绝对xpath得到相对应的节点。
4.发送特定HTTP请求头后再抓
这需使用一个或多个http-header命令来完成。如发送:
http-header user-agent: good
http-header referer: http://www.google.com
等。
让我们用海葵,去抓取互联网上未被发现的数据!
产品族: 海狮 海猫 海葵 海蛛 海鹞 海星 海狗 WBXL Xultray webapp
iDocSet iDocSetHelper 雨燕 templateJS skiafy tranid 犀利播放器 犀利助手
(C) 2020 抓糖网 版权所有

update: 2013-06-07