抓取url \如何获取node.js中的dynamic链接

我正在使用js-crawler来抓取网站,现在遇到了CNN, 它的着陆页链接的一部分在里面 (由于某种原因dynamic生成的url)。 事情是爬行者不真的碰脚本 – 我应该如何解决? 我应该写我自己的代码除了我的node.js履带? 有知道如何处理这种dynamic行为的高级爬虫吗?

       

网上收集的解决方案 "抓取url \如何获取node.js中的dynamic链接"

让我的评论成为一个答案:

抓取客户端Javascript生成的内容是一个复杂的问题,甚至连Google都没有完全解决。

要真正做到这一点,唯一的方法就是使用某种无头浏览器,将其安全地放置在服务器上,将页面加载到类似浏览器的环境中,在该环境下它可以运行自己的脚本并生成自己的内容,然后可以检查产生的DOM。

即使这样,它也不一定会产生需要用户交互的内容(如点击标签显示一些内容)。