Articles of cheerio

Node.js Cheerioparsing器打破UTF-8编码

我像Cheerio一样parsing我的请求: var url = http://shop.nag.ru/catalog/16939.IP-videonablyudenie-OMNY/16944.IP-kamery-OMNY-c-vario-obektivom/16704.OMNY-1000-PRO; request.get(url, function (err, response, body) { console.log(body); $ = cheerio.load(body); console.log($(".description").html()); }); 而作为输出,我看到的内容,但在不可读的奇怪的编码: //Plain body console.log(body) (ps russian chars): <h1><span style="font-size: 16px;">Уличная 3Мп IP HD камера OMNY – попробуйте найти лучше</span></h1><p style // cheerio's console.log $(".description").html() <h1><span style="font-size: 16px;">Уличная 3Мп IP HD камера OMNY 目标url链接编码采用UTF-8格式。 那么为什么Cheerio打破了我的编码? 试图使用iconv来编码我的身体响应: var body1 = […]

获取TypeError:当使用cheerio和jsonframe进行刮取时,selector.includes不是一个函数

我正试图用下面的代码来废弃一个网站: const cheerio = require('cheerio'); const jsonframe = require('jsonframe-cheerio'); const $ = cheerio.load('https://coinmarketcap.com/all/views/all/'); jsonframe($); // initializes the plugin //exception handling process.on('uncaughtException', err => console.error('uncaught exception: ', err)) process.on('unhandledRejection', (reason, p) => console.error('unhandled rejection: ', reason, p)) const frame = { "crypto": { "selector": "tbody > tr", "data": [{ "name": "td:nth-child(2) > a:nth-child(3)", "url": { "selector": […]

Nodejs网页抓取与authenticationcookie

最近我试图从网站( kicktipp )使用Nodejs, 请求模块和cheerio刮取信息。 由于本网站需要身份validation才能查看其大部分网站,我尝试通过发布请求login,并检查用户是否使用以下代码login(我用虚拟数据replace了凭据,但在实际脚本中使用了真实数据): var request = require('request'); var jar = request.jar(); var request = request.defaults({ jar: jar, followAllRedirects: true }); var jar = request.jar(); var cheerio = require('cheerio'); request.post({ url: 'http://www.kicktipp.de/info/profil/loginaction', headers: { 'content-type': 'application/x-www-form-urlencoded' }, method: 'post', jar: jar, body: 'kennung=test@example.com&passwort=1234567890&_charset_=UTF-8&submitbutton=Anmelden' }, function(err, res, body){ if(err) { return console.error(err); }; request.get({ url: […]

如何使用cheerio获取脚本内容

我正在使用cheerio库,并试图让这个脚本字段 – script type="application/json"但由于某种原因,它无法find这些脚本标签。 哪里不对? 我该如何解决? var $ = require('cheerio') var parsedHTML = $.load(html) console.log( parsedHTML('script').get().length ); // this is 0

我如何使用node.jsdynamic内容页面?

我试图刮一个网站,但我没有得到一些元素,因为这些元素是dynamic创build的。 我在node.js中使用cheerio,我的代码如下所示。 var request = require('request'); var cheerio = require('cheerio'); var url = "http://www.bdtong.co.kr/index.php?c_category=C02"; request(url, function (err, res, html) { var $ = cheerio.load(html); $('.listMain > li').each(function () { console.log($(this).find('a').attr('href')); }); }); 这段代码返回空的响应,因为当页面被加载时, <ul id="store_list" class="listMain">是空的。 内容尚未附上。 如何使用node.js获取这些元素? 我如何刮dynamic内容的网页?

我可以使用node.js中的cheerio包加载本地html文件吗?

我有我的硬盘上的几个HTML文件,我想使用jquery从中提取数据。 这是可能做到使用cheerio? 我试图给当地的路上加油,但它不起作用。 我想到的一个想法是在节点中创build一个web服务器,从html文件中读取数据,然后通过服务器将其连接到cheerio,