首页 > 编程知识 正文

js爬虫修改代码(爬虫修改网页)

时间:2023-12-24 12:05:52 阅读:321156 作者:OIZS

本文目录一览:

前端js爬虫?

纯粹前端的js 是不能 跨域 获取 cookie的

xxx.com 的js 代码 只能得到 xxx.com的cookie,拿不到 yyy.com

当然如果你有办法 在 yyy.com 写入受到自己控制的 html文件,你就可以写代码去拿到 对应的cookie,但看你的需求 应该你没有yyy.com 的权限

所以 要结合其他方案,推荐一下两种:

使用 electron ,electron 你可以认为是受js控制的浏览器引擎,所以你可以用它访问 yyy.com 拿到cookie,再接着做你的事情

或者 使用 puppeteer(Google 官方出品的 headless Chrome node 库)

Puppeteer 提供了一系列的 API,可以在无 UI 的情况下调用 Chrome 的各种功能,适用于爬虫、自动化处理等各种情景。

如何使用nodejs做爬虫程序

目标

抓取网站上的妹子照片。

第三方模块

superagent : 第三方Nodejs 模块,用于处理服务器和客户端的Http请求。

cheerio : 为服务器端定制的Jquery实现。

思路

通过superagent 获取目标网站的dom

通过cheerio对dom进行解析,获得通用布局。

如果只是爬取一个页面,则可以直接将目标页面的目标元素获取

如果是分页或者多个页面,可以通过循环获得目标链接,进行多次抓取。

实现

这里我们实现一个抓取网站妹子的照片。

目标网址: (对于该网站,并没有恶意攻击的意思.)

代码如下:

//引入第三方和通用模块

var fs = require('fs');//为了将抓取的图片存到本地,使用fs

var superagent = require('superagent');//引入superagent

var cheerio = require('cheerio');//引入jquery实现

 

var filePath = '/node/学习/sis/img/';//定义抓取妹子文件存放路径

var count = 0;//记录抓取数量

var test = [];

//抓取一个页面的实现。

var getOnePage = function(url){

    //因为煎蛋对请求做了限制,所以将cookie加上了。如果你要访问该网站的话,可以通过a href=";tn=44039180_cprfenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1d9n1DdmWFhuj-9P1c1nWwb0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EPjRLP1msP1TzPjTYnj0vnjfd" target="_blank" class="baidu-highlight"浏览器/a查找cookie 并进行替换

    superagent.get(url)

    .set({

            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'

    })

    .set('cookie','500322148=53; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454117846; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454119909')

    .set({

        'accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'connection' : 'keep-alive',

        'host' : 'jandan.net'

    })

    .end(function(err,sres){//这里是对获取的dom进行处理

        if(err)throw err;

        var $ = cheerio.load(sres.text);

        var nextUrl = $('.previous-comment-page').attr('href');//获得下一页的链接,为了开始下一次请求

        $('img').each(function(index,ele){//循环该页面的所有图片并得到对应的链接,放进数组。

            var u = '';

            if($(ele).attr('org_src')){

                u = $(ele).attr('org_src');

            }else{

                u = $(ele).attr('src');    

            }

            test.push(u);

            //通过superagent 获取图片数据,并保存到本地。

            superagent.get(u).end(function(err,sres){

                if(err)throw err;

                //根据访问路径获得文件名称

                var ttt = u.split('/');

                var name = ttt[ttt.length-1];

                var path = filePath+name

                fs.writeFile(path,sres.body,function(){

                    count++;

                    console.log(u);

                    console.log('已成功抓取..'+count+'张');

                });

            });

        });

        if(null != nextUrl  '' != nextUrl){ //何时开始下一次请求

            getOnePage(nextUrl);

        }

    }); 

 

};

 

getOnePage('');//触发第一次请求开始

爬虫如何处理js动态

我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了-换selector解决

2、有些数据保存在js/json对象中-截取对应的串,分析解决

3、通过api接口调用-伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

怎么动态修改js中代码?

这里只是片段,如果是一个封装起来的属性,是没法修改的,我们只能将它当做一个对象来修改后,再执行。如:

var a = {

   gConfig:{

       url:"1.jpg",

       id:"gameDiv",

       size:"4*4",

       margin:1,

       opacity:0.8

       }

};

那么修改url和opacity可以写为a.gConfig.url = 'newUrl';a.gConfig.opacity = 0.9;也可以直接修改a.gConfig = {}。

直接修改文档内容是不对的。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。