python爬虫遇到crypto加密

mac2024-03-26  33

@TOC

爬虫遇到crypto加密

这几天疯狂加班么的时间写blog,今天处理的快,写一写之前无意见到的很厉害的网站,看了看还是网易易盾写的呢好像?全国建筑市场监管公共服务平台里的企业数据(话说这些都是公开的应该不会是面向监狱编程吧?)

企业数据及详情页被加密

前情提要:如果你还不知道requests或者getpost或者n多基础知识你还是先学学别的,不要老想着一步到胃 想啥呢 得到的数据是这样婶的

95780ba0943730051dccb5fe3918f9fe4c6612ab8a332ee7d1067088471faa62e290207d953d46d3a1225f20c0fde9f49ea47fe35a8\

观察这个URL, 不管翻页多少次URL前一段是固定的,就在sources全局搜这个url(你应该会用f12的对吧?)现在开始讲咋解出来的

解法

一段段减这个url 到

dataservice/query/comp/list

搜着了嘿嘿 搜到了在哪个页面里 再进入页面继续ctrl+f寻找这个在哪一行,然后打上断点 点翻页,看看从这里获得的数据怎么被加密的,跳跳跳,发现了,加密函数一般就这diao样

t.interceptors.response.use((function(t) { var e = JSON.parse(p(t.data)); return e }

JSON.parse(p(t.data)) 稍微会一点编程的就知道,用了p这个函数,传进去了t.data,点进这个p函数 可以在console里print一下e,让程序运行过加密方法后再print,能看到e里面就是想要的数据啦,还贴心的是json格式

function p(t) { var e = o.a.enc.Hex.parse(t) , n = o.a.enc.Base64.stringify(e) , a = o.a.AES.decrypt(n, u, { iv: d, mode: o.a.mode.CBC, padding: o.a.pad.Pkcs7 }) , i = a.toString(o.a.enc.Utf8); return i.toString() }

先hex、base64加密 然后aes解密 CBC、PKcs7 如果不了解随便百度个解码网站你点解aes就能看到他有几种模式 这样出来你觉得到底是对数据加密了呢,还是对数据解码了呢? 当然是解码了,因为使用aes加密后输出的可以是base64或者hex的码,再把它解base64和hex(我有点乱 还不是很懂哈哈)。 既然知道了加密方式,接下来就要写js程序解啦,是不是不知道怎么写,或者想着难道我还要再去整个ide整个环境写js?当然那是不可能的,pycharm还可以写js信不信? pycharm是真的diao! 去网站下个node.js 然后 去python里pip(此处百度) 然后cmd npm install crypto-js (不要写成nmp。。。) 重启pycharm,创建js的文件,开始写

写js

对了,要加解码aes还要知道密码和偏移量iv,这个网站很人性化的就给你写上面了哈哈

, u = o.a.enc.Utf8.parse("jo8j9wGw%6HbxfFn") , d = o.a.enc.Utf8.parse("0123456789ABCDEF");

然后照着他的写法,开始写(我还不是很懂js,此处源码是在网上找到的)

data='' /** * @return {string} */ function Aes(data) { module.paths.push("C:\\Users\\Administrator\\AppData\\Roaming\\npm\\node_modules"); let CryptoJS=require('crypto-js'); var u= CryptoJS.enc.Utf8.parse("jo8j9wGw%6HbxfFn"), d = CryptoJS.enc.Utf8.parse("0123456789ABCDEF"); e = CryptoJS.enc.Hex.parse(data); n = CryptoJS.enc.Base64.stringify(e); return_data = CryptoJS.AES.decrypt(n, u, { iv: d, mode: CryptoJS.mode.CBC, padding: CryptoJS.pad.Pkcs7 }).toString(CryptoJS.enc.Utf8); return return_data; } result=Aes(data); console.info(result);

上面的data是从网页里提出来的一个 let 相当与 import module是声明安装的cryptjs(或说所有的module)在哪 run一下 得到的数据就不全粘贴出来了,太多了哗啦哗啦的,跟你在console里看到的一样

{“code”:200,“data”:{“list”:[{“RN”:1,“QY_ID”:“0D0D0C0B0D0A0F0F0D0D080A0C0409090F09”,“QY_ORG_CODE”:“9113010060118700X3”,“QY_NAME”

把他封装成方法之后请求页面之后就调用这个方法解码,可以把得到的数据json.loads一下,更方便了有木有。

总结一下

用js加密的页面还有很多,之前看见的天津公共资源交易写的更奇怪,都是匿名函数写的加密方法,而且也不会像这个网页一样直接iv和密码都给你了,感觉要想学好爬虫还得学学js,如果爬app可能还得学学安卓哈哈,不然是真的学不好。 当然,破解这个网站的方法还有很多,selenium分分钟解千愁,requests文档写的解决一切难题我觉得是吹牛,但是把他写的给selenium完全适用,只不过selenium的效率太差了,click也经常嗝屁,如果像我这样学习的看管们时候就要用更难一点的方法不要用selenium,就这个建筑市场里的企业信息起码是百万级别,更何况里面还有具体的信息,人员信息,你想用selenium爬完是不现实的(其实是selenium用不了。。。我也很无奈) 至于具体用requests还是scrapy 我觉得还是得具体分析,有的网站贼贱,真的是太贱了,我看了都想打死写这网页的,标签不封上的(还有你看到的标签跟爬到的标签不一样的你气不气,因为浏览器自动帮它合上了(规范化了)),你这种网页也能编译过是真的无敌,欺负我不懂?还有那种看着是位置都一样,f12检查一看都不一样,这个是li 那个是ul然后是span然后是a 一样的信息换个网页就是不一样的标签里,还有需要很多操作才能翻页的网页,如果是那种特别千篇一律的网页可以用scrapy,如果是需要定制一下子的就用requests,觉得requests慢也不要紧,多进程+协程(协程写起来贼奇怪,轻易别试,搞分布式都比协程简单),最后说一句,scrapy是真的快,真的真的快,基于twsited就是叼。 还有希望我毕业了能找个好一点的爬虫工作嘤嘤嘤,还有半年就毕业了,有点方

最新回复(0)