最近朋友有个新需求,就是做一个发票校验的爬虫,由于这个网站有一些不是很友好的反爬,导致对新手的非常不友好~~~所以周六花了点时间康康了。 一开始就给了个见面礼。其实还行,过这个debugger的文章已经多到不能再多了,这里主要是分析流程所以略。。。 虽然sojson = ob混淆 + 自己写的代码 四五月份学了点js的AST处理,然后简单那处理一下。 然后刷新一下,重复一遍过debuger的方法,然后在网络上下个断点,就能发现整个流程了。 获取不同的省份查询的地址可能不一样 在这里加ajaxSetup,其实这个也是我在反推流程的时候无意发现的,然后就喜提url签名。。。 RSA 在js实现的公共库只有JSEncrypt和基于JSEncrypt二次开发的nodejs版本,暂未找到其他的比较有标准化的RSA。但是他们依赖于浏览器内部crypto或者就是nodejs实现的crypto。暂未找到一个未依赖系统的特定库的RSA实现,在Java的内置js引擎是无法正常运行的。所以走到这一步都是通过拿到这个值让Java实现Rsa加密。 他的获取验证码是绑定发票代码跟发票号码的 验证码这里采用的是鱼导的定制识别方法,下面有测试接口。不过为了方便测试,所有每天会有上限为500次的识别机会,已经足够测试了。一张发票一天就只能查询五次。。。 这里有个是fplx(发票类型),在全局搜索一下即可,跟获取服务器配置的js一样,在同一个文件中 到这里就整个流程是已经走完了。简称一条龙服务。。。 测试的两个分票类型:第一个是没有详情清单的(喜鹊楼茶餐厅)。第二个有详情清单(沃尔玛) java的String split跟js有差异化的。。。 政府的程序员都那么无聊吗???全用数组,不打算更新了吗?。。。更新一个字段得全部流程都要改。。。
国家税务总局全国增值税发票查验平台
https://inv-veri.chinatax.gov.cn/
难度还行,通过分析是sojson的企业版本,有可能为最新版本的v6,也有可能是v5然后加了个webdriver的检测,因为需要收费才能用v6的加强版反无头浏览器了。所以不管他了,黑猫白猫都是🐱debugger
过了debugger的检测之后就干干净净舒舒服服,妈妈也在不用担心我调试的时候被无情的打断了。
js 加密版本判断
一般来说,ob混淆是不带debugger的,看了一下跟sojson贼像,那就是他了。看了没有那个sojson的广告,也就可以确定是定制版本了
这里提供一下sojsonv6反混淆的截图,同一个世界,同一个套路。。。
简单的js处理
处理字符串被抽取作为方法的调用 && 处理抽取出来的运算符并删除
处理平坦化流程
然后用Charles替换上去即可,charles 的食用方法我之前有写过。。。因为我是扣那些代码我就反混淆那些,处理sojson都已经是轻车熟路了,直接嘀嘀嘀了。。。
初始化阶段
通用流程
RSA
JSEncrypt
Java 实现RSA算法
package cn.gov.chinatax.utils; import sun.misc.BASE64Decoder; import javax.crypto.BadPaddingException; import javax.crypto.Cipher; import javax.crypto.IllegalBlockSizeException; import javax.crypto.NoSuchPaddingException; import java.io.IOException; import java.security.InvalidKeyException; import java.security.KeyFactory; import java.security.NoSuchAlgorithmException; import java.security.PublicKey; import java.security.spec.InvalidKeySpecException; import java.security.spec.X509EncodedKeySpec; import java.util.Base64; /** * @Description * @auther Gouzai * @create 2020-06-05 18:44 */ public class RSA { public static String encryp(String str,String key) { try { X509EncodedKeySpec bobPubKeySpec = new X509EncodedKeySpec(new BASE64Decoder().decodeBuffer(key)); // RSA对称加密算法 KeyFactory keyFactory = KeyFactory.getInstance("RSA"); // 取公钥匙对象 PublicKey publicKey = keyFactory.generatePublic(bobPubKeySpec); Cipher cipher = Cipher.getInstance("RSA"); cipher.init(Cipher.ENCRYPT_MODE, publicKey); byte[] bytes = cipher.doFinal(str.getBytes()); return Base64.getEncoder().encodeToString(bytes); } catch (IOException e) { e.printStackTrace(); } catch (NoSuchPaddingException e) { e.printStackTrace(); } catch (NoSuchAlgorithmException e) { e.printStackTrace(); } catch (IllegalBlockSizeException e) { e.printStackTrace(); } catch (BadPaddingException e) { e.printStackTrace(); } catch (InvalidKeyException e) { e.printStackTrace(); } catch (InvalidKeySpecException e) { e.printStackTrace(); } return null; } }
RSA KEY
MIGfMA0GCSqGSIb3DQEBAQUAA4GNADCBiQKBgQCXY6ndiMJE7wF0qg9emVQik7FnCBidCr8V+yG/++iN/CwV0Rfe81wnjg2I23nbLJVuT63Y1T4x2etNr58BTHuzrCRy8gj3HPaS0GSGuiN7EWI1s0Bg6N78nvStPxeinyD8Qh3Bqa+5Z014nbOqn20kW4d3efLAeI7A6yc2uMPvfwIDAQAB
获取验证码
解密验证码
解密之后拿到base64的图片,查验时间,输入验证码的类型
验证码识别
由于验证码识别率超过98%,基本没有见到因为由于验证码错误导致的查询失败。获取发票信息
先签名
在组织拼接代码然后传进去
临时存放起来
动态生成拼接处理的js代码
拿到初始化数据
解析数据
设置到文本中
显示,完事了
效果
彩蛋
这个网站主要是检测
sojson的套路,直接过了。。。
魔改了一些库,比如Base64,里面有几个base64,千万不能混淆了,混淆了就GG
检测window.navigator.webdriver
屏幕的可用宽高的乘积跟一个临界值做判断
扣代码技巧
逆着扣,哪里调用扣哪里,妈妈再也不用担心我了…
坑
参数名称的命名方式竟然是中文拼音的第一个,比如pflx(发票类型),fpdm(发票代码),fphm(发票号码)。。。Thanks
QQ Group
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算