Geo-Layout-Transformer/reference/LayoutGMN_zh.md

# LayoutGMN：用于结构化版图相似性的神经图匹配

Akshay Gadi Patil 1  Manyi Li1†  Matthew Fisher2  Manolis Savva1  Hao Zhang1
1Simon Fraser University  2Adobe Research

# 摘要

我们提出了一种利用图匹配网络（Graph Matching Networks, GMN）来预测二维版图之间结构相似性的深度神经网络。该网络称为 LayoutGMN，在三元组（Triplet）学习框架下，通过注意力式 GMN 实现神经图匹配，从而学习版图度量。为训练网络，我们使用基于像素级交并比（IoU）的弱标签来定义三元组损失。重要的是，LayoutGMN 具备结构归纳偏置，可有效弥补 IoU 对结构感知不足的问题。我们在两类代表性版图（建筑平面图与 UI 设计）的大规模数据集上通过检索实验验证方法的有效性。与 IoU 及包括基于图神经网络与图像卷积的最新方法在内的基线相比，我们的网络在结构相似性方面更贴近人类判断。此外，LayoutGMN 是首个同时提供结构相似度度量与元素级结构匹配的深度模型。

# 1. 引言

二维版图广泛存在于图形与建筑设计等领域，常作为蓝图或概念草图，例如户型图、文档排版与 UI 设计。现有评估协议仍大量依赖 IoU 等像素级指标与人工评估，而这类指标缺乏对结构的建模能力。我们提出 LayoutGMN，从结构视角表示与比较版图，将每个版图抽象为基于语义元素的有向、全连接图。网络在三元组设定下进行神经图匹配，通过图内消息传递与跨图信息交换，学习用于相似性预测的图级嵌入。除相似度度量外，网络学习到的注意力权重还可用于布局元素匹配。

![](images/516817b84bdaf3db241d1a3b87d316578c8f2d9adb29bb8a247a3e00042ba1d0.jpg)
图 1. LayoutGMN 通过注意力式神经图匹配学习结构化版图相似性。学习到的注意力权重（数字）可用于元素级结构匹配。

# 2. 相关工作

布局分析与生成、结构相似性度量及 GNN 在结构建模方面已有探索。但像素空间指标（如 IoU、F1）不具结构性且对位置敏感。已有基于 GNN 与 CNN 的方法在 UI 布局上学习结构相似性，但往往独立计算图嵌入，缺少跨图结构对齐。我们的 LayoutGMN 通过跨图注意力通信，在配对上下文中学习图嵌入，提升结构对齐能力。

![](images/f0a4eb226a10834e1fc610ecbc06337c5ffae80644cf03814bb2d4bf0775005e.jpg)
图 3. 将输入平面图的语义房间抽象为包围盒，并据此构建节点与边特征，得到对应的布局图。

# 3. 方法

GMN 接受一对图，通过注意力式跨图通信获得两图的嵌入。LayoutGMN 将 GMN 插入三元组主干中，学习用于二维版图（户型、UI、文档等）的结构相似性度量。

![](images/939bcda0c0c4de7dc9855979ac03e34cc2fece15e7d532d2941505334eb83594.jpg)
图 4. LayoutGMN 输入两张布局图，执行图内消息传递与跨图注意力信息交换更新节点特征，并经聚合得到图级嵌入。

## 3.1 布局图表示

给定高为 \(H\)、宽为 \(W\) 的布局图像及其语义标注，我们将每个元素抽象为包围盒节点，构成有向全连接图 \(G_l=(V,E)\)。

初始节点特征：忽略内容特征，仅使用语义与几何信息。类似 [11,12]，语义通过可学习嵌入（128 维），几何向量 \(g_k=[x_k/W, y_k/H, w_k/W, h_k/H, w_k h_k/\sqrt{WH}]\) 经过两层 MLP 嵌入为 128 维，与语义嵌入拼接作为初始节点特征。

初始边特征：用 8 维向量编码元素间的相对空间关系与 IoU、纵横比和相对方向等，详见原文公式定义。

## 3.2 图匹配网络

模块由（1）节点/边编码器，（2）消息传播层，（3）聚合器组成。节点与边经 MLP 编码为 128 维。

消息传播：在图内聚合邻接消息的同时，通过跨图注意力计算节点间的对应关系：

\[ a_{pi} = \frac{\exp(s_h(h_i^{(t)}, h_p^{(t)}))}{\sum_{p} \exp(s_h(h_i^{(t)}, h_p^{(t)}))} \]

\[ \mu_{pi} = a_{pi}\,(h_i^{(t)} - h_p^{(t)}), \quad h_i^{(t+1)} = f_{update}\big(h_i^{(t)}, \sum_j m_{ji}, \sum_p \mu_{pi}\big). \]

经过若干轮传播更新节点表示。

聚合器：使用门控加权的特征聚合 MLP 得到 1024 维图级表示 \(h_G\)。两图分别计算其图级嵌入。

## 3.3 训练

在三元组框架下，锚-正与锚-负配对分别通过 GMN 获得上下文相关的图嵌入，使用基于 \(L_2\) 距离的边际损失进行训练。

![](images/1e1f54d6b4c7441623fd6af31c439e83cd8f899efc5f9d2f7465ab923b69b261.jpg)
图 5. 锚图与正/负图分别配对经 GMN 得到两组 1024 维嵌入，并使用边际损失训练。

# 4. 数据集

实验使用 RICO UI 布局与 RPLAN 户型图两个大规模数据集，并在过滤后进行评测与分析。

# 5. 结果与评估

我们通过基于人类标注的检索精度（Precision @k）与一致性度量 Overlap @k 评估方法，并给出可视化定性结果。总体上，LayoutGMN 在两类数据集上的检索结果与人类认知更一致，相比 IoU 与其他基线表现更优；同时在计算效率上也具备实际可用性。

## 5.1 基线方法

包括图核（Graph Kernel）、U-Net（三元组自编码）、IoU 度量、GCN-CNN（注意力式 GCN + CNN）等。我们在相同数据与固定三元组采样条件下对比，确保公平性。LayoutGMN 的跨图通信带来更细粒度的结构嵌入，相比独立编码的框架更具鲁棒性。

![](images/817e17e26c81262c41e6cfdecb5f3145cb19873bc1193aab7bf50bb54c10308a.jpg)
图 6. 在相同查询上，IoU 度量、GCN-CNN 与 LayoutGMN 的 Top-5 检索结果对比。LayoutGMN 的结果更接近输入查询的结构。

## 5.2 评估指标

- Precision @k：衡量排名前 k 个检索结果的相关性，由众包标注确定相关性。
- Overlap @k：衡量一个查询与其 Top-1 结果在检索列表上的重叠度，反映检索稳定性与一致性。

在 UI 与户型数据上，LayoutGMN 的 Precision 与 Overlap 指标整体最佳或具竞争力，表明其更契合结构相似性的真实需求。

## 5.3 全连接图 vs. 邻接图

遵循 [30]，我们默认使用全连接图，验证在学习结构相似性时是合理设计。对于节点数量较少的户型图，使用邻接图可提高 GMN 的检索质量，但会降低独立编码方法（如 GCN-CNN）的表现；对于节点较多且元素分散的 UI，邻接图难以稳定刻画邻接关系，整体表现下降。

## 5.4 结构表示消融

我们逐步移除边、位置或语义信息，分析其对性能的影响：

- 移除边：结构信息丢失，仅依赖注意力更新，检索效果下降。
- 移除位置：最关键的结构线索缺失，检索噪声显著增加。
- 移除语义：仅凭位置可部分恢复结构，但仍不足以获得最优结果。

完整的节点与边表示可获得最为可靠的结构检索。

## 5.5 基于注意力的标签迁移

我们展示了元素级标签迁移作为自然应用：给定源布局与目标布局，使用预训练的 LayoutGMN 的跨图注意力作为元素匹配信号，可在不依赖像素对齐的前提下实现标签转移。与基于最大像素重叠的简单匹配相比，LayoutGMN 对边界差异与结构变化更鲁棒。

![](images/ed308e04292b05893b2144d0c5147d0b580f1e468750bac4cdac2e7eddcc3460.jpg)
图 8. 相比最大像素重叠匹配，LayoutGMN 借助注意力更准确地完成元素级标签迁移。

# 6. 结论、局限与未来工作

我们提出了首个同时提供结构相似度量与元素级结构匹配的深度模型 LayoutGMN。在两类布局数据上的大量实验显示，其度量相较已知方法更贴近人类对结构相似性的判断。主要局限包括：依赖较强监督（因此采用 IoU 弱标签以降低成本）；未学习分层的图表示与结构匹配。未来可结合小样本/主动学习构造信息量大且多样的三元组，或引入层次化图建模以处理大图。

# 致谢

感谢审稿人的宝贵建议与 AMT 众包标注者的帮助。本工作部分由 NSERC（611370）资助并获 Adobe 赞助。

# 参考文献

为便于查阅，保留原文献编号与条目，请见英文版文末参考文献列表。