ShapeCaptioner: Generative Caption Network for 3D Shapes by Learning a Mapping from Parts Detected in Multiple Views to Sentences
ACM MM 2020 Oral Zhizhong Han
利用3D模型在多视图下的检测来做3D模型文本生成
摘要&主要工作
先前的3D文本生成的工作(Y2Seq2Seq)没有考虑part-level的特征,ShapeCaptioner通过多视图检测让文本生成模型能从part-level来进行描述生成
贡献
- 提出用检测来进行shape caption任务
- 提出一个利用分割标注进行多视图检测的方法
- part aggregation
相关工作
Image Caption:
- e2e的使用全局embedding的图片描述生成模型
- object-level semantics
- 基于检测的图片描述生成模型
方法
Part geometry detection
首先用3D分割数据集来获得多视图检测标注(同样,检测标注没有颜色、纹理、材料等属性标注),但在多视图图像中有RGB信息
这里检测模型的训练有技巧,先训练一个无颜色的检测器,然后用无颜色检测器的检测结果来辅助训练有颜色的检测器(不确定是不是这个意思)
Part aggregration
pooling进行part embedding的获取(撞车!!!)
得到的part embeddings用RNN进行编码,并用RNN进行解码生成文本,这里的损失是负对数损失
实验
BLEU(B-1、B-2、B-3、B-4)
bilingual evaluation understudy n-grams
BLEU=BP∗exp(N∑n=1wn∗logpn)
BP为最佳匹配长度CIDEr
常用与Image Caption任务,计算TF-IDF,看看关键单词是否抓取到
METEOR
ROUGE
实验设计
3组搜参数实验,3组消融实验
- RNN hidden state dimension H 搜参数实验{16,32,64,128,256,512}:发现设置为32比较好,而且32和其他指标的结果相比提升很高
- 检测模型参数的设置,好像也挺敏感的,略
- 多视图数量搜参 {1,4,8,12} 这个还比较正常,越多越好
- 消融实验:aggregation操作{mean、max、mixed},mixed:视图内max pooling,视图间mean pool;最后发现还是max好
- 比较GRU和LSTM,发现GRU好
- 对比part好还是view好:肯定是part好-。-
- 可视化:检测模型的可视化、Caption结果的展示
- 与其他方法的对比(C-Chair T-Table)
- 还做了一个调查统计,看看普通人对于生成的描述的满意程度