ShapeCaptioner: Generative Caption Network for 3D Shapes by Learning a Mapping from Parts Detected in Multiple Views to Sentences

ACM MM 2020 Oral Zhizhong Han

利用3D模型在多视图下的检测来做3D模型文本生成

摘要&主要工作

先前的3D文本生成的工作(Y2Seq2Seq)没有考虑part-level的特征,ShapeCaptioner通过多视图检测让文本生成模型能从part-level来进行描述生成

贡献

  1. 提出用检测来进行shape caption任务
  2. 提出一个利用分割标注进行多视图检测的方法
  3. part aggregation

相关工作

Image Caption:

  • e2e的使用全局embedding的图片描述生成模型
  • object-level semantics
  • 基于检测的图片描述生成模型

方法

Part geometry detection

首先用3D分割数据集来获得多视图检测标注(同样,检测标注没有颜色、纹理、材料等属性标注),但在多视图图像中有RGB信息

这里检测模型的训练有技巧,先训练一个无颜色的检测器,然后用无颜色检测器的检测结果来辅助训练有颜色的检测器(不确定是不是这个意思)

Part aggregration

pooling进行part embedding的获取(撞车!!!)

得到的part embeddings用RNN进行编码,并用RNN进行解码生成文本,这里的损失是负对数损失

实验

评估指标

  1. BLEU(B-1、B-2、B-3、B-4)

    bilingual evaluation understudy n-grams
    BLEU=BPexp(Nn=1wnlogpn)
    BP为最佳匹配长度

  2. CIDEr

    常用与Image Caption任务,计算TF-IDF,看看关键单词是否抓取到

  3. METEOR

  4. ROUGE

实验设计

3组搜参数实验,3组消融实验

  1. RNN hidden state dimension H 搜参数实验{16,32,64,128,256,512}:发现设置为32比较好,而且32和其他指标的结果相比提升很高
  2. 检测模型参数的设置,好像也挺敏感的,略
  3. 多视图数量搜参 {1,4,8,12} 这个还比较正常,越多越好
  4. 消融实验:aggregation操作{mean、max、mixed},mixed:视图内max pooling,视图间mean pool;最后发现还是max好
  5. 比较GRU和LSTM,发现GRU好
  6. 对比part好还是view好:肯定是part好-。-
  7. 可视化:检测模型的可视化、Caption结果的展示
  8. 与其他方法的对比(C-Chair T-Table)
  9. 还做了一个调查统计,看看普通人对于生成的描述的满意程度