ShapeCaptioner: Generative Caption Network for 3D Shapes by Learning a Mapping from Parts Detected in Multiple Views to Sentences

ACM MM 2020 Oral Zhizhong Han

利用3D模型在多视图下的检测来做3D模型文本生成

先前的3D文本生成的工作（Y2Seq2Seq）没有考虑part-level的特征，ShapeCaptioner通过多视图检测让文本生成模型能从part-level来进行描述生成

Part geometry detection

首先用3D分割数据集来获得多视图检测标注（同样，检测标注没有颜色、纹理、材料等属性标注），但在多视图图像中有RGB信息

这里检测模型的训练有技巧，先训练一个无颜色的检测器，然后用无颜色检测器的检测结果来辅助训练有颜色的检测器（不确定是不是这个意思）

Part aggregration

pooling进行part embedding的获取（撞车！！！）

得到的part embeddings用RNN进行编码，并用RNN进行解码生成文本，这里的损失是负对数损失

3组搜参数实验，3组消融实验

RNN hidden state dimension H 搜参数实验{16,32,64,128,256,512}：发现设置为32比较好，而且32和其他指标的结果相比提升很高
检测模型参数的设置，好像也挺敏感的，略
多视图数量搜参 {1，4，8，12} 这个还比较正常，越多越好
消融实验：aggregation操作{mean、max、mixed}，mixed：视图内max pooling，视图间mean pool；最后发现还是max好
比较GRU和LSTM，发现GRU好
对比part好还是view好：肯定是part好-。-
可视化：检测模型的可视化、Caption结果的展示
与其他方法的对比（C-Chair T-Table）
还做了一个调查统计，看看普通人对于生成的描述的满意程度