paper

文章阅读

CV

Sketch

Image

datasets

  1. Video

NLP

Language

1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT 的输入可以包含一个句子对 (句子 A 和句子 B),也可以是单个句子。此外还增加了一些有特殊作用的标志位:
[CLS] 标志放在第一个句子的首位,经过 BERT 得到的的表征向量 C 可以用于后续的分类任务。
[SEP] 标志用于分开两个输入句子,例如输入句子 A 和 B,要在句子 A,B 后面增加 [SEP] 标志。
[UNK]标志指的是未知字符
[MASK] 标志用于遮盖句子中的一些单词,将单词用 [MASK] 遮盖之后,再利用 BERT 输出的 [MASK] 向量预测单词是什么。

OCR

  1. LayoutLM2.0
    LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding
    Public: arxiv 2020,Harbin Institute of Technology,Microsoft Research Asia
    code
    Abstract:主要针对扫描文件或数字商业文档进行理解并分析。特点在于在输入阶段直接引入了图像信息,利用多模态预训练框架对文本、图像和布局信息进行联合建模。

ASR

MM

Vison Language

多模特任务主要集中在文本和图像,文本和语音

  1. M6-v0: Vision-and-Language Interaction for Multi-modal Pretraining
    Public: arxiv 2020,Alibaba Group,Peking University
    Abstract: 提出了一个文本和图像多模特预训练方法InterBERT,核心还是transformer中的Attention,里边包含一个 single-stream interaction module和一个 two-stream module,使用三个预训练任务 masked segment modeling (MSM), masked region modeling(MRM) and image-text matching (ITM)来训练模型。single-stream可以有效处理多模特信息,two-stream 保证了每个模特的独立性,避免在单模态任务性能的下降。最后针对downstream stask来精调模型。感觉就是把transformer输入文本变成了同时输入文本和图像,输出也是文本和图像分别输出。
    预训练模型经过finetune可以用于:text-based image retrieval,Zero-Shot Caption-Based Image Retrieval,Visual Commonsense Reasoning
    data:提出了一个大规模(3.1M image-text pairs)基于手机淘宝收集的中文数据集,但是还没有公布。
    code: 有,未运行。

     Spoke Lanuage

  2. Exploring Transfer Learning For End-to-End Spoken Language Understanding
    Public: arxiv 2020
    Abstract:

  3. Towards Semi-Supervised Semantics Understanding from Speech
    Public: arxiv 2020
    Abstract:

Contents
  1. 1. CV
    1. 1.1. Sketch
    2. 1.2. Image
      1. 1.2.1. datasets
    3. 1.3. Video
  2. 2. NLP
    1. 2.1. Language
    2. 2.2. OCR
  3. 3. ASR
  4. 4. MM
    1. 4.1. Vison Language
    2. 4.2.  Spoke Lanuage
|