英文

在WikiTable问题(WTQ)上微调的TAPAS基础模型

这个模型有2个可用版本。默认版本对应于 original Github repository 的 tapas_wtq_wikisql_sqa_inter_masklm_base_reset 检查点。这个模型首先在MLM上进行预训练,然后进行了作者称之为中间预训练的额外步骤,在 SQA WikiSQL 和最后的 WTQ 上进行了链式微调。它使用了相对位置嵌入(即在每个表格单元格处重新设置位置索引)。

另一个(非默认)可用的版本是:

  • no_reset,对应于tapas_wtq_wikisql_sqa_inter_masklm_base(中间预训练,绝对位置嵌入)。

声明:发布TAPAS的团队没有为这个模型编写模型卡片,所以这个模型卡片是由Hugging Face团队和贡献者编写的。

结果

Size Reset Dev Accuracy Link
LARGE noreset 0.5062 1238321
LARGE reset 0.5097 1239321
BASE noreset 0.4525 12310321
BASE reset 0.4638 12311321
MEDIUM noreset 0.4324 12312321
MEDIUM reset 0.4324 12313321
SMALL noreset 0.3681 12314321
SMALL reset 0.3762 12315321
MINI noreset 0.2783 12316321
MINI reset 0.2854 12317321
TINY noreset 0.0823 12318321
TINY reset 0.1039 12319321

模型描述

TAPAS是一个类似BERT的transformers模型,以自监督的方式在大规模英文数据(来自维基百科)上进行预训练。这意味着它只在原始表格和相关文本上进行了预训练,而没有以任何方式人工标记它们(这就是为什么它可以使用大量的公开数据),并且使用自动过程从这些文本中生成输入和标签。更确切地说,它通过两个目标进行预训练:

  • 掩码语言建模(MLM):将(扁平化的)表格和相关上下文作为输入,模型随机屏蔽输入中的15%的单词,然后将整个(部分屏蔽的)序列通过模型运行。然后模型必须预测被屏蔽的单词。这与传统的递归神经网络(RNN)通常一次看到一个单词或类似GPT的自回归模型内部屏蔽未来标记的方式不同。它允许模型学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励在表格上进行数值推理,作者额外进行了模型的预训练,创建了一个平衡的数百万个句法生成训练样本的数据集。在这里,模型必须预测(分类)句子是否由表格的内容支持或驳斥。训练样本基于合成的和反事实的陈述创建。

这样,模型学习了英文语言在表格和相关文本中的内部表示,然后可以用于提取用于下游任务的特征,例如回答关于表格的问题,或确定句子是否被表格的内容包含或驳斥。微调是通过在预训练模型之上添加一个单元格选择头和聚合头,并与基础模型一起训练这些随机初始化的分类头,然后在SQa、WikiSQL和最后的WTQ上进行的。

预期的用途和限制

您可以使用这个模型来回答与表格相关的问题。

有关代码示例,我们参考TAPAS在HuggingFace网站上的文档。

训练过程

预处理

文本转换为小写并使用WordPiece进行标记化,词汇表大小为30,000。模型的输入格式为:

[CLS] Question [SEP] Flattened table [SEP]

作者首先使用自动转换脚本将WTQ数据集转换为SQA的格式。

微调

在32个Cloud TPU v3核上,将模型微调了50,000步,最大序列长度为512,批次大小为512。在此设置中,微调需要约10小时。使用的优化器是Adam,学习率为1.93581e-5,预热比率为0.128960。添加归纳偏差,使模型只选择同一列的单元格。这通过TapasConfig的select_one_column参数来反映。有关更多细节,请参阅 paper (表格11和12)。

BibTeX条目和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
  author    = {Panupong Pasupat and
               Percy Liang},
  title     = {Compositional Semantic Parsing on Semi-Structured Tables},
  journal   = {CoRR},
  volume    = {abs/1508.00305},
  year      = {2015},
  url       = {http://arxiv.org/abs/1508.00305},
  archivePrefix = {arXiv},
  eprint    = {1508.00305},
  timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}