英文

TAPAS WikiTable Questions (WTQ)上微调的TAPAS小型模型

这个模型有2个可用版本。默认版本对应于 original Github repository 的tapas_wtq_wikisql_sqa_inter_masklm_small_reset检查点。该模型首先在MLM上进行了预训练,然后在 SQA WikiSQL 和最后 WTQ 上进行了链式微调(作者称之为中间预训练)。它使用相对位置嵌入(即在表格的每个单元格中重置位置索引)。

另一个可用的(非默认)版本是:

  • no_reset,对应于tapas_wtq_wikisql_sqa_inter_masklm_small(中间预训练,绝对位置嵌入)。

免责声明:发布TAPAS团队没有为这个模型编写模型卡,因此本模型卡是由Hugging Face团队和贡献者编写的。

结果

Size Reset Dev Accuracy Link
LARGE noreset 0.5062 1238321
LARGE reset 0.5097 1239321
BASE noreset 0.4525 12310321
BASE reset 0.4638 12311321
MEDIUM noreset 0.4324 12312321
MEDIUM reset 0.4324 12313321
SMALL noreset 0.3681 12314321
SMALL reset 0.3762 12315321
MINI noreset 0.2783 12316321
MINI reset 0.2854 12317321
TINY noreset 0.0823 12318321
TINY reset 0.1039 12319321

模型描述

TAPAS是一种类似BERT的Transformer模型,以自监督的方式在大量英语数据(维基百科)上进行预训练。这意味着它仅使用原始表格和相关文本进行了预训练,无需任何人工标注(因此可以使用大量公开可用的数据),并通过自动化的过程从这些文本中生成输入和标签。具体来说,它是通过以下两个目标进行预训练的:

  • 掩码语言建模(MLM):将(扁平化的)表格和相关上下文作为输入,模型随机屏蔽15%的单词,然后将整个(部分屏蔽的)序列输入模型。模型然后必须预测屏蔽的单词。这与传统的递归神经网络(RNNs),通常一次只看到一个单词,或者与GPT这样的自回归模型,内部屏蔽未来token的方式有所不同。这样的预训练使模型能够学习表格和相关文本的双向表示。
  • 中间预训练:为了鼓励表格上的数字推理,作者还通过创建数百万个句法创建的训练示例的平衡数据集,对模型进行了额外的预训练。在这里,模型必须预测(分类)一句话是否由表格的内容支持或推翻。训练样本基于合成语句和反事实语句创建。

这种方式,模型学习了表格和相关文本中英语语言的内部表示,然后可以用于提取对下游任务(例如回答关于表格的问题或确定一句话是否由表格的内容隐含或推翻)有用的特征。微调是通过在预训练模型之上添加一个单元格选择头和聚合头,并与SQa、WikiSQL和最后的WTQ共同训练这些随机初始化的分类头来完成的。

预期使用和限制

您可以使用该模型来回答与表格相关的问题。

有关代码示例,请参阅HuggingFace网站上TAPAS的文档。

训练过程

预处理

文本被转换为小写,并使用WordPiece进行标记化,词汇表大小为30,000。模型的输入形式为:

[CLS] Question [SEP] Flattened table [SEP]

作者首先使用自动转换脚本将WTQ数据集转换为SQA格式。

微调

该模型在32个Cloud TPU v3核心上进行了50,000步的微调,最大序列长度为512,批处理大小为512。在此设置中,微调大约需要10小时。使用Adam优化器,学习率为1.93581e-5,预热比率为0.128960。添加归纳偏差,使模型仅选择同一列的单元格。这通过TapasConfig的select_one_column参数反映出来。有关更多详细信息,请参阅 paper 的表11和表12。

BibTeX引用和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
  author    = {Panupong Pasupat and
               Percy Liang},
  title     = {Compositional Semantic Parsing on Semi-Structured Tables},
  journal   = {CoRR},
  volume    = {abs/1508.00305},
  year      = {2015},
  url       = {http://arxiv.org/abs/1508.00305},
  archivePrefix = {arXiv},
  eprint    = {1508.00305},
  timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}