模型:
mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es
该模型是在 SQuAD-es-v2.0 上进行微调和蒸馏的版本,用于问答任务。
蒸馏使得该模型比 bert-base-spanish-wwm-cased-finetuned-spa-squad2-es 更小、更快、更便宜、更轻。
该模型在相同的数据集上进行了微调,但在训练过程中使用了蒸馏(并增加了一个训练轮次)。
用于蒸馏的教师模型是bert-base-multilingual-cased。它是distilbert-base-multilingual-cased AKA DistilmBERT 所使用的相同教师模型(平均速度是mBERT-base的两倍)。
Dataset | # Q&A |
---|---|
SQuAD2.0 Train | 130 K |
SQuAD2.0-es-v2.0 | 111 K |
SQuAD2.0 Dev | 12 K |
SQuAD-es-v2.0-small Dev | 69 K |
该模型在Tesla P100 GPU和25GB的RAM上进行训练,使用以下命令:
!export SQUAD_DIR=/path/to/squad-v2_spanish \ && python transformers/examples/distillation/run_squad_w_distillation.py \ --model_type bert \ --model_name_or_path dccuchile/bert-base-spanish-wwm-cased \ --teacher_type bert \ --teacher_name_or_path bert-base-multilingual-cased \ --do_train \ --do_eval \ --do_lower_case \ --train_file $SQUAD_DIR/train-v2.json \ --predict_file $SQUAD_DIR/dev-v2.json \ --per_gpu_train_batch_size 12 \ --learning_rate 3e-5 \ --num_train_epochs 5.0 \ --max_seq_length 384 \ --doc_stride 128 \ --output_dir /content/model_output \ --save_steps 5000 \ --threads 4 \ --version_2_with_negative
待定
使用pipelines进行快速使用:
from transformers import * # Important!: By now the QA pipeline is not compatible with fast tokenizer, but they are working on it. So that pass the object to the tokenizer {"use_fast": False} as in the following example: nlp = pipeline( 'question-answering', model='mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es', tokenizer=( 'mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es', {"use_fast": False} ) ) nlp( { 'question': '¿Para qué lenguaje está trabajando?', 'context': 'Manuel Romero está colaborando activamente con huggingface/transformers ' + 'para traer el poder de las últimas técnicas de procesamiento de lenguaje natural al idioma español' } ) # Output: {'answer': 'español', 'end': 169, 'score': 0.67530957344621, 'start': 163}
在Colab中玩转该模型和pipelines:
想了解更多关于Huggingface pipelines的内容吗?请查看这个Colab:
在西班牙用♥制作