模型:
voidful/albert_chinese_small
这是来自 brightmart/albert_zh project 的albert_chinese_small模型,是通过huggingface的 script 转换而来的albert_small_google_zh模型。
支持AutoTokenizer
由于albert_chinese_base模型没有使用sentencepiece,所以您需要调用BertTokenizer而不是AlbertTokenizer!我们可以使用一个MaskedLM的示例来评估它。
由於albert_chinese_base模型沒有用sentencepiece,用AlbertTokenizer會載不進詞表,因此需要改用BertTokenizer!我們可以跑MaskedLM預測來驗證這個做法是否正確。
from transformers import AutoTokenizer, AlbertForMaskedLM import torch from torch.nn.functional import softmax pretrained = 'voidful/albert_chinese_small' tokenizer = AutoTokenizer.from_pretrained(pretrained) model = AlbertForMaskedLM.from_pretrained(pretrained) inputtext = "今天[MASK]情很好" maskpos = tokenizer.encode(inputtext, add_special_tokens=True).index(103) input_ids = torch.tensor(tokenizer.encode(inputtext, add_special_tokens=True)).unsqueeze(0) # Batch size 1 outputs = model(input_ids, labels=input_ids) loss, prediction_scores = outputs[:2] logit_prob = softmax(prediction_scores[0, maskpos],dim=-1).data.tolist() predicted_index = torch.argmax(prediction_scores[0, maskpos]).item() predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0] print(predicted_token, logit_prob[predicted_index])
结果:感 0.6390823125839233