数据集:
HuggingFaceM4/cm4-synthetic-testing
此数据集旨在用于测试多模态文本/图像模型。它基于cm4-10k数据集。
当前的拆分是:['100.unique','100.repeat','300.unique','300.repeat','1k.unique','1k.repeat','10k.unique','10k.repeat']。
唯一性拆分确保文本条目之间的唯一性。
重复拆分重复使用相同的10个唯一记录:- 这对于内存泄漏调试非常有用,因为记录始终相同,因此从方程中消除了记录变化。
默认拆分是100.unique。
完整的数据集创建过程记录在cm4-synthetic-testing.py中。