数据集:
DeveloperOats/DBPedia_Classes
关于数据集
DBpedia(来自“DB”代表“数据库”)是一个旨在从维基百科中提取结构化内容的项目。这是一个数据的提取(经过清洗,包含内核),为342,782个维基百科文章提供了分类的层次结构类别(“类”)。总共有3个级别,分别有9, 70和219个类。该数据集的一个版本是NLP/文本分类任务的流行基准。特别是如果将L2/L3级别用作目标,这个数据集的版本要更难。
这是一个优秀的多级多类/多标签文本分类的基准。一些示例方法都包含在代码片段中。内容
DBPedia数据集具有多个层次/类别的层次结构,作为多类别数据集。原始的DBPedia本体(三元数据): https://wiki.dbpedia.org/develop/datasets 类树/分类树的列表: http://mappings.dbpedia.org/server/ontology/classes/ 致谢
感谢Wikimedia基金会创建维基百科,DBPedia和相关开放数据!
感谢我在Sparkbeyond( https://www.sparkbeyond.com )的同事指导我使用分类版本的数据集(而不是经典的14类版本)灵感
Try different NLP models. See also https://www.kaggle.com/datasets/danofer/dbpedia-classes Compare to the SOTA in Text Classification on DBpedia - https://paperswithcode.com/sota/text-classification-on-dbpedia