中国史语料集
中国史语料集是一个专为训练高水平中文大模型设计的大规模、多模态数据集,核心价值在于将超过10万册权威历史文献与800余个体系化专家讲座视频深度融合,构建了从先秦至近现代的完整知识图谱。该语料集不仅提供涵盖政治、经济、文化等多维度的海量文本素材,富含明确时序信息与多样化语言风格,更通过专家视频内容强化了复杂历史脉络的因果推理训练。其中“晚清画报”等特色资源兼具图文对齐潜力,为提升模型的历史知识准确性、长上下文推理能力和多模态理解提供了全面而坚实的训练基础。
108007本
本语料集收录了涵盖中国历史研究领域的丰富文献资源,时间跨度从古代至近现代,内容广泛,类型多样,具有重要的学术与史料价值。该语料集整合了从古籍、正史、地方志到近现代专著、报刊及音视频转录文本在内的海量资料,涵盖了政治、经济、文化、社会等多维度主题。其丰富的历史实体(人物、地点、事件、典章制度)、时序明确的纪年信息以及多样化的语言风格(从文言到白话),为大规模语言模型进行深度的历史知识注入、时序推理能力提升、复杂语境理解以及跨文档信息抽取等任务提供了不可或缺的训练素材,旨在有效增强模型在中文历史领域的认知准确性与逻辑一致性。
842个
本语料集是一个高质量、高密度的中文中国史专业视频数据集,其核心价值在于提供了由顶尖高校权威学者讲授的体系化、结构化知识,内容覆盖从先秦到近代的完整历史脉络与哲学思想。该数据集是填补模型中国历史知识空白、训练其进行长上下文因果推理与复杂叙事理解的理想素材;其中“晚清画报”等模块更具突出的多模态对齐潜力,可用于构建高质量的图文训练数据,能有效增强模型在专业领域的知识深度与逻辑严谨性。
样例
样例