物理学语料集
物理学语料集是一个系统构建的大型专业化文本资源,整合了来自开放获取学术论文等来源的高质量物理学文献,重点收录《Physical Review X》《Light: Science & Applications》《npj Quantum Information》等权威期刊的多种类型文献,涵盖凝聚态物理、高能物理、量子信息、光学与光子学等重要分支。该语料库以结构化元数据为基础框架,深度融合引文网络与开放获取全文资源,具备术语精准、结构规范、信息完备的特点,可广泛用于物理文献智能检索、理论方法分类、实验数据挖掘以及跨学科交叉研究等任务,为物理学与人工智能技术的深度融合提供可靠数据基础。
5330000篇
3220000篇
本语料集包含的元数据信息,采用物理学专业标注体系,在标准书目信息之外,特别包含研究领域(凝聚态物理、高能物理、量子信息等)、理论方法(第一性原理、蒙特卡洛方法、场论等)、实验装置(对撞机、光谱仪、低温设备等)以及数据来源(观测数据、模拟数据、实验数据等)专业维度
2110000篇
本语料集通过开放获取收录了来自权威期刊、学术机构知识库及预印本平台的211万篇高质量论文。语料来源权威且具有代表性,精选自《Physical Review X》、《Light: Science & Applications》、《Physics Letters B》等130种核心化学期刊,涵盖理论研究、实验报告、计算方法等多种文献类型。全文数据经过机器可读性处理,在保留物理学专业表述特征(包括数学公式、物理符号、实验数据等)的同时,确保文本的分析可用性。
样例
样例