化学语料集
化学语料集是一个系统构建的大型专业化文本资源,整合了来自开放获取(OA)学术论文等来源的高质量化学文献,重点收录部分国际知名出版社权威期刊的多种类型文献,涵盖无机化学、有机化学、物理化学、分析化学、生物化学等重要分支。该语料库以结构化元数据为基础框架,深度融合引文网络与开放获取全文资源,具备术语精准、结构规范、信息完备的特点,可广泛用于化学信息检索、分子属性预测、文献自动摘要、知识图谱构建及智能合成路线设计等任务,为化学科学与人工智能应用的交叉创新提供可靠数据基础。
7789102篇
500000篇
本语料集收录了来自权威期刊、学术机构知识库及预印本平台的50万篇高质量论文。语料来源权威且具有代表性,精选自《Nature Communications》、《JACS Au》、《ACS Central Science》等349种核心化学期刊,涵盖实验报告、合成方法与表征分析等多种专业文献类型。所有全文数据均经过专业的机器可读性处理,在保持化学专业表述特征(包括化学方程式、分子结构图、光谱数据等)的同时,确保文本的分析可用性。
339102篇
本化学语料集汇集了2000-2019年间来自34种顶尖化学期刊的339,102条Web of Science论文元数据。语料来源权威且具有代表性,精选自《Nature》、《Science》、《Nature Chemistry》等国际顶尖期刊,涵盖能源材料、纳米技术、催化化学等多个前沿研究领域。
5400000篇
本语料集包含的元数据信息,采用化学专业标注体系,在标准目次文摘信息之外,特别包含研究领域(有机化学、分析化学、材料化学等)、实验方法(光谱分析、色谱技术、电化学测量等)、物质信息(化合物标识、分子结构、材料组成等)以及反应数据(反应类型、催化剂、产率等)专业维度。
1550000篇
本语料集通过开放获取收录了来自权威期刊、学术机构知识库及预印本平台的155万篇高质量论文。语料来源权威且具有代表性,精选自《Chemical Science》、《Journal of Cheminformatics》、《ACS Central Science》等80种核心化学期刊,涵盖实验报告、合成方法、表征分析等多种文献类型。全文数据经过机器可读性处理,保留化学专业表述特征(包括化学方程式、分子结构图、光谱数据等),确保文本的分析可用性。
样例
样例