1. 为什么需要自动化处理TCMSP数据做中药研究的朋友们应该都深有体会每次在TCMSP数据库查成分靶点信息简直是个体力活。我刚开始做课题的时候经常要手动一个个查中药成分复制粘贴数据然后再用Excel整理。最痛苦的是遇到几十味中药的情况光是查数据就能耗掉一整天。后来我发现用R语言写个自动化脚本就能完美解决这个问题。这个脚本可以自动完成三件事从TCMSP网站抓取数据、按标准筛选有效成分比如OB≥30和DL≥0.18、最后把多味中药的结果合并去重。实测下来原来需要一整天的工作现在喝杯咖啡的功夫就搞定了。这个方案特别适合以下场景需要研究多味中药的协同作用要分析某个方剂的所有活性成分做网络药理学研究需要大量靶点数据研究生写论文需要快速获取基础数据2. 准备工作环境配置与包安装2.1 必备R包清单在开始写脚本前我们需要先准备好这些R包rvest网页抓取神器能像浏览器一样读取网页内容httr处理HTTP请求特别适合对付有反爬机制的网站jsonlite解析JSON数据TCMSP返回的数据就是这种格式dplyr数据整理必备筛选、合并数据特别方便data.table处理大数据时比基础R快很多tidyverse一套完整的数据科学工具集安装这些包很简单在RStudio里运行install.packages(c(rvest, httr, jsonlite, dplyr, data.table, tidyverse))2.2 工作目录设置我建议专门建个文件夹存放脚本和数据。比如我在E盘创建了TCMSP_Scraper文件夹然后在脚本开头设置工作目录setwd(E:/TCMSP_Scraper)注意Windows系统要用正斜杠/或者双反斜杠\。3. 核心脚本解析从抓取到清洗的全流程3.1 网页数据抓取技巧TCMSP网站的数据其实藏在网页的JavaScript代码里。通过分析网页结构我发现关键数据都在