写这篇文章的起因是发现很多同学在数据选择上走了弯路——要么数据太旧、要么变量不全、要么选了和模型不匹配的数据导致返工。所以想把自己这些年踩过的坑整理一下希望对你有帮助。先想清楚你要研究什么数据选得对不对前提是你知道自己要研究什么。我见过不少人拿到一堆数据后临时找题目这样做出来的研究往往逻辑不通。简单来说经管研究主要分三个层次微观企业、家庭、个人中观行业、城市、区域宏观国家、省份每个层次用到的数据差异很大先把这个定下来后面的选择就清晰多了。如果你研究的是企业层面恭喜你上市公司数据是实证研究里最成熟的领域变量多、时间长、质量也相对有保障。基础配置财务报表 公司治理做企业研究财务数据是标配。你需要的数据应该包括资产负债表、利润表、现金流量表的核心科目股票交易数据收益率、换手率、波动率基本公司信息成立时间、行业分类、地区归属这些是所有回归模型的控制变量来源没有的话研究根本跑不起来。进阶配置看你研究什么同样是企业研究不同方向的侧重点完全不一样。如果你研究的是治理问题比如股权结构、高管激励、内部控制在企业经营中起什么作用你需要重点关注内部控制指数直接反映内部治理质量董监高特征数据年龄、学历、任期、政治背景高管薪酬数据薪酬差距、薪酬业绩敏感性断裂带数据衡量高管团队的分裂程度如果你关注的是财务质量或审计问题这些数据可能更有用盈余管理指标判断利润是否被操纵审计费用审计成本的代理变量财务舞弊样本研究哪些企业容易出问题如果你研究的是企业风险有几个指标特别实用股价崩盘风险NCSKEW、DUVOL违约风险经营风险资产收益率波动如果你想研究创新和专利企业创新是近年的热门方向但数据选择有点讲究。基础创新指标专利申请量、授权量是最常用的但这里有个坑不同数据库统计口径可能不一致建议一开始就确定用哪个来源后面别换来换去。更精细的创新指标如果你的研究想更深入普通的专利数量就不够用了绿色专利研究环保创新时必备可以区分环境相关技术和普通技术数字经济专利研究数字化转型时可以用人工智能、云计算、区块链等细分领域的专利来衡量专利引用数据衡量创新质量的重要指标被引用次数多的专利价值更高如果你关注ESG和可持续发展这个方向这几年特别火但数据质量参差不齐选的时候要小心。华证ESG评级是目前国内覆盖最广、时间最长的ESG数据适合做时间序列分析。如果你研究绿色投资环保投入、节能支出这类变量比较关键。还有一块是碳排放数据部分学者整理了上市公司层面的碳排放数据但时间跨度有限用之前先确认样本量够不够。如果你想研究数字化转型这是近年经管领域最热的方向之一数据也相对成熟。吴非老师团队、袁淳老师团队、张永坤老师团队都发布了数字化转型数据各有侧重有的偏重数字技术应用人工智能、云计算有的偏重数字化基础设施有的包含数字化战略、组织变革等软性指标建议根据你的研究重点选择版本比如你研究的是制造业数字化就选技术应用类指标更详细的版本。如果你研究供应链问题供应链相关的实证研究需要两类数据供应商和客户明细前五大客户/供应商的占比、关系稳定性供应链韧性指标衡量企业应对供应链冲击的能力供应链金融数据应收账款、存货融资相关这类数据最大的问题是缺失值多尤其是客户信息很多上市公司不披露选的时候要有心理准备。如果你关注投资者行为研究机构投资者、分析师、散户行为数据选择也不一样机构持股数据看谁在买、谁在卖分析师关注度研报覆盖数量、预测偏差投资者情绪指数市场层面的情绪代理变量如果你研究的是区域经济或城市问题从微观跳到中观你的数据库要从上市公司切换到城市层面。地级市数据的主要来源统计年鉴是最基础的数据涵盖GDP、财政、人口、基础设施等核心指标。但有个现实问题不同城市的数据完整度差异很大东部沿海城市数据丰富西部欠发达地区可能缺失严重。做面板数据的时候建议先做一个缺失值分析如果某个变量缺失超过30%要么换变量要么想办法补数据。环境研究相关数据如果你研究环境问题这些数据比较关键环境规制强度衡量地方政府治污力度PM2.5浓度健康经济学必备碳排放数据绿色金融发展指数这些数据有个特点空间粒度比较细可以精确到区县层面但时间跨度往往不如企业数据长。政策评估类数据做DID双重差分研究的同学注意了政策冲击的时间节点很关键高铁开通年份基础设施冲击低碳城市试点名单环保政策自贸区设立批次对外开放政策用这些数据做政策评估时要重点关注处理组和对照组的选取选不好平行趋势假设容易出问题。如果你做的是省级或县域研究省级数据相对简单樊纲市场化指数、产业结构升级指数、EPU指数经济政策不确定性都是常用变量。县域数据来源比较单一主要是县域统计年鉴但数据质量是出了名的不稳定很多偏远县城的指标要么缺失要么口径不统一用之前务必仔细清洗。如果你用的是微观调查数据CFPS、CGSS、CHFS、CLDS这四个微观调查数据库是研究家庭和个人行为的主要来源。这类数据和宏观数据的最大区别是样本量相对较小但变量信息更丰富可以做很多宏观数据做不到的分析比如家庭资产配置、教育代际传递等。使用微观调查数据要注意权重问题不同家庭被抽中的概率不同要用权重变量校正追踪调查同一批人多年追踪的数据可以做面板分析但样本流失是常见问题变量口径同一概念在不同调查里的定义可能不一样合并数据前要仔细核对关于文本数据这个方向这几年发展很快但门槛也高。新闻数据可以构建企业舆情、媒体报道情绪指标政府工作报告研究地方政策取向、发展重点年报MDA文本管理层讨论与分析的文本特征做文本分析需要一些NLP基础Python的jieba、snownlp等工具可以帮助处理中文文本。最后说几点个人感受数据质量比数量重要。与其有一堆半成品数据不如把核心变量做扎实。一篇用高质量数据写成的论文远比用一堆低质量数据的论文更有说服力。早点确定数据来源。很多同学论文写到一半发现数据不够或质量不行只能临时换题浪费大量时间。开题前一定要评估数据可得性。变量的定义要统一。同一个概念不同数据来源可能有不同的计算口径。比如资产负债率有的用总负债/总资产有的用带息负债/总资产用之前一定要看清楚。缺失值不是洪水猛兽但处理要透明。没有完美无缺的数据关键是处理方法要说清楚稳健性检验要跟上。数据是研究的基石选对了事半功倍。希望这份指南能帮你少走一些弯路。