- 本报告探讨了上市公司债券信用风险识别模型,比较了传统线性模型与非线性模型的优缺点,强调机器学习在违约风险评估中的优势。
- 采用随机森林模型进行信用风险预测,取得了较高的AUC和召回率,验证集的预测效果良好。
- 风险提示指出数据选择和特征选取的主观性,以及模型可能失效的风险。
核心观点2
本投资策略研究报告围绕上市公司债券信用风险识别模型展开,主要分析了传统债券违约模型与机器学习模型的优劣。
传统模型如Altman Z-score和Merton模型虽然易用,但在全面反映债务人状况和处理跳跃性事件方面存在局限性。
相比之下,机器学习模型能够挖掘复杂的非线性关系,适应市场变化,提升预测准确性。
在数据集构建上,报告选择2022年第一季度的财报数据作为训练集,2024年第二季度的财报数据作为测试集,确保训练与测试集比例接近7:3,并专注于公司债和可转债以降低数据异质性。
特征选取涵盖财务、债券本体及股票交易三大类指标,同时采用欠采样策略平衡数据分布,增强了对违约样本的识别能力。
模型方面,报告使用逻辑回归、随机森林、支持向量机、XGBoost和LightGBM五种分类模型。
由于支持向量机的统一量纲处理引入未来数据,最终未纳入该模型。
随机森林在AUC和召回率上表现突出,AUC达到0.90,召回率为0.84。
选用随机森林作为预测模型,验证集的信用风险样本和正常样本均显示出较高的预测准确性。
最后,报告指出了风险提示,包括数据选取的样本偏差、特征选取的主观性、数据不平衡采样可能导致的信息丢失、历史数据对未来结果的预测局限性,以及模型可能失效的风险。
投资建议本报告的投资建议及理由为: - 建议关注上市公司债券信用风险识别,以提高投资决策的准确性。
- 机器学习模型在识别债券违约风险方面表现优越,能够处理复杂的非线性关系。
- 随机森林模型在AUC和召回率上均表现突出,适合用于最新债券信用风险预测。
- 通过欠采样策略平衡数据分布,增强了对违约样本的识别能力。
- 使用2024年数据进行验证,模型预测效果良好,适合投资者参考。
- 注意数据选择和特征选取的主观性,可能影响结果的准确性。
- 风险提示包括历史数据的局限性及模型失效的可能性,需谨慎决策。