智能科学与技术学报 (Sep 2023)

基于机器学习的GitHub企业影响力分析与预测

  • 王明宇, 宫庆媛, 瞿晶晶, 王新

DOI
https://doi.org/10.11959/j.issn.2096-6652.202327
Journal volume & issue
Vol. 5, no. 3
pp. 330 – 342

Abstract

Read online

企业影响力的高低不仅关系到其行业竞争力,也影响着其社会声誉和未来发展,然而对企业影响力的评价一直没有统一的标准。GitHub是一个代表性的软件开发代码存储库开源平台,现有研究通常使用企业在GitHub发布的项目得到的star总数衡量其影响力高低,但是这种方式难以衡量小微企业和新生企业的潜力。通过引入科学家的影响力衡量指标h指数,以GitHub为信息源进行企业网络建模,同时基于该网络提取特征构建分类器,对企业未来的影响力水平进行预测。在此基础上应用SHAP模型解释技术,判别决定企业影响力的重要特征。实验结果显示,基于XGBoost的模型在GitHub真实数据集上实现了0.92的准确率和0.93的平均AUC,可以准确、可靠地对企业进行影响力预测。

Keywords