代码注释数据治理研究取得进展
本文转自:中科院之声
近日 , 中国科学院软件研究所互联网软件技术实验室在代码注释数据治理方面取得进展 。该研究针对当前代码注释大数据质量治理难的问题 , 通过分析4个大规模代码注释基准数据集 , 归纳出12种类型的噪声数据并研发了基于规则的代码注释数据噪声清理工具 , 能够高效、精准地自动治理代码注释数据质量 , 为代码注释自动生成模型形成高质量数据提供保障 , 有效促进现有的代码注释自动生成模型提升性能 。
【代码注释数据治理研究取得进展】代码注释自动生成技术旨在减轻人工编写注释代码的工作量 , 从而提高软件开发效率 。目前主流的代码注释生成模型大多采用深度学习框架 , 模型的有效性依赖大规模高质量数据集 。然而现实中基准数据集主要采集自真实的开源项目代码 , 其数据质量如何尚无研究深入分析 。
针对上述问题 , 科研人员检测了4个基准数据集中的噪声 , 发现这些数据集中均广泛存在噪声数据 , 噪声数据占比最低31% , 最多高达到65%;定义了12种类型的噪声数据并给出了具体示例;并研发了基于规则的代码注释数据噪声清理工具 , 治理准确率达到97.5% 。科研人员对比了清理前后的3个最新代码注释自动生成模型 , 发现去除噪声后 , 模型的性能普遍提升了21%-27% 。
相关研究成果以Are We Building on the Rock? On the Importance of Data Preprocessing for Code Summarization为题 , 被软件工程领域会议ESEC/FSE 2022录用 。研究工作得到国家重点研发计划的支持 。
文章图片
文章图片
- 索思数据 七月会议
- 聚焦2022中国算力大会丨山东已建成大中型数据中心44个
- 数字沙盘“立体化”讲述怒江州脱贫攻坚成果 将为乡村振兴提供数据支撑
- 智慧济源基础地理信息数据成果正式交付使用
- 人大金仓:打造世界一流数据库企业 保障国家网络安全
- 贵阳市大数据公司赴中科院地球化学所调研座谈
- 齐向东:解决私有云安全问题 查代码是个关键方向
- 经济日报携手京东发布数据:居民消费意愿稳步回升
- 暗黑破坏神不朽捏脸数据2022最新(漂亮帅气的捏脸数据代码一览)
- 暗黑破坏神不朽安卓和苹果互通吗(国服安卓ios数据互通机制介绍)