华为10⼤公开数据集,解决⽹络AI开发缺乏⼯业级数据难题
在华为开发者⼤会HDC.Cloud 3⽉20号直播间,华为⽹络⼈⼯智能数据湖专家周尧,向开发者们正式发布了⽹络AI领域10⼤公开数据集,解决了⽹络AI开发缺乏⼯业级数据的难题。
这10⼤数据集是华为从外场仿真数据和实验室模拟数据,经过解析治理、探索标注之后的,可以直接应⽤于⽹络领域AI 应⽤开发的数据集。分为“异常检测类”、“控制优化类”、和“故障定界类”三⼤类:
异常检测类
1)性能指标异常检测数据集:时间序列数据集,包括正样本和负样本,可应⽤于时序序列预测等算法的训练和验证;样本量100W条,特征维度7维
2)性能指标变更监控测数据集:覆盖4种⽹络业务变更场景,包括变更成功场景和失败场景,失败场景数据有对应标签;样本量100W条,特征维度40维
3)硬盘故障检测数据集:覆盖⽇⽴,希捷共计16款硬盘型号,累积标注坏盘数量超2300块,应⽤于硬盘故障预测类问题分析与研究;样本量超230W条,特征维度超100维(覆盖⼚商公开SMART指标)
控制优化类
4)数据中⼼控数据集:包含冷塔、冷机、泵等设备的供回⽔温度、压⼒、IT机房、冷站设备能耗100+维特征,可应⽤于数据中⼼⽔冷冷冻⽔场景制冷系统优化模型训练;样本量2W条,特征维度100维
5)数据中⼼PUE优化数据集:覆盖3种制冷场景、4种末端空调、冷站控、IT机房等设备能耗数据,基于冷却系统完成关联,应⽤于PUE优化、⽹络领域控制类模型开发与研究;样本量2W条,特征维度110维
硬盘性能指标故障定界类
6)⽆线接⼊故障数据集:覆盖20种⽆线接⼊故障类型,告警数据与⼯单数据相关关联,业务专家团队准确标注,可⽤于告警压缩和根因定位类模型开发,样本量65w条,特征维度7维
7)⽆线&IPRAN故障数据集:告警数据基于⽆线接⼊和IPRAN的设备拓扑进⾏关联,利⽤⼯单数据完成根因告警标注,覆盖37种故障类型,可⽤于告警压缩和故障定位,样本量700w+条,特征维度24维
8)⽆线&PTN故障数据集:告警数据基于⽆线、动⼒环境、PTN等设备拓扑进⾏关联,利⽤⼯单数据完成根因告警标注,覆盖48种故障类型,可⽤于告警压缩和故障定位,样本量100w+条,特征维度61维
9)⽆线&微波故障数据集:告警数据基于⽆线、动⼒环境、微波等设备拓扑进⾏关联,利⽤⼯单数据完成根因告警标注,覆盖29种故障类型,可⽤于告警压缩和故障定位,样本量100w+条,特征维度46维
10)PON光路故障数据集:PON光路故障场景数据,包含光纤弯曲、连接器松动等故障场景,覆盖光模块的电压,电流,接收光功率,发送光功率等特征,样本量4w条,特征维度11维
数据和特征决定了机器学习的上限,华为发布⽹络领域10⼤数据集,不但可以帮助⽹络AI开发者减少90%的数据集准备时间,更重要的是将会极⼤提⾼AI模型精度。⽬前已验证数据中⼼数据集助⼒AI模型达准确率达到89.77%,⽆线
&IPRAN故障数据集提⾼⾼级聚合率到95.4%,查准率到90%。
现在使⽤华为云账号登录华为云,选择NAIE服务(路径:EI企业智能—智能体—⽹络智能体 NAIE),再从AI服务⽬录选择数据集服务,即可进⼊数据集服务页⾯选择所需公开数据集。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论