简体 繁体
  • “滚球今日早盘365_365滚球盈利_365滚球结算”职工大数据应用技能邀请赛
  • “摩数杯”工业互联网暨大数据应用创新挑战赛
365滚球结算

“滚球今日早盘365_365滚球盈利_365滚球结算”职工技能赛赛题介绍与数据下载

下载数据

  • 赛题介绍

          随着计算能力、存储空间、网络的高速发展,人类所积累的数据量正在快速增长,而对特定数据的分类算法就显得尤为重要。分类是一项非常有应用价值的技术之一,它的应用遍及了社会中的各个领域,尤其是对多标签分类问题的解决方法,是机器学习中一个重要的研究领域。

  • 数据集描述

          本次大赛提供数据集反映的是不同地块的植被类型情况。通过海拔、坡度、到水源的距离、地块位置等特征项,对地块植被的类型进行预测(7个类型)。数据集中共有 13个特征,由 55 列数据组成。

    如下图所示:

    字段名称 数据类型 量度单位 描述
    Elevation 定量数据 海拔高度
    Aspect 定量数据 方位角
    Slope 定量数据 坡度
    Horizontal_Distance_To_Hydrology 定量数据 与最近水文特征的水平距离
    Vertical_Distance_To_Hydrology 定量数据 与最近水文特征的垂直距离
    Horizontal_Distance_To_Roadways 定量数据 与最近道路的水平距离
    Ground position 定性数据 a-l 地块位置
    Hillshade_9am 定量数据 0至255的索引 早上9:00光的投射度(夏至)
    Hillshade_Noon 定量数据 0至255的索引 正午光的投射度(夏至)
    Hillshade_3pm 定量数据 0至255的索引 下午3:00光的投射度(夏至)
    Horizontal_Distance_To_Fire_Points 定量数据 与最近燃火点的距离
    Wilderness_Area (4个二元列) 定性数据 0或1(缺失/存在) 荒野地区等级
    Soil_Type (40个二元列) 定性数据 0或1(缺失/存在) 土壤类型等级
    Cover_Type (7种) 整数 0至7 地表覆盖类型
  • 数据集提供方式

          这是一个模拟真实情况的过程,数据是分阶段提供的,并且包含约1‰~2‰的噪声值。每个阶段,会提供不等数量的训练和预测数据集,选手通过训练数据进行建模、优化算法,并在测试集进行预测,每个阶段的预测准确率都将计入第一轮实操赛的总成绩。

    · 第一阶段提供10万条训练数据,预测2万条。时间:8月20日00:00—9月5日23:59;
    · 第二阶段提供12~15万条训练数据,预测3万条。时间:9月6日00:00—9月21日23:59;
    · 第三阶段提供12~15万条训练数据,预测3万条。时间:9月22日00:00—10月8日23:59。
       

          建议选手在考虑准确率的同时,需要考虑计算效率(运算时间),计算效率将作为第三轮答辩赛的其中一个评分指标。最终总决赛评委会根据实操赛、理论赛成绩以及现场答辩的表现对选手进行综合评分。

  • 评分标准

          大赛平台将自动计算每一个阶段测试数据集中预测分类的准确率。

          本次采用宏平均值(Macro-averaging)作为各阶段的评价指标。

          宏平均(Macro-averaging),是先对每一个类统计指标值(F1-Score),然后再对所有类求加权(Qi=各类型样本量占比)平均值。

          在第一轮实操赛的三个阶段,将依据参赛队伍的预测准确率(宏平均值)进行排名,准确率越高,则排名越靠前。参赛选手可以不断优化模型,通过平台提交结果,每天最多提交3次。

    · 第一轮实操赛最终总得分规则如下:

    实操赛总排名按照如下公式计算:

    (第一阶段预测准确率*30%+第二阶段预测准确率*35%+第三阶段预测准确率*35%)

    实操赛标准分 = 100-(100*P1-50)/N1,P1为选手在实操赛的综合排名,N1为参加实操赛的选手人数。

  • 竞赛结果提交

    请选手利用建立的模型对每阶段提供的预测数据集中的地块植被类型(BD列)

    进行预测(7类),预测结果按如下格式保存成CSV格式提交。

    预测结果(1/2/3/4/5/6/7)

    预测结果(1/2/3/4/5/6/7)

    预测结果(1/2/3/4/5/6/7)

    ......

    预测结果(1/2/3/4/5/6/7)

  • 挖机设备数据

    下载数据

    数据支持:树根互联技术有限公司

    主要字段
    数据采集、TRU系统故障字_字故障码、TRU报警合并字_字报警码、档位、HCU报警合并字、动作编号_故障处理状态、装车次数_握手开关量、工作模式、显示屏操作开关量、输入开关量等。
  • 机床设备数据

    下载数据

    数据支持:树根互联技术有限公司

    主要字段
    采集时间、执行的NC主程序号、当前执行NC程序号、加工零件数、模式选择、是否报警状态、是否急停、是否停机、CNC当前所处状态模式、当前报警号、报警类型等。
  • 共享单车数据

    下载数据

    数据支持:ofo小黄车

    主要字段
    车辆标识(车牌)、投放日期、车辆状态、定位更新时间、车辆实施坐标经纬度、车锁编码。
  • 家具、家电电商数据

    下载数据

    数据支持:浪潮软件股份有限公司

    主要字段
    商品ID、商品名称、品牌ID、品牌名称、购买价格、参考价格、评价数、收藏数、库存、发货地等。
  • 佛山用户近6个月文献下载记录

    下载数据

    数据支持:同方知网(北京)技术有限公司广东分公司

    主要字段
    产品ID、大小、页码、页数、描述、下载类型、时间、专题ID、发表年份、年份。