“数据分析岗位”招聘情况分析!
一下哪些字段数据可以去除。link为职位详情页链接,是爬取二级页面需要的;Releasedate是职位发布时间,都为4月16日,这两列可以删除。 JD:职位描述、address:公司地址、companyProfile:公司简介、keyword:职位关键字 虽然JD中的职位描述比info中信息更准确,但此次初级分析不对文本进行挖掘,所以先隐藏。尽量不删除数据,而是隐藏,保证原始数据的完整性,以后可能会用到。 03 清洗数据 检查数据缺失:Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失数据,缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。 salary、companyType、Field、conmpanySize都存在一小部分的缺失,不影响实际分析。 检查数据是否有脏数据:脏数据包括乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。 数据标准结构:就是将特殊结构的数据进行转换和规整。lary拆成***薪水和***薪水。比较麻烦的是薪水的表示方式有“XX元/天”,“X-X万/年”,“X-X千/月”,“X-X万/月”,还有空白项。 以天结算的可能是兼职,数量很少直接删除。 空白项是因为岗位链接是公司主页,而不是前程无忧的职位详情页,所以没有爬取到。空白项大概占总量的2%,缺失值可以以业务知识或经验推测填充、可以同一指标的计算结果(均值、中位数、众数等)填充、也可以用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定。这里简单采用均值填充。
现在只剩“X-X万/年”,“X-X千/月”,“X-X万/月”三种类型,我打算统一以“X-X千/月”表示。 (编辑:揭阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |