- 数据挖掘算法实践与案例详解
- 丁兆云 沈大勇 徐伟 周鋆
- 921字
- 2025-04-09 18:12:40
1.4.2 员工离职预测数据集
员工离职预测问题来自DataCastle数据竞赛平台中的赛题,数据集中的数据分为训练数据和测试数据,其中训练数据包括1100条记录,每条记录有31个字段。
各字段及说明如下:
1)Age:员工年龄。
2)Label:员工是否已经离职,1表示已经离职,2表示未离职,这是目标预测值。
3)BusinessTravel:商务差旅频率,Non-Travel表示不出差,Travel_Rarely表示不经常出差,Travel_Frequently表示经常出差。
4)Department:员工所在部门,Sales表示销售部,Research&Development表示研发部,Human Resources表示人力资源部。
5)DistanceFromHome:公司与家之间的距离,值的范围为1~29,1表示最近,29表示最远。
6)Education:员工的受教育程度,值的范围为1~5,5表示受教育程度最高。
7)EducationField:员工所学习的专业领域,Life Sciences表示生命科学,Medical表示医疗,Marketing表示市场营销,Technical Degree表示技术,Human Resources表示人力资源,Other表示其他。
8)EmployeeNumber:员工号码。
9)EnvironmentSatisfaction:员工对工作环境的满意程度,值的范围为1~4,1表示满意程度最低,4表示满意程度最高。
10)Gender:员工性别,Male表示男性,Female表示女性。
11)JobInvolvement:员工的工作投入度,值的范围为1~4,1为投入度最低,4为投入度最高。
12)JobLevel:职业级别,值的范围为1~5,1为最低级别,5为最高级别。
13)JobRole:工作角色,Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician是实验室技术员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是经理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源。
14)JobSatisfaction:工作满意度,值的范围为1~4,1代表满意度最低,4代表满意度最高。
15)MaritalStatus:员工婚姻状况,Single代表单身,Married代表已婚,Divorced代表离婚。
16)MonthlyIncome:员工的月收入,值的范围为1009~19999。
17)NumCompaniesWorked:员工曾经工作过的公司数。
18)Over18:年龄是否超过18岁。
19)OverTime:是否加班,Yes表示加班,No表示不加班。
20)PercentSalaryHike:工资提高的百分比。
21)PerformanceRating:绩效评估。
22)RelationshipSatisfaction:关系满意度,值的范围为1~4,1表示满意度最低,4表示满意度最高。
23)StandardHours:标准工时。
24)StockOptionLevel:股票期权水平。
25)TotalWorkingYears:总工龄。
26)TrainingTimesLastYear:上一年的培训时长,值的范围为0~6,0表示没有培训,6表示培训时间最长。
27)WorkLifeBalance:工作与生活的平衡程度,值的范围为1~4,1表示平衡程度最低,4表示平衡程度最高。
28)YearsAtCompany:在目前公司工作的年数。
29)YearsInCurrentRole:在目前岗位工作的年数。
30)YearsSinceLastPromotion:距离上次升职的年数。
31)YearsWithCurrManager:与目前的上级共事的年数。