[성과] 고성과자들은 어떤 특성을 갖고 있을까?

0. 성과급만으로 성과를 향상할 수는 없다

“성과급을 더 주면, 정말 성과가 올라갈까?”

HR 담당자들과 미팅을 하다 보면 가장 많이 듣는 질문이다. 과거에는 리더십, 소통, 갈등 관리가 담론의 중심이었다면, 이제는 모두가 ‘성과 관리의 본질’을 묻는다. 성장이 둔화되고 조직의 자원이 희소해질수록 성과는 단순한 지표를 넘어 생존의 문제로 직결되기 때문이다.

문제는 우리가 믿어온 ‘성과 공식’이 무너지고 있다는 점이다. 성과가 낮다고 해서 의지가 없는 것도 아니고, 성과가 높다고 해서 반드시 열정이 과잉인 것도 아니다. 특히 밀레니얼 세대의 유입과 함께 일하는 방식과 가치관이 파편화되면서 “성과급을 올리면 동기가 부여된다”는 식의 단선적인 논리는 힘을 잃었다.

O사 또한 비슷한 문제를 겪고 있다. 야근을 늘려도 성과는 정체되고, 복지를 쏟아부어도 핵심 인재는 떠난다. HR은 이제 막연한 경험칙이 아닌, 더 정교한 ‘신호’를 찾아야만 하는 기로에 서 있다.

그래서 우리는 700명의 인사 데이터를 머신러닝의 렌즈로 들여다보기로 했다. 연봉, 나이, 근태 같은 객관적 지표부터 조직적합도나 직무만족도처럼 손에 잡히지 않는 심리적 지표까지, 수많은 변수가 뒤섞인 숲에서 진짜 고성과와 저성과를 갈라내는 결정적 신호는 무엇인가?

이번 글에서 사용하는 데이터는 정동일 외, 『데이터로 이해하는 HR 실무: R을 활용한 피플 애널리틱스』(박영사)에 수록된 예제 데이터를 사용했다.

1. 무엇을 어떻게 들여다봤나: 700명의 데이터가 품은 신호들

[표] 데이터 구조

데이터 분석의 성패는 ‘어떤 재료를 넣었는가’에서 결정된다. 이번 분석에서는 단순히 숫자로 기록된 정보뿐만 아니라, 직원이 피부로 느끼는 ‘체감 지표’까지 아우르는 세 가지 차원의 데이터를 사용했다.

① 업무 환경(배경 신호): 연봉, 연차, 나이

② 일하는 방식(운영 신호): 주당 평균 근무시간, 근태사고율(지각·결근 비율)

③ 조직 경험(심리 신호): 조직적합도, 직무만족도, 리더역량(직속상사 평가)

④ 기본 정보: 성별, 학력, 결혼 여부

대부분의 기업이 이미 보유하고 있는 ‘하드 데이터’에 조직 진단이나 설문을 통해 얻은 ‘소프트 데이터’를 결합한 형태다. 만약 여기에 프로젝트 기여도나 직무 특성 데이터까지 더해진다면 진단은 더욱 풍부해지겠지만, 이번에는 가장 보편적인 데이터로 얼마나 정교한 인사이트를 뽑아낼 수 있는지에 집중했다.

랜덤포레스트 모형

사람의 성과는 “연차가 1년 쌓이면 성과가 10% 오른다”는 식의 단순한 선형 공식으로 설명되지 않는다. 연봉이 높으면서도 만족도가 낮은 경우, 혹은 나이는 적지만 조직적합도가 압도적인 경우 등 수많은 ‘경우의 수’가 복잡하게 얽혀 있다.

그래서 이번 분석에는 랜덤 포레스트(Random Forest) 모델을 선택했다. 수백 개의 의사결정 나무가 각자 데이터를 훑으며 “이 조건이면 고성과자일까?”라고 자문자답한 뒤, 그 결과를 모아 다수결로 결론을 내리는 방식이다.

특정 변수가 특정 구간에서만 갑자기 영향력이 커지는 ‘비선형적 패턴’을 잡아내는 데 탁월하기에, 예측을 넘어 조직을 진단하는 렌즈로 쓰기에 이보다 적합한 알고리즘은 없다.

2. 모델은 어떻게 만들었나: 데이터가 ‘인사이트’가 되는 과정

이번 글에서는 모델 학습 과정은 핵심만 설명하고, 모델이 실제로 어떤 신호를 ‘중요하게’ 봤는지 즉 결과 해석에 집중해보려 한다.

① 단계: 원재료 정제하기 (데이터 전처리 파이프라인)

인사 데이터는 그 형태가 매우 다양하다. 연봉이나 나이처럼 숫자로 측정되는 항목이 있는 반면, 성별이나 학력처럼 텍스트로 기록된 항목도 존재한다. 또한 분석 과정에서 데이터가 누락되어 비어있는 값(결측치)이 발견되기도 한다. 이러한 변수들을 모델이 오차 없이 학습할 수 있도록 데이터 전처리 파이프라인을 구축했다.

수치형 데이터 처리: 값이 비어있는 경우 평균값으로 채워 넣어 분석의 연속성을 확보했다.

범주형 데이터 처리: 텍스트 데이터를 모델이 인식할 수 있는 수치 형태로 변환(One-hot encoding)하고, 누락된 값은 별도의 범주로 지정하여 정보 손실을 최소화했다.

자동화의 이점: 전처리 과정을 하나로 묶어 파이프라인화하면 분석 단계가 간결해질 뿐만 아니라, 향후 새로운 데이터로 재분석을 진행할 때 발생할 수 있는 인적 실수를 원천적으로 방지할 수 있다.

② 단계: 최적의 알고리즘 선택 (랜덤 포레스트)

전처리가 끝난 데이터를 학습할 ‘모델’로 랜덤 포레스트(Random Forest)를 선택했다. 이 알고리즘은 이름처럼 수백 개의 ‘의사결정 나무(Decision Tree)’들이 각자 데이터를 분석한 뒤, 그 결과를 모아 다수결로 최종 결론을 내놓는 방식이다.

선택 이유: 인사 데이터는 “연봉이 높으면 무조건 성과가 좋다”는 식의 단순한 선형 관계로 설명되지 않는다.

복합 패턴 포착: 랜덤 포레스트는 “조직 적합도도 높으면서 동시에 직무 만족도가 높은 경우”처럼 여러 변수가 복잡하게 얽혀 시너지를 내는 지점을 찾아내는 데 매우 효과적이다.

안정성 확보: 수백 그루의 나무가 투표하는 방식을 통해 특정 데이터 하나에 결과가 휘둘리는 오류를 방지하고 분석의 안정성을 높였다.

③ 단계: 최고의 성과를 내는 ‘레시피’ 찾기 (Grid Search)

같은 재료라도 오븐의 온도와 굽는 시간에 따라 요리의 완성도가 달라지듯, AI 모델도 ‘설정값(Hyperparameter)’에 따라 성능이 천차만별이다. 이 단계는 분석가의 감에 의존하지 않고 수백 가지의 설정 조합을 시뮬레이션하여 가장 높은 변별력(AUC)을 보이는 최적의 조합을 찾아낸다.

정교한 튜닝: 나무의 깊이(max_depth)와 개수(n_estimators)뿐만 아니라, 모델이 너무 복잡해져서 생기는 오류를 방지하는 유연성(ccp_alpha)까지 통계적으로 검증했다.

교차 검증(CV): 특정 데이터에만 우연히 잘 맞는 ‘운 좋은 결과’를 배제하고, 어떤 새로운 데이터가 들어와도 믿을 수 있는 ‘모델’을 완성하기 위해 데이터를 10번이나 쪼개어 반복 학습(cv=10)했다.

④ 머신러닝 모델 성능 평가

구축된 모델의 전반적인 정확도는 약 80% 수준이다. 본격적인 분석에 앞서 모델의 변별력을 점검하는 지표인 ROC-AUC를 확인한 결과 약 0.86을 기록했다. 이는 모델이 우연에 의존하지 않고 고성과자와 저성과자를 유의미하게 구분해 낼 수 있는 충분한 기초 체력을 갖췄음을 의미한다.

하지만 실무에서 더 중요한 것은 수치 하나가 아니라 모델이 내놓은 정답과 오답의 상세 내역이다. 아래의 정오분류표(Confusion Matrix)를 통해 모델이 저지르는 실수의 정체를 들여다보았다.

저성과 리스크 포착의 높은 신뢰도 (FP=9): 모델이 고성과자로 잘못 예측한 저성과자는 단 9명뿐이다. 즉, 모델이 ‘리스크가 있다’라고 판정한 결과의 신뢰도가 매우 높다는 뜻이다. 이는 현업에서 사전 지원이나 집중 코칭이 필요한 대상자를 선별할 때 강력한 데이터 근거가 된다.

데이터가 놓친 ‘변칙적 에이스’의 존재 (FN=17): 반면, 실제 고성과자 중 17명은 모델이 저성과자로 예측했다. 이들은 현재의 객관적 지표(연봉, 나이, 근태 등)로는 설명되지 않는 자신만의 방식으로 성과를 내는 인재들이다. 모델이 놓친 이 17명을 추적하고 인터뷰하는 과정에서, 우리 조직이 미처 발견하지 못한 새로운 성과 동력을 찾아낼 수 있다.

4. 분석 결과: 성과는 ‘야근의 양’이 아니라 ‘몰입의 질’에서 갈렸다

① ‘열심히 오래’보다 ‘제대로 지속’의 힘

주당 평균 근무시간은 성과를 예측하는 데 거의 의미가 없었다. 소위 ‘야근의 양’은 고성과자를 가려내는 변별력이 되지 못했다는 뜻이다. 대신 조직적합도, 직무만족도 같은 신호들이 성과 그룹을 훨씬 더 선명하게 구분했다. 결국 성과는 얼마나 오래 자리에 앉아 있느냐가 아니라, 조직에 얼마나 잘 녹아들어 제대로 지속하느냐의 문제였다.

② 연봉은 성과의 결과이다

변수 중요도 분석에서 연봉은 압도적 1위를 차지했다. 하지만 이를 단순히 “연봉을 높여야 성과가 난다”라고 해석하기엔 무리가 있다. 오히려 성과가 높아서 연봉이 높아지는 보상 구조(역할/승급/평가 반영)의 결과물이 데이터에 투영된 것일 가능성이 크다. 보상 설계를 논하기 전에, 현재 우리 조직의 역할 배치와 평가 구조가 어떤 보상 신호를 만들어내고 있는지 점검하는 것이 우선이다.

③ ‘심리적 경험’이 성과를 이끄는 실질적 동기였다

O사가 고민했던 “성과급 외에 다른 동기 요인이 있을까?”라는 가설은 데이터로 확인되었다. 조직적합도와 직무만족도는 통제 후에도 유의미하게 성과와 연결되었으며, 그 방향성 또한 뚜렷했다. 보상이라는 외적 동기만큼이나, 개인이 조직에서 느끼는 ‘심리적 경험’이 실질적인 성과를 이끄는 강력한 엔진임을 시사한다.

④ ‘근태사고율’ 측정 방식의 점검 필요

전반적으로 근태사고율이 올라가면 고성과 확률은 급격히 떨어진다. 하지만 데이터를 세부적으로 들여다보면 ‘근태가 나쁜데도 고성과를 내는’ 예외 집단이 뚜렷하게 존재했다.

이는 외근이나 출장이 잦은 특정 직무의 특성이 현재의 근태 관리 시스템상에서 ‘사고’로 오분류되고 있을 가능성을 시사한다. 결과적으로 근태사고율은 모델 내에서 중요도가 매우 높은 변수(약 22%) 임에도 불구하고, 고성과자의 특성을 온전히 설명하기에는 그 정의나 측정 방식에 한계가 있음이 드러났다.

“매일 아침 현장으로 출근해 발로 뛰는 영업 에이스가 현재의 출퇴근 기록기에는 그저 ‘지각생’으로 찍히고 있는 것은 아닐까?”. 인사 담당자는 현재의 근태 측정 체계가 직무의 다양성을 반영하고 있는지 점검해야 한다. 데이터가 가리키는 이 예외 지점은 우리 조직의 근태 제도를 재정비해야 한다는 경고등이다.

⑤ ‘판단’이 아닌 ‘진단’에 집중해야 한다

이번 모델은 약 0.86의 준수한 변별력을 보여주었지만, 여전히 일부 고성과자를 놓치는 한계가 존재한다. 따라서 이 결과를 사람을 채점하는 ‘평가 대체재’로 쓰는 것은 위험하다.

5. 우리 조직에 적용하기 위해 체크해야 할 것

평가의 목적은 직원의 성과를 측정하고 통제하기 위함이 아니라 성장을 위한 방향을 잡아주는 것이다. 현업에서 데이터로 성과를 관리하고자 하는 HR 담당자에게 다음의 제언을 전하며 의견을 마친다.

① 데이터를 일상적으로 관리하라

연봉, 근태 등 시스템에 남는 숫자(Hard Data)와 만족도, 리더십 등 설문으로 얻는 숫자(Soft Data)가 서로 다른 시점에 측정되면 모델의 정확도는 떨어진다. 성과 평가 시점에 몰아서 조사하는 것이 아니라, 분기별 혹은 반기별로 주기적인 ‘조직 건강 진단’을 시행하여 데이터 간의 시간적 연결고리를 확보해야 한다.

② ‘개입 가능한 변수’를 중심으로 데이터를 확보하라

성능을 높이기 위해 나이나 학력 같은 고정 변수에 의존하는 모델은 분석용으로는 훌륭할지 모르나 HR의 액션을 이끌어내지 못한다. 나이와 학력 대신 우리가 모아야 할 데이터는 ‘최근 6개월 내 리더와의 면담 횟수’, ‘팀 간 협력 정도’, ‘사내 커뮤니티 활동 빈도’도 등 HR이 정책적으로 변화를 줄 수 있는 항목들을 정량화하여 축적하기 시작해야 한다. 그래야 분석 결과가 ‘통계’가 아닌 ‘처방’이 된다.

③ 모델이 놓친 예외에 집중해라

좋은 모델의 진정한 가치는 정답을 맞힌 80%가 아니라, 모델이 틀린 20%에 있다. 특히 “데이터상으로는 저성과자여야 하는데, 실제로는 고성과를 내는 집단”은 우리 조직의 현재 데이터 체계가 포착하지 못한 새로운 성과 동력을 쥐고 있을 확률이 높다.

또한 이번 모델에서 발견된 ‘근태는 나쁘지만 성과는 높은 집단’과 같이 데이터가 현실을 다 반영하지 못하는 영역이 있다. 단순히 머신러닝 모델을 만드는 것을 넘어 EDA(탐색적 데이터 분석) 단계에서 다양한 방식으로 데이터를 들여다보고 해석함으로써 시스템에서 놓치고 있는 부분을 체크하는 것이 필요하다.

허경필님 글 더보러 가기 : https://brunch.co.kr/@5dfce605c7664e8