[채용] 데이터로 보는 맞춤형 인재 선발(5) – 선발 단계에서 고성과자를 미리 예측할 수는 없을까?


지금까지서는 고성과자들은 어떤 특성을 갖고 있는지 하나씩 나누어 살펴봤다. 평균 차이를 비교하고, 통계적으로 유의한지 확인하며, 사업부별로도 쪼개어 보았다.

그 과정에서 한 가지 사실은 분명해졌다. 모든 평가 항목이 성과와 같은 방향으로 작동하지는 않는다는 점이다. 어떤 변수는 고성과와 강하게 연결되어 있었고, 어떤 변수는 있어 보이지만 실제 성과를 설명하지 못했다.

여기서 자연스럽게 다음 질문이 생긴다. 이 변수들은 정말 모두 같은 무게로 중요한 걸까? 그리고 한 걸음 더 나아가, 이 정보를 활용해 채용 단계에서 고성과 가능성이 높은 사람을 미리 가려낼 수는 없을까?

이번 글에서는 이 질문에 답하기 위해, 선발 단계에서 측정한 여러 변수를 동시에 고려하는 분석, 즉 로지스틱 회귀분석을 활용해 고성과 가능성을 모델링해본다.


왜 로지스틱 회귀분석인가

“이 변수가 성과와 관계가 있는가?” 이 접근은 중요하지만, 실제 채용과 성과의 관계를 설명하기에는 한계가 있다. 현장에서 역량은 결코 하나씩 작동하지 않기 때문이다. 현실의 지원자는 성실하면서 전문성이 있고, 정서적으로 안정적이면서 팀워크도 좋은 사람. 여러 특성이 겹쳐진 상태로 조직에 들어온다.

로지스틱 회귀분석은 바로 이 지점을 다룰 수 있는 방법이다. 고성과/저성과처럼 결과가 두 가지로 나뉘는 상황에서, 여러 변수를 한 번에 넣고 ‘다른 조건들을 통제했을 때도 이 변수는 여전히 의미가 있는가?’를 확인할 수 있다.

즉, ‘성실성이 높은 사람은 왜 고성과가 되는지’, ‘그때 전문성이나 팀워크를 함께 고려하면 결과가 어떻게 달라지는지’ ‘특정 변수의 효과가 다른 변수 때문에 과대평가되고 있지는 않은지’ 이런 질문에 한꺼번에 답할 수 있다.


인성검사 단계 : 문화적합성-성과 관계

가장 먼저 인성검사 항목들만 놓고 분석해봤다. 개방성, 성실성, 외향성, 우호성, 정서적 안정성처럼 조직의 ‘문화적합성’을 설명한다고 여겨지는 변수들이다.



결과부터 이야기하면, 모델의 설명력은 지나치게 높게 나왔다. Pseudo R² 값이 0.94로, 고성과자와 저성과자를 거의 완벽하게 구분해낸다. 겉으로 보면 매우 잘 맞는 모델처럼 보이지만, 이 지점에서는 오히려 과적합(overfitting)을 의심해야 한다. 통계적으로는 수렴했지만, 데이터를 과도하게 ‘외운’ 상태에 가까워 보인다.

따라서 이 결과를 그대로 해석하기보다는 ‘어떤 방향의 신호가 작동하고 있는가’를 중심으로 해석하는 편이 적절하다.



이제 방향성을 보기 위해, 개별 변수의 오즈비를 살펴보자. 오즈비(OR)는 해당 점수가 1점 증가할 때 고성과자로 분류될 가능성이 얼마나 커지는지를 나타내는 지표다. 지금은 quasi-separation 때문에 수치가 과도하게 부풀려져 있다는 점을 감안하고, 크기보다는 방향에 집중해 보자.

p-value가 0.05 이하로 통계적으로 유의미한 변수는 다음과 같다.

개방성 (coef=3.42, p=0.000)

성실성 (coef=7.35, p=0.000)

정서적안정성 (coef=1.23, p=0.017)

반대로 다음 변수들은 유의한 설명력을 보이지 못했다.

외향성, 우호성

성별, 연령대, 결혼여부

사업부: SL, ST, LG, ETC (AD 대비)

오즈비를 조금 더 풀어보면 다음과 같다.

개방성 (OR ≈ 30.7)
개방성이 1점 증가할 때 고성과자일 오즈가 크게 증가하는 방향이다. 실제로 “30배”라는 숫자 자체를 믿기보다는, 개방성이 높을수록 고성과자일 가능성이 뚜렷하게 높아진다고 해석하는 것이 안전하다.

성실성 (OR ≈ 1,562)
성실성은 사실상 고성과자 분류에 매우 강하게 작동하고 있다. 동일한 패턴은 앞선 t-test 분석에서도 확인됐다. 성실성의 효과크기(d)가 3.8로 비정상적으로 컸던 점을 떠올리면, 현재 L사의 성과 평가 구조에서 성실성이 고성과 판단에 가장 크게 반영되고 있다고 보는 해석이 자연스럽다.

정서적 안정성 (OR ≈ 3.44)
정서적 안정성이 1점 증가할 때 고성과자일 오즈가 약 3배 증가하는 방향이다. 스트레스에 덜 흔들리고 감정적으로 안정된 사람이 성과를 잘 내는 구조라고 읽을 수 있다.

정리하면, 현재의 성과 구조에서는 개방성, 성실성, 정서적 안정성이 고성과 쪽으로 작동하는 핵심 신호로 나타난다. 그중에서도 성실성은 다른 변수들과 비교해도 압도적으로 강한 영향력을 보인다.

여기서 한 가지는 분명히 짚고 넘어갈 필요가 있다. 지금 보고 있는 결과는 “성과의 절대적 원인”이라기보다는, 현재 L사의 성과 평가 체계 안에서 어떤 특성을 가진 사람들이 고성과자로 분류되고 있는지를 보여준다.

다시 말해, 이 분석은 “성실한 사람이 원래 성과를 잘 낸다”라기보다, “현재의 평가는 성실한 사람을 고성과자로 보고 있다”는 구조를 드러낸다. 만약 성과 평가 항목 자체에 성실성이나 태도 요소가 많이 포함되어 있다면, 혹은 같은 평가자가 역량과 성과를 동시에 판단하고 있다면, 성실성의 영향력은 실제보다 더 크게 보일 수 있다. 이 점을 인식하지 않으면, 분석 결과를 ‘사람의 문제’로만 해석하고 평가 프로세스 자체는 점검하지 않는 오류에 빠질 수 있다.


적성검사·면접 단계 : 직무 적합성-성과 관계


다음으로는 적성검사와 면접평가 변수를 중심으로 다시 분석해봤다. 이번 모델은 앞선 인성검사 모델과 달리 설명력(Pseudo R²)이 0.49로 내려왔다. 성과를 절반 정도 설명하는 수준이다. 오히려 이 정도가 더 현실적이다. “성과를 거의 완벽하게 맞힌다”는 결과가 나왔던 인성검사 모델과 달리, 이번에는 과적합 신호가 훨씬 덜하고 직무 적합성 변수들이 실제로 어느 정도의 힘을 갖는지를 비교적 안정적으로 볼 수 있다.



해석을 위해 오즈비(OR)를 중심으로 보면 메시지는 또렷하다. 이 단계에서 고성과 가능성을 의미 있게 끌어올리는 변수는 사실상 두 개다.

전문성(OR ≈ 6.57)
다른 조건이 같다면, 전문성 점수가 1점 높아질 때 고성과자일 오즈가 약 6.6배 증가하는 방향이다. “전문성이 있는 사람이 성과를 잘 낸다”는 결과라서 아주 직관적이다. 이 모델에서는 전문성이 가장 강한 설명력을 가진 변수로 나타난다.

팀워크(OR ≈ 5.74)
팀워크 점수가 1점 증가할 때 고성과자일 오즈가 약 5.7배 증가한다. 협업을 잘하는 사람일수록 고성과자로 분류될 확률이 높다는 뜻이다. 인성검사 단계에서 성실성이 강한 신호였다면, 면접평가 단계에서는 ‘팀워크’가 그 역할을 하고 있다고 볼 수 있다.

반면 수리, 언어, 조직이해 같은 항목들은 성과를 구분하는 데 거의 기여하지 못했다. 즉, 다른 조건이 같을 때 이 점수들이 높다고 해서 고성과 가능성이 의미 있게 올라간다고 말하기 어렵다.

정리하면 이번 결과는 꽤 명확하다. “일을 알고(전문성), 같이 일하기 좋은 사람(팀워크)”은 성과를 낸다. 하지만 그 외의 항목들은, 적어도 현재의 측정·평가 방식에서는 고성과를 가려내는 신호로 충분히 작동하지 않고 있다.


부서 단위 문화 적합성과 직무 적합성이 성과에 미치는 영향은?

우수한 인재를 선발하는 것도 중요하지만, 사실 그 못지않게 중요한 게 하나 더 있다. 어떤 인재를 ‘어떤 부서’에 배치하느냐다. 같은 사람이더라도 어떤 팀에서는 빠르게 적응해 성과를 내고, 어떤 팀에서는 계속 삐걱거릴 수 있다. 그러면 다음 질문이 자연스럽게 따라온다.

“개인의 성향이 그 부서의 평균적인 성향과 비슷할수록 성과가 높아질까?”

성격과 인성은 팀의 분위기와 일하는 방식을 만들고, 구성원이 그 문화에 적응하는 과정에서 갈등의 가능성도 함께 좌우한다. 보통 성향 차이가 크면 커뮤니케이션 비용이 늘고, 작은 오해가 반복되면서 불필요한 마찰이 생길 수 있다. 예를 들어 경영지원 부서가 대체로 성실하고 꼼꼼한 스타일을 선호하는데, 개방적이고 즉흥적인 성향이 강한 신입이 들어온다면 “능력이 부족해서”가 아니라 일하는 방식의 결이 달라서 적응이 힘들어질 수 있다.

그래서 이렇게 가정해봤다. 인성 측면에서는 부서 평균과의 ‘거리’가 가까울수록(=비슷할수록) 성과가 좋아질 가능성이 있다. 반면 직무 역량은 조금 다를 수 있다. 팀 평균과 비슷한 수준에 머무르는 것보다, 오히려 팀 평균보다 더 높은 전문성과 수행 역량을 가진 사람일수록 성과가 높아질 가능성이 크다.

이 가정을 데이터로 확인하기 위해 두 가지 변수를 새로 만들었다. 문화적합성(personality_fit)직무적합성(competency_level)이다.



문화적합성은 간단히 말해 “개인의 Big5 점수 프로파일이 부서 평균과 얼마나 비슷한가”다. 계산 방식은 부서별 평균을 먼저 만든 뒤, 개인 점수에서 부서 평균을 빼고 그 차이를 절대값으로 만든다. 차이가 작을수록 ‘fit’이 높아지는 구조다. (즉, 부서 평균과의 간극이 작을수록 문화적합성이 높다.)



직무적합성 “개인의 직무 역량이 부서 평균 대비 얼마나 높은가”에 초점을 맞췄다. 적성검사와 역량평가 점수를 기준으로 개인 점수에서 부서 평균을 차감해, 평균보다 높을수록 값이 커지는 방향으로 만들었다. 즉 값이 클수록 “그 부서 기준으로 봤을 때 역량 레벨이 더 높은 사람”이다. 이제 이 두 변수를 로지스틱 회귀에 넣어, ‘부서 적합성’이 성과를 설명하는지를 확인해봤다.


먼저 모델의 설명력은 Pseudo R² ≈ 0.224로 나타났다. 성과의 약 22% 정도를 설명하는 셈이다. 앞선 모델(인성만, 혹은 직무역량만 넣었던 모델)에 비해 설명력이 낮아 보일 수 있지만, 여기서는 변수를 대폭 압축해서 두 개의 지표로 만들었기 때문에 자연스럽다. 한마디로 말하면, 정보를 줄여서 요약했더니 설명력도 줄어든 상태다.



competency_level(OR ≈ 1.58)
직무적합성이 1단위 증가할 때 고성과자일 오즈가 약 1.58배 증가하는 방향이다. 즉 “부서 평균보다 역량 레벨이 높을수록 고성과 가능성이 올라간다”는 직관적인 결과다.

personality_fit(OR ≈ 126.68)
문화적합성은 오즈비가 매우 크게 튄다. 여기서 중요한 건 숫자 자체를 그대로 믿으면 안 된다는 점이다. 이 ‘fit’ 지표는 사실상 거리(차이)가 0에 가까워질수록 값이 급격히 커지는 비선형(1/x) 구조이고, 스케일 조정도 하지 않은 상태라 계수가 과장되기 쉽다. 그럼에도 불구하고 방향성만 놓고 보면 해석은 분명하다. 부서의 평균적인 Big5 프로파일과 비슷한 사람일수록 고성과 그룹에 속할 확률이 높아지는 패턴이 나타난다.

정리하면, 이 모델은 이런 메시지를 준다.

“성과는 개인의 절대 능력만으로 결정되지 않는다. ‘어디에 배치되느냐’와 ‘그 팀과 얼마나 결이 맞느냐’도 성과의 한 축이다. 그리고 직무 역량보다 중요한 것은 개인과 팀의 성향이 잘 맞는지가 더 중요하다.”

이 글의 결과를 그대로 적용하기 전에, 한 번 더 점검해야 할 질문이 있다.
“지금 우리가 ‘고성과’라고 부르는 기준은 정말 우리가 원하는 성과인가?”라는 질문이다. 성과가 상대평가인지 절대평가인지, 부서 성과가 개인 평가에 얼마나 반영되는지, 평가자 간 기준은 얼마나 일관된지에 따라, 같은 사람도 전혀 다른 성과자로 분류될 수 있다.


즉, 지금의 분석 결과는 ‘사람을 설명하는 데이터’이기도 하지만 동시에 ‘평가 프로세스를 비추는 거울’이기도 하다. 따라서 채용 데이터를 활용한 분석은 언제나 선발 기준을 설계하는 작업이면서 동시에 평가 체계를 점검하는 작업이어야 한다. 둘 중 하나만 놓치면, 데이터는 오히려 잘못된 확신을 강화할 수 있다.


좋은 모델은 좋은 데이터에서 나온다

이번 분석은 조직 전체를 한 덩어리로 놓고 진행했기 때문에, 결론 자체가 앞선 분석과 크게 다르지는 않다. 고성과 신호로 반복해서 등장하는 변수는 비슷했고, “팀/부서에 따라 중요한 역량이 달라질 수 있다”는 가능성도 같은 방향으로 확인됐다. 다만 여기서 진짜 중요한 건, 이 분석이 “끝”이 아니라 “시작”이라는 점이다.

부서별로 데이터가 더 쌓이면, 단순히 “조직 전체의 고성과 요인”을 말하는 수준을 넘어, 주요 부서 단위로 고성과 프로파일을 따로 모델링할 수 있다. 그때부터는 팀별 선발 기준, 면접 질문, 평가 가이드를 “감”이 아니라 데이터를 기반으로 조정하는 게 가능해진다. 말 그대로 맞춤형 평가 기준 설계의 가능성이 열린다.

그런데 여기에는 전제가 하나 있다. 데이터가 ‘일관된 방식’으로 쌓여야 한다. HR에서 분석이 어려워지는 이유는 대개 모델이 어려워서가 아니라, 데이터가 “쓸 수 있는 상태”가 아니기 때문이다. 항목이 해마다 바뀌고, 평가 기준이 면접관마다 다르고, 같은 점수가 의미하는 행동이 서로 다르면 어떤 분석도 신뢰하기 어렵다. 결국 HR이 해야 할 일은 ‘분석을 잘하는 것’ 이전에, 분석 가능한 데이터를 만드는 습관을 조직에 심는 것이다.

실무적으로는 아래 세 가지부터 점검하는 게 좋다.

첫째, 평가 문항·척도·가이드를 고정하라. 해마다 문항이 바뀌거나 척도가 달라지면 연도 간 비교가 불가능해진다. “변수의 정의를 유지하는 것”이 데이터 품질의 출발점이다.

둘째, ‘부서/직무’ 정보를 과업 단위로 정리해 연결하라. 단순히 ‘경영지원/영업/기술엔지니어’ 같은 큰 단위만으로는 한계가 있다. 같은 경영지원이라도 실제 과업이 다르면 고성과 요인도 달라진다. 최소한 직무/팀/핵심과업이 데이터에 함께 붙어야, “왜 이 팀에서만 패턴이 다르게 보이는지”까지 해석할 수 있다.

셋째, 성과 지표의 성격을 명확히 기록하라. 성과가 절대평가인지 상대평가인지, 부서 성과가 개인 평가에 얼마나 반영되는지, 평가자·평가 주기가 어떻게 되는지 같은 메타정보가 있어야 분석 결과를 과해석하지 않는다. 같은 “고성과”라도 정의가 다르면 모델이 잡는 신호도 달라지기 때문이다.

정리하면, 앞으로의 승부는 ‘더 복잡한 분석 기법’이 아니라 데이터를 쌓는 방식의 표준화에서 갈린다. HR이 이 기준을 잡아두면, 채용은 더 정교해지고 배치는 더 안전해지며, 면접은 “그럴듯한 대화”에서 “성과를 예측하는 도구”로 조금씩 바뀐다. 그리고 그 변화는 대개 거창한 AI가 아니라, 작은 규칙을 지키는 것에서 시작된다.


허경필님 글 더보러 가기 : https://brunch.co.kr/@5dfce605c7664e8


지금까지서는 고성과자들은 어떤 특성을 갖고 있는지 하나씩 나누어 살펴봤다. 평균 차이를 비교하고, 통계적으로 유의한지 확인하며, 사업부별로도 쪼개어 보았다.

그 과정에서 한 가지 사실은 분명해졌다. 모든 평가 항목이 성과와 같은 방향으로 작동하지는 않는다는 점이다. 어떤 변수는 고성과와 강하게 연결되어 있었고, 어떤 변수는 있어 보이지만 실제 성과를 설명하지 못했다.

여기서 자연스럽게 다음 질문이 생긴다. 이 변수들은 정말 모두 같은 무게로 중요한 걸까? 그리고 한 걸음 더 나아가, 이 정보를 활용해 채용 단계에서 고성과 가능성이 높은 사람을 미리 가려낼 수는 없을까?

이번 글에서는 이 질문에 답하기 위해, 선발 단계에서 측정한 여러 변수를 동시에 고려하는 분석, 즉 로지스틱 회귀분석을 활용해 고성과 가능성을 모델링해본다.


왜 로지스틱 회귀분석인가

“이 변수가 성과와 관계가 있는가?” 이 접근은 중요하지만, 실제 채용과 성과의 관계를 설명하기에는 한계가 있다. 현장에서 역량은 결코 하나씩 작동하지 않기 때문이다. 현실의 지원자는 성실하면서 전문성이 있고, 정서적으로 안정적이면서 팀워크도 좋은 사람. 여러 특성이 겹쳐진 상태로 조직에 들어온다.

로지스틱 회귀분석은 바로 이 지점을 다룰 수 있는 방법이다. 고성과/저성과처럼 결과가 두 가지로 나뉘는 상황에서, 여러 변수를 한 번에 넣고 ‘다른 조건들을 통제했을 때도 이 변수는 여전히 의미가 있는가?’를 확인할 수 있다.

즉, ‘성실성이 높은 사람은 왜 고성과가 되는지’, ‘그때 전문성이나 팀워크를 함께 고려하면 결과가 어떻게 달라지는지’ ‘특정 변수의 효과가 다른 변수 때문에 과대평가되고 있지는 않은지’ 이런 질문에 한꺼번에 답할 수 있다.


인성검사 단계 : 문화적합성-성과 관계

가장 먼저 인성검사 항목들만 놓고 분석해봤다. 개방성, 성실성, 외향성, 우호성, 정서적 안정성처럼 조직의 ‘문화적합성’을 설명한다고 여겨지는 변수들이다.



결과부터 이야기하면, 모델의 설명력은 지나치게 높게 나왔다. Pseudo R² 값이 0.94로, 고성과자와 저성과자를 거의 완벽하게 구분해낸다. 겉으로 보면 매우 잘 맞는 모델처럼 보이지만, 이 지점에서는 오히려 과적합(overfitting)을 의심해야 한다. 통계적으로는 수렴했지만, 데이터를 과도하게 ‘외운’ 상태에 가까워 보인다.

따라서 이 결과를 그대로 해석하기보다는 ‘어떤 방향의 신호가 작동하고 있는가’를 중심으로 해석하는 편이 적절하다.



이제 방향성을 보기 위해, 개별 변수의 오즈비를 살펴보자. 오즈비(OR)는 해당 점수가 1점 증가할 때 고성과자로 분류될 가능성이 얼마나 커지는지를 나타내는 지표다. 지금은 quasi-separation 때문에 수치가 과도하게 부풀려져 있다는 점을 감안하고, 크기보다는 방향에 집중해 보자.

p-value가 0.05 이하로 통계적으로 유의미한 변수는 다음과 같다.

개방성 (coef=3.42, p=0.000)

성실성 (coef=7.35, p=0.000)

정서적안정성 (coef=1.23, p=0.017)

반대로 다음 변수들은 유의한 설명력을 보이지 못했다.

외향성, 우호성

성별, 연령대, 결혼여부

사업부: SL, ST, LG, ETC (AD 대비)

오즈비를 조금 더 풀어보면 다음과 같다.

개방성 (OR ≈ 30.7)
개방성이 1점 증가할 때 고성과자일 오즈가 크게 증가하는 방향이다. 실제로 “30배”라는 숫자 자체를 믿기보다는, 개방성이 높을수록 고성과자일 가능성이 뚜렷하게 높아진다고 해석하는 것이 안전하다.

성실성 (OR ≈ 1,562)
성실성은 사실상 고성과자 분류에 매우 강하게 작동하고 있다. 동일한 패턴은 앞선 t-test 분석에서도 확인됐다. 성실성의 효과크기(d)가 3.8로 비정상적으로 컸던 점을 떠올리면, 현재 L사의 성과 평가 구조에서 성실성이 고성과 판단에 가장 크게 반영되고 있다고 보는 해석이 자연스럽다.

정서적 안정성 (OR ≈ 3.44)
정서적 안정성이 1점 증가할 때 고성과자일 오즈가 약 3배 증가하는 방향이다. 스트레스에 덜 흔들리고 감정적으로 안정된 사람이 성과를 잘 내는 구조라고 읽을 수 있다.

정리하면, 현재의 성과 구조에서는 개방성, 성실성, 정서적 안정성이 고성과 쪽으로 작동하는 핵심 신호로 나타난다. 그중에서도 성실성은 다른 변수들과 비교해도 압도적으로 강한 영향력을 보인다.

여기서 한 가지는 분명히 짚고 넘어갈 필요가 있다. 지금 보고 있는 결과는 “성과의 절대적 원인”이라기보다는, 현재 L사의 성과 평가 체계 안에서 어떤 특성을 가진 사람들이 고성과자로 분류되고 있는지를 보여준다.

다시 말해, 이 분석은 “성실한 사람이 원래 성과를 잘 낸다”라기보다, “현재의 평가는 성실한 사람을 고성과자로 보고 있다”는 구조를 드러낸다. 만약 성과 평가 항목 자체에 성실성이나 태도 요소가 많이 포함되어 있다면, 혹은 같은 평가자가 역량과 성과를 동시에 판단하고 있다면, 성실성의 영향력은 실제보다 더 크게 보일 수 있다. 이 점을 인식하지 않으면, 분석 결과를 ‘사람의 문제’로만 해석하고 평가 프로세스 자체는 점검하지 않는 오류에 빠질 수 있다.


적성검사·면접 단계 : 직무 적합성-성과 관계


다음으로는 적성검사와 면접평가 변수를 중심으로 다시 분석해봤다. 이번 모델은 앞선 인성검사 모델과 달리 설명력(Pseudo R²)이 0.49로 내려왔다. 성과를 절반 정도 설명하는 수준이다. 오히려 이 정도가 더 현실적이다. “성과를 거의 완벽하게 맞힌다”는 결과가 나왔던 인성검사 모델과 달리, 이번에는 과적합 신호가 훨씬 덜하고 직무 적합성 변수들이 실제로 어느 정도의 힘을 갖는지를 비교적 안정적으로 볼 수 있다.



해석을 위해 오즈비(OR)를 중심으로 보면 메시지는 또렷하다. 이 단계에서 고성과 가능성을 의미 있게 끌어올리는 변수는 사실상 두 개다.

전문성(OR ≈ 6.57)
다른 조건이 같다면, 전문성 점수가 1점 높아질 때 고성과자일 오즈가 약 6.6배 증가하는 방향이다. “전문성이 있는 사람이 성과를 잘 낸다”는 결과라서 아주 직관적이다. 이 모델에서는 전문성이 가장 강한 설명력을 가진 변수로 나타난다.

팀워크(OR ≈ 5.74)
팀워크 점수가 1점 증가할 때 고성과자일 오즈가 약 5.7배 증가한다. 협업을 잘하는 사람일수록 고성과자로 분류될 확률이 높다는 뜻이다. 인성검사 단계에서 성실성이 강한 신호였다면, 면접평가 단계에서는 ‘팀워크’가 그 역할을 하고 있다고 볼 수 있다.

반면 수리, 언어, 조직이해 같은 항목들은 성과를 구분하는 데 거의 기여하지 못했다. 즉, 다른 조건이 같을 때 이 점수들이 높다고 해서 고성과 가능성이 의미 있게 올라간다고 말하기 어렵다.

정리하면 이번 결과는 꽤 명확하다. “일을 알고(전문성), 같이 일하기 좋은 사람(팀워크)”은 성과를 낸다. 하지만 그 외의 항목들은, 적어도 현재의 측정·평가 방식에서는 고성과를 가려내는 신호로 충분히 작동하지 않고 있다.


부서 단위 문화 적합성과 직무 적합성이 성과에 미치는 영향은?

우수한 인재를 선발하는 것도 중요하지만, 사실 그 못지않게 중요한 게 하나 더 있다. 어떤 인재를 ‘어떤 부서’에 배치하느냐다. 같은 사람이더라도 어떤 팀에서는 빠르게 적응해 성과를 내고, 어떤 팀에서는 계속 삐걱거릴 수 있다. 그러면 다음 질문이 자연스럽게 따라온다.

“개인의 성향이 그 부서의 평균적인 성향과 비슷할수록 성과가 높아질까?”

성격과 인성은 팀의 분위기와 일하는 방식을 만들고, 구성원이 그 문화에 적응하는 과정에서 갈등의 가능성도 함께 좌우한다. 보통 성향 차이가 크면 커뮤니케이션 비용이 늘고, 작은 오해가 반복되면서 불필요한 마찰이 생길 수 있다. 예를 들어 경영지원 부서가 대체로 성실하고 꼼꼼한 스타일을 선호하는데, 개방적이고 즉흥적인 성향이 강한 신입이 들어온다면 “능력이 부족해서”가 아니라 일하는 방식의 결이 달라서 적응이 힘들어질 수 있다.

그래서 이렇게 가정해봤다. 인성 측면에서는 부서 평균과의 ‘거리’가 가까울수록(=비슷할수록) 성과가 좋아질 가능성이 있다. 반면 직무 역량은 조금 다를 수 있다. 팀 평균과 비슷한 수준에 머무르는 것보다, 오히려 팀 평균보다 더 높은 전문성과 수행 역량을 가진 사람일수록 성과가 높아질 가능성이 크다.

이 가정을 데이터로 확인하기 위해 두 가지 변수를 새로 만들었다. 문화적합성(personality_fit)직무적합성(competency_level)이다.



문화적합성은 간단히 말해 “개인의 Big5 점수 프로파일이 부서 평균과 얼마나 비슷한가”다. 계산 방식은 부서별 평균을 먼저 만든 뒤, 개인 점수에서 부서 평균을 빼고 그 차이를 절대값으로 만든다. 차이가 작을수록 ‘fit’이 높아지는 구조다. (즉, 부서 평균과의 간극이 작을수록 문화적합성이 높다.)



직무적합성 “개인의 직무 역량이 부서 평균 대비 얼마나 높은가”에 초점을 맞췄다. 적성검사와 역량평가 점수를 기준으로 개인 점수에서 부서 평균을 차감해, 평균보다 높을수록 값이 커지는 방향으로 만들었다. 즉 값이 클수록 “그 부서 기준으로 봤을 때 역량 레벨이 더 높은 사람”이다. 이제 이 두 변수를 로지스틱 회귀에 넣어, ‘부서 적합성’이 성과를 설명하는지를 확인해봤다.


먼저 모델의 설명력은 Pseudo R² ≈ 0.224로 나타났다. 성과의 약 22% 정도를 설명하는 셈이다. 앞선 모델(인성만, 혹은 직무역량만 넣었던 모델)에 비해 설명력이 낮아 보일 수 있지만, 여기서는 변수를 대폭 압축해서 두 개의 지표로 만들었기 때문에 자연스럽다. 한마디로 말하면, 정보를 줄여서 요약했더니 설명력도 줄어든 상태다.



competency_level(OR ≈ 1.58)
직무적합성이 1단위 증가할 때 고성과자일 오즈가 약 1.58배 증가하는 방향이다. 즉 “부서 평균보다 역량 레벨이 높을수록 고성과 가능성이 올라간다”는 직관적인 결과다.

personality_fit(OR ≈ 126.68)
문화적합성은 오즈비가 매우 크게 튄다. 여기서 중요한 건 숫자 자체를 그대로 믿으면 안 된다는 점이다. 이 ‘fit’ 지표는 사실상 거리(차이)가 0에 가까워질수록 값이 급격히 커지는 비선형(1/x) 구조이고, 스케일 조정도 하지 않은 상태라 계수가 과장되기 쉽다. 그럼에도 불구하고 방향성만 놓고 보면 해석은 분명하다. 부서의 평균적인 Big5 프로파일과 비슷한 사람일수록 고성과 그룹에 속할 확률이 높아지는 패턴이 나타난다.

정리하면, 이 모델은 이런 메시지를 준다.

“성과는 개인의 절대 능력만으로 결정되지 않는다. ‘어디에 배치되느냐’와 ‘그 팀과 얼마나 결이 맞느냐’도 성과의 한 축이다. 그리고 직무 역량보다 중요한 것은 개인과 팀의 성향이 잘 맞는지가 더 중요하다.”

이 글의 결과를 그대로 적용하기 전에, 한 번 더 점검해야 할 질문이 있다.
“지금 우리가 ‘고성과’라고 부르는 기준은 정말 우리가 원하는 성과인가?”라는 질문이다. 성과가 상대평가인지 절대평가인지, 부서 성과가 개인 평가에 얼마나 반영되는지, 평가자 간 기준은 얼마나 일관된지에 따라, 같은 사람도 전혀 다른 성과자로 분류될 수 있다.


즉, 지금의 분석 결과는 ‘사람을 설명하는 데이터’이기도 하지만 동시에 ‘평가 프로세스를 비추는 거울’이기도 하다. 따라서 채용 데이터를 활용한 분석은 언제나 선발 기준을 설계하는 작업이면서 동시에 평가 체계를 점검하는 작업이어야 한다. 둘 중 하나만 놓치면, 데이터는 오히려 잘못된 확신을 강화할 수 있다.


좋은 모델은 좋은 데이터에서 나온다

이번 분석은 조직 전체를 한 덩어리로 놓고 진행했기 때문에, 결론 자체가 앞선 분석과 크게 다르지는 않다. 고성과 신호로 반복해서 등장하는 변수는 비슷했고, “팀/부서에 따라 중요한 역량이 달라질 수 있다”는 가능성도 같은 방향으로 확인됐다. 다만 여기서 진짜 중요한 건, 이 분석이 “끝”이 아니라 “시작”이라는 점이다.

부서별로 데이터가 더 쌓이면, 단순히 “조직 전체의 고성과 요인”을 말하는 수준을 넘어, 주요 부서 단위로 고성과 프로파일을 따로 모델링할 수 있다. 그때부터는 팀별 선발 기준, 면접 질문, 평가 가이드를 “감”이 아니라 데이터를 기반으로 조정하는 게 가능해진다. 말 그대로 맞춤형 평가 기준 설계의 가능성이 열린다.

그런데 여기에는 전제가 하나 있다. 데이터가 ‘일관된 방식’으로 쌓여야 한다. HR에서 분석이 어려워지는 이유는 대개 모델이 어려워서가 아니라, 데이터가 “쓸 수 있는 상태”가 아니기 때문이다. 항목이 해마다 바뀌고, 평가 기준이 면접관마다 다르고, 같은 점수가 의미하는 행동이 서로 다르면 어떤 분석도 신뢰하기 어렵다. 결국 HR이 해야 할 일은 ‘분석을 잘하는 것’ 이전에, 분석 가능한 데이터를 만드는 습관을 조직에 심는 것이다.

실무적으로는 아래 세 가지부터 점검하는 게 좋다.

첫째, 평가 문항·척도·가이드를 고정하라. 해마다 문항이 바뀌거나 척도가 달라지면 연도 간 비교가 불가능해진다. “변수의 정의를 유지하는 것”이 데이터 품질의 출발점이다.

둘째, ‘부서/직무’ 정보를 과업 단위로 정리해 연결하라. 단순히 ‘경영지원/영업/기술엔지니어’ 같은 큰 단위만으로는 한계가 있다. 같은 경영지원이라도 실제 과업이 다르면 고성과 요인도 달라진다. 최소한 직무/팀/핵심과업이 데이터에 함께 붙어야, “왜 이 팀에서만 패턴이 다르게 보이는지”까지 해석할 수 있다.

셋째, 성과 지표의 성격을 명확히 기록하라. 성과가 절대평가인지 상대평가인지, 부서 성과가 개인 평가에 얼마나 반영되는지, 평가자·평가 주기가 어떻게 되는지 같은 메타정보가 있어야 분석 결과를 과해석하지 않는다. 같은 “고성과”라도 정의가 다르면 모델이 잡는 신호도 달라지기 때문이다.

정리하면, 앞으로의 승부는 ‘더 복잡한 분석 기법’이 아니라 데이터를 쌓는 방식의 표준화에서 갈린다. HR이 이 기준을 잡아두면, 채용은 더 정교해지고 배치는 더 안전해지며, 면접은 “그럴듯한 대화”에서 “성과를 예측하는 도구”로 조금씩 바뀐다. 그리고 그 변화는 대개 거창한 AI가 아니라, 작은 규칙을 지키는 것에서 시작된다.


허경필님 글 더보러 가기 : https://brunch.co.kr/@5dfce605c7664e8

Unpublish ON
previous arrow
next arrow