성과를 잘 내면서도 기존 구성원과 자연스럽게 어울려 일하는 인재를 뽑기 위해 인사담당자가 먼저 확인해야 할 것은 고성과자는 선발 시점에 어떤 신호를 보였는 가다. 같은 인적성 검사와 면접을 거쳤는데도 1년 뒤 성과가 갈렸다면, 그 차이를 만들어낸 신호는 이미 선발 단계의 기록 어딘가에 남아 있을 가능성이 높다.
이번 글에서는 L사의 신입을 대상으로, 선발 단계에서 측정한 항목들과 입사 1년 차 고성과/저성과의 관계를 알아보겠다.
1. 조직 전체 고성과 요인
먼저 고성과자와 저성과자의 평균 점수를 나란히 놓고 보면, 전체 그림은 생각보다 단순하다.

[표] 성과 – 역량별 평균 점수
위 표를 보면 대부분의 영역에서 고성과자가 저성과자보다 점수가 높다. 조직이해와 문제해결은 저성과자가 근소하게 높게 보이지만, 차이가 매우 작아 사실상 “비슷한 수준”으로 보는 편이 타당하다.
여기서 봐야 할 포인트는 개방성·성실성·정서적 안정성·전문성·팀워크에서 고성과자 평균이 저성과자보다 1점 내외로 뚜렷하게 벌어진다는 점이다. 즉, 이 다섯 가지가 고성과/저성과를 가르는 핵심 변수일 가능성이 크다.
이 차이를 채용 단계와 연결해서 다시 보면, 우리가 어디를 주목해야 하는지도 더 분명해진다. L사의 선발 프로세스는 다음 항목을 측정하고 있다.
– 인성검사: 개방성, 성실성, 우호성, 외향성, 정서적 안정성
– 적성검사: 전문성, 수리, 언어
– 면접평가: 팀워크, 조직이해, 문제해결
그런데 방금 확인한 핵심변수와 연결해서 보면, 적성검사와 면접평가에서의 핵심 변수는 각각 하나로(전문성, 팀워크) 인성검사 대비 상대적으로 변별력이 약한 것을 볼 수 있다.
2. 고성과-저성과 관계: 점수 차이가 실질적으로 의미가 있을까?
이전 글에서도 언급했듯, 평균 차이가 있어 보인다고 해서 바로 결론을 내릴 수는 없다. “우연히 그렇게 나온 것”일 수도 있기 때문이다. 그래서 두 집단 평균 차이를 확인하는 대표적 방법이 t-test다. 여기서부터는 “차이가 있다”가 아니라, “그 차이가 우연이 아닌지”를 확인하는 단계다.
귀무가설(H0): 고성과자와 저성과자의 평균 차이는 없다
대립가설(H1): 고성과자와 저성과자의 평균 차이는 있다

[표] t-test 결과(p-value, Cohen_d)
p가 0.05 이하이면 통계적으로 유의하다고 본다(대립가설을 지지). 다만 표본이 크면 p값은 쉽게 0.000으로 떨어지기 때문에 p값과 함께 효과크기(Cohen’s d)도 중요하게 봐야 한다.
Cohen_d: 효과크기(차이의 ‘실질적인’ 크기)
– |d| ≈ 0.2 → 작은 차이 (small)
– |d| ≈ 0.5 → 중간 차이 (medium)
– |d| ≥ 0.8 → 큰 차이 (large)
고성과/저성과를 “강하게 가르는” 변수들

이 다섯 가지는 고성과/저성과를 상대적으로 뚜렷하게 구분하는 변수들이다. 조직 전체를 기준으로 보면, 성실하고 정서적으로 안정적이며(정서적 안정성), 전문성을 갖추고, 팀워크가 좋고, 새로운 시도에 열린 사람(개방성)일수록 고성과자 집단에 속할 가능성이 더 높게 나타난다.
다만 여기서 반드시 짚고 넘어가야 할 점이 하나 있다. 이 결과를 곧바로 “이 다섯 가지가 성과의 원인이다”라고 해석해서는 안 된다. 이번 분석은 현재의 성과 평가 체계 아래에서 ‘고성과’로 분류된 사람들이 선발 당시 어떤 특징을 보였는지를 보여주는 결과다. 특히 역량 평가와 성과 평가가 같은 평가자에게서 나오거나(혹은 평가 항목이 서로 겹치거나), 평가 과정에서 ‘좋은 사람=일도 잘할 것’이라는 인상이 개입되면(할로 효과) 상관이 실제보다 더 크게 보일 수 있다.
그리고 또 하나의 중요한 질문이 남는다. “수리·언어·조직이해·문제해결은 정말 성과와 무관한 걸까?” 아니면 “중요한데, 평가가 제대로 작동하지 않는 걸까?” 이 둘은 처방이 완전히 다르다. 전자라면 측정의 우선순위를 조정하면 되지만, 후자라면 평가 기준·문항·면접 설계 자체를 손봐야 한다. 그래서 ‘유의하지 않다’는 결론에서 멈추기보다, 직무기술서(JD)와 평가 체계(문항·가이드·평가자 구성)를 다시 대조하면서 무엇이 빠져 있고 무엇이 과하게 측정되고 있는지까지 확인해 볼 필요가 있다.
3. 사업부별 고성과 차이: ‘조직 전체 정답’이 사업부에서는 다를 수 있다.
조직 전체에서 중요한 역량이 보인다고 해서, 그것이 개별 사업부의 고성과와 그대로 1:1로 연결된다고 보기는 어렵다. 각자 하는 일이 다르고, 성과 평가하는 기준도 다르기 때문이다.
그래서 이번에는 사업부별 고성과자 프로파일을 비교했다.

[히트맵] 사업부별 고성과자의 평균 점수
공통점부터 보자. 대부분의 사업부에서 고성과자들은 ‘기본 스펙’이 전반적으로 높다. 앞선 결과와 마찬가지로 성실성·정서적 안정성·전문성·팀워크 같은 축은 대체로 4점대 초반에서 안정적으로 나타난다. 즉, “어느 사업부든 성실하고, 협업이 잘 되고, 전문성이 있는 사람이 고성과자가 된다”는 공통 그림이 먼저 보인다.
다만 이 수준에서 멈추면 팀별로 무엇이 더 중요한지(차별점)를 잡기 어렵다. 그래서 Z-score를 활용해 한 번 더 들여다봤다. Z-score는 쉽게 말해, “전체 사업부의 고성과자 대비 특정 사업부의 고성과자 점수가 평균 대비 얼마나 위/아래로 벗어나 있는지”를 보여주는 지표다. 점수가 높을수록 그 사업부 고성과자에게 상대적으로 더 두드러지는 특성이라고 해석할 수 있다.
Z-Score : 평균에서 떨어진 정도
– 0: 전체 평균과 비슷
– ±0.2 전후: 조금 높은 편
– ±0.5 이상: 꽤 높은 편
– ±1 이상: 상당히 높은 편 (해당 사업부의 ‘특이점’에 가까움)

[히트맵] 사업부별 고성과자 평균 점수(Z-score)
3-1. AD(경영지원): 외향성이 유독 튀는 고성과자 프로파일
경영지원의 고성과자는 외향성(+1.11)이 유독 높다. 개방성(+0.16), 언어(0.11)는 약간 높고, 문제해결(-0.27), 우호성(-0.19)은 전체 고성과자 평균보다 낮은 편이다.
앞선 조직 전체 분석에서 외향성은 평균이 가장 낮고, 표준편차는 가장 큰 항목이었다. 즉 조직 전체에서는 외향성이 ‘공통 스펙’이 아니라 특정 집단에서만 튀는 변수일 가능성이 높다고 봤는데, 실제로 그 ‘튀는 지점’이 경영지원에서 확인된 셈이다.
이 결과를 경영지원의 저성과 비율과 연결해 보면, 한 가지 가설이 나온다. 경영지원에서 요구되는 핵심 행동이 ‘외향성 기반의 조율·커뮤니케이션’인데, 선발 과정에서는 그 신호를 충분히 반영하지 못해 미스매치가 누적되고 있을 수 있다는 것이다.
3-2. SL(영업): “말 잘하는 영업”이 아니라 “기술 영업”일 수 있다
영업 고성과자는 전문성(+0.20)이 가장 두드러지고, 조직이해(+0.08), 우호성(+0.05)은 약간 높다. 반면 외향성(-0.25), 성실성(-0.17), 문제해결(-0.17), 수리(-0.12)는 전체 고성과자 평균보다 낮은 편이다.
해석하면, 영업에서 성과를 내는 사람은 ‘말을 잘하는 외향형 영업’이라기보다, 제품/서비스 이해(전문성)를 기반으로 신뢰를 만드는 유형일 가능성이 있다. 즉 기술영업/솔루션형 영업에 가까운 그림이 보인다.
다만 이 차이는 Z-score가 대체로 ±0.2~0.3 수준이어서 “극단적으로 다른 집단”이라기보다는, 고성과자 내부에서 조금 더 그쪽으로 기울어진 경향으로 읽는 것이 안전하다.
4. 실무 적용 인사이트: 채용·면접에서 당장 점검할 것들
4-1. 조직 공통: “핵심 변수”를 중심으로 평가하라
L사의 데이터를 보면, 조직 전체에서 고성과를 뚜렷하게 가르는 변수는 성실성·정서적 안정성·전문성·팀워크·개방성이다. 반대로 수리·언어·조직이해·문제해결은 고성과/저성과를 거의 구분하지 못한다. 다만 이 결과는 “옳고 그름”의 판단이 아니라, 현재의 평가 체계가 무엇을 강하게 드러내고 있는지를 보여주는 스냅샷에 가깝다. 따라서 곧바로 측정 항목을 버리기보다, 측정 방식과 해석부터 다시 점검하는 접근이 필요하다.
먼저 조직 공통 역량으로 무엇을 둘 것인지 재정렬해야 한다. 위의 다섯 가지가 정말로 조직 전반에 공통 적용 가능한 기준인지를 확인하는 가장 현실적인 방법은, 직무기술서(JD)를 기준으로 한 고성과자 FGI(또는 인터뷰)다. 이를 통해 “성실성·정서적 안정성·전문성·팀워크·개방성”이 실제 업무에서 어떤 과업과 연결되는지를 구체적인 행동지표로 정의할 필요가 있다.
동시에 변별력이 낮게 나온 항목들(수리·언어·조직이해·문제해결)에 대해서도 성급한 결론을 피해야 한다. 이 항목들이 실제로 성과와 큰 관련이 없는 역량일 수도 있고, 반대로 중요하지만 평가 기준이 모호해 모두 비슷한 점수를 받고 있는 영역일 수도 있다. 이 두 가능성은 처방이 완전히 다르다. 따라서 JD의 핵심 과업, 현업의 실제 업무 흐름, 평가 문항과 가이드를 함께 대조하며, ‘불필요한 역량’인지 ‘잘못 평가되고 있는 역량’인지를 분리해 점검하는 과정이 필요하다.
4-2. 사업부/직무: “구조화 면접”을 통해 평가자 오류를 축소시켜라
L사의 데이터에서 또 하나 눈에 띄는 점은, 면접 단계에서 평가하는 역량들이 고성과자를 구분하는 데 거의 기여하지 못하고 있다는 사실이다. 이는 L사만의 특수한 문제가 아니라, 컨설팅 현장에서 많은 기업들이 반복적으로 언급하는 문제이기도 하다. 표면적으로 보면 면접은 다양한 역량을 종합적으로 확인하는 단계처럼 보인다. 하지만 실제로는 성과와 연결되지 않는 평가가 이루어지는 경우가 적지 않다. 그 이유는 크게 두 가지로 정리할 수 있다.
첫 번째 원인은 직무별 요구 역량이 다른데도 동일한 기준으로 사람을 뽑고 있다는 점이다. 기술엔지니어, 영업, 경영지원의 ‘문제해결’과 ‘조직이해’가 같을 수는 없다. 하지만 면접 질문은 대개 “문제를 해결했던 경험을 말해보라”, “조직을 이해하고 협업했던 사례를 말해보라”처럼 추상적인 수준에 머문다. 이런 질문은 어느 팀에도 완전히 맞지 않고, 동시에 어느 팀에도 완전히 틀리지도 않는다. 결과적으로 지원자의 실제 수행능력을 가려내기보다, 말의 구조나 표현력에 좌우되기 쉽다.
두 번째 원인은 평가 기준의 부재다. 같은 질문을 던졌다고 해서 같은 평가가 이루어지지는 않는다. 평가자가 무엇을 중요하게 보느냐에 따라 질문의 방향도, 점수를 주는 기준도 달라진다. 어떤 면접관은 ‘조직이해’를 충성도나 태도로 해석하고 다른 면접관은 의사결정 구조에 대한 이해로 해석할 수 있다. 이처럼 기준이 정리되지 않은 상태에서는, 같은 지원자라도 누구를 만나느냐에 따라 점수가 달라지는 평가자 오류가 발생할 수밖에 없다.
이 문제를 해결하기 위해 가장 먼저 점검해야 할 것은, 팀 또는 직무별로 구조화된 면접 질문을 사용하고 있는지다. 면접관들이 말하는 ‘조직이해’와 ‘문제해결’은 팀마다 의미가 다를 수 있다. 공통 질문만으로는 팀의 실제 업무 맥락을 반영하기 어렵다. 따라서 타당도와 신뢰도가 확보되지 않은 면접은 계속해서 “그럴듯하지만 성과와는 먼 단계”로 남게 된다.
– 타당도: 팀의 실제 과업과 고성과 행동을 기준으로 질문을 설계하는 것
– 신뢰도: 구조화된 질문과 평가 기준으로 평가의 일관성을 확보하는 것
실무적으로는 면접 단계를 다음과 같이 나누는 방식을 권한다.
1차 면접 (J-Fit) : 직무 적합성 중심 면접
직무기술서(JD)를 기반으로 과업·상황·산출물을 중심으로 질문을 구성하고, 실제 수행 능력과 전문성을 검증한다.
2차 면접 (O-Fit) : 조직 적합성 중심 면접
팀워크와 조직이해를 보되, 추상적인 질문 대신 현업에서 실제로 발생하는 상황을 기반으로 사례 질문을 재구성한다. 여기에 조직의 핵심가치와 일하는 방식을 연결해 평가한다.
4-3. 사례: N사의 구조화 면접 설계
마지막으로, 실제 적용 사례를 하나 소개하며 정리해 보자.
N사(약 130명 규모)는 공통 질문 중심의 채용을 진행해 왔지만, 빠른 성장 과정에서 팀별 미스매치가 늘어나는 문제를 겪었다. 이에 따라 금년 직무별 구조화 면접 질문지를 새로 구축하는 컨설팅을 진행했다.
먼저 직무기술서를 기반으로 핵심 과업과 고성과에 기여하는 역량을 도출했고, 이를 확인할 수 있는 행동사례 질문과 명확한 평가 기준을 만들었다. 이후 면접관 교육을 통해 모든 면접관이 동일한 질문과 기준으로 면접을 진행하도록 하는 계획을 갖고 있다.
더 나아가, N사는 각 문항의 평가 결과를 실제 성과와 연결해 보며, 문항의 타당도와 신뢰도를 지속적으로 점검·업데이트하는 구조를 만들고 있다.


허경필님 글 더보러 가기 : https://brunch.co.kr/@5dfce605c7664e8
성과를 잘 내면서도 기존 구성원과 자연스럽게 어울려 일하는 인재를 뽑기 위해 인사담당자가 먼저 확인해야 할 것은 고성과자는 선발 시점에 어떤 신호를 보였는 가다. 같은 인적성 검사와 면접을 거쳤는데도 1년 뒤 성과가 갈렸다면, 그 차이를 만들어낸 신호는 이미 선발 단계의 기록 어딘가에 남아 있을 가능성이 높다.
이번 글에서는 L사의 신입을 대상으로, 선발 단계에서 측정한 항목들과 입사 1년 차 고성과/저성과의 관계를 알아보겠다.
1. 조직 전체 고성과 요인
먼저 고성과자와 저성과자의 평균 점수를 나란히 놓고 보면, 전체 그림은 생각보다 단순하다.

[표] 성과 – 역량별 평균 점수
위 표를 보면 대부분의 영역에서 고성과자가 저성과자보다 점수가 높다. 조직이해와 문제해결은 저성과자가 근소하게 높게 보이지만, 차이가 매우 작아 사실상 “비슷한 수준”으로 보는 편이 타당하다.
여기서 봐야 할 포인트는 개방성·성실성·정서적 안정성·전문성·팀워크에서 고성과자 평균이 저성과자보다 1점 내외로 뚜렷하게 벌어진다는 점이다. 즉, 이 다섯 가지가 고성과/저성과를 가르는 핵심 변수일 가능성이 크다.
이 차이를 채용 단계와 연결해서 다시 보면, 우리가 어디를 주목해야 하는지도 더 분명해진다. L사의 선발 프로세스는 다음 항목을 측정하고 있다.
– 인성검사: 개방성, 성실성, 우호성, 외향성, 정서적 안정성
– 적성검사: 전문성, 수리, 언어
– 면접평가: 팀워크, 조직이해, 문제해결
그런데 방금 확인한 핵심변수와 연결해서 보면, 적성검사와 면접평가에서의 핵심 변수는 각각 하나로(전문성, 팀워크) 인성검사 대비 상대적으로 변별력이 약한 것을 볼 수 있다.
2. 고성과-저성과 관계: 점수 차이가 실질적으로 의미가 있을까?
이전 글에서도 언급했듯, 평균 차이가 있어 보인다고 해서 바로 결론을 내릴 수는 없다. “우연히 그렇게 나온 것”일 수도 있기 때문이다. 그래서 두 집단 평균 차이를 확인하는 대표적 방법이 t-test다. 여기서부터는 “차이가 있다”가 아니라, “그 차이가 우연이 아닌지”를 확인하는 단계다.
귀무가설(H0): 고성과자와 저성과자의 평균 차이는 없다
대립가설(H1): 고성과자와 저성과자의 평균 차이는 있다

[표] t-test 결과(p-value, Cohen_d)
p가 0.05 이하이면 통계적으로 유의하다고 본다(대립가설을 지지). 다만 표본이 크면 p값은 쉽게 0.000으로 떨어지기 때문에 p값과 함께 효과크기(Cohen’s d)도 중요하게 봐야 한다.
Cohen_d: 효과크기(차이의 ‘실질적인’ 크기)
– |d| ≈ 0.2 → 작은 차이 (small)
– |d| ≈ 0.5 → 중간 차이 (medium)
– |d| ≥ 0.8 → 큰 차이 (large)
고성과/저성과를 “강하게 가르는” 변수들

이 다섯 가지는 고성과/저성과를 상대적으로 뚜렷하게 구분하는 변수들이다. 조직 전체를 기준으로 보면, 성실하고 정서적으로 안정적이며(정서적 안정성), 전문성을 갖추고, 팀워크가 좋고, 새로운 시도에 열린 사람(개방성)일수록 고성과자 집단에 속할 가능성이 더 높게 나타난다.
다만 여기서 반드시 짚고 넘어가야 할 점이 하나 있다. 이 결과를 곧바로 “이 다섯 가지가 성과의 원인이다”라고 해석해서는 안 된다. 이번 분석은 현재의 성과 평가 체계 아래에서 ‘고성과’로 분류된 사람들이 선발 당시 어떤 특징을 보였는지를 보여주는 결과다. 특히 역량 평가와 성과 평가가 같은 평가자에게서 나오거나(혹은 평가 항목이 서로 겹치거나), 평가 과정에서 ‘좋은 사람=일도 잘할 것’이라는 인상이 개입되면(할로 효과) 상관이 실제보다 더 크게 보일 수 있다.
그리고 또 하나의 중요한 질문이 남는다. “수리·언어·조직이해·문제해결은 정말 성과와 무관한 걸까?” 아니면 “중요한데, 평가가 제대로 작동하지 않는 걸까?” 이 둘은 처방이 완전히 다르다. 전자라면 측정의 우선순위를 조정하면 되지만, 후자라면 평가 기준·문항·면접 설계 자체를 손봐야 한다. 그래서 ‘유의하지 않다’는 결론에서 멈추기보다, 직무기술서(JD)와 평가 체계(문항·가이드·평가자 구성)를 다시 대조하면서 무엇이 빠져 있고 무엇이 과하게 측정되고 있는지까지 확인해 볼 필요가 있다.
3. 사업부별 고성과 차이: ‘조직 전체 정답’이 사업부에서는 다를 수 있다.
조직 전체에서 중요한 역량이 보인다고 해서, 그것이 개별 사업부의 고성과와 그대로 1:1로 연결된다고 보기는 어렵다. 각자 하는 일이 다르고, 성과 평가하는 기준도 다르기 때문이다.
그래서 이번에는 사업부별 고성과자 프로파일을 비교했다.

[히트맵] 사업부별 고성과자의 평균 점수
공통점부터 보자. 대부분의 사업부에서 고성과자들은 ‘기본 스펙’이 전반적으로 높다. 앞선 결과와 마찬가지로 성실성·정서적 안정성·전문성·팀워크 같은 축은 대체로 4점대 초반에서 안정적으로 나타난다. 즉, “어느 사업부든 성실하고, 협업이 잘 되고, 전문성이 있는 사람이 고성과자가 된다”는 공통 그림이 먼저 보인다.
다만 이 수준에서 멈추면 팀별로 무엇이 더 중요한지(차별점)를 잡기 어렵다. 그래서 Z-score를 활용해 한 번 더 들여다봤다. Z-score는 쉽게 말해, “전체 사업부의 고성과자 대비 특정 사업부의 고성과자 점수가 평균 대비 얼마나 위/아래로 벗어나 있는지”를 보여주는 지표다. 점수가 높을수록 그 사업부 고성과자에게 상대적으로 더 두드러지는 특성이라고 해석할 수 있다.
Z-Score : 평균에서 떨어진 정도
– 0: 전체 평균과 비슷
– ±0.2 전후: 조금 높은 편
– ±0.5 이상: 꽤 높은 편
– ±1 이상: 상당히 높은 편 (해당 사업부의 ‘특이점’에 가까움)

[히트맵] 사업부별 고성과자 평균 점수(Z-score)
3-1. AD(경영지원): 외향성이 유독 튀는 고성과자 프로파일
경영지원의 고성과자는 외향성(+1.11)이 유독 높다. 개방성(+0.16), 언어(0.11)는 약간 높고, 문제해결(-0.27), 우호성(-0.19)은 전체 고성과자 평균보다 낮은 편이다.
앞선 조직 전체 분석에서 외향성은 평균이 가장 낮고, 표준편차는 가장 큰 항목이었다. 즉 조직 전체에서는 외향성이 ‘공통 스펙’이 아니라 특정 집단에서만 튀는 변수일 가능성이 높다고 봤는데, 실제로 그 ‘튀는 지점’이 경영지원에서 확인된 셈이다.
이 결과를 경영지원의 저성과 비율과 연결해 보면, 한 가지 가설이 나온다. 경영지원에서 요구되는 핵심 행동이 ‘외향성 기반의 조율·커뮤니케이션’인데, 선발 과정에서는 그 신호를 충분히 반영하지 못해 미스매치가 누적되고 있을 수 있다는 것이다.
3-2. SL(영업): “말 잘하는 영업”이 아니라 “기술 영업”일 수 있다
영업 고성과자는 전문성(+0.20)이 가장 두드러지고, 조직이해(+0.08), 우호성(+0.05)은 약간 높다. 반면 외향성(-0.25), 성실성(-0.17), 문제해결(-0.17), 수리(-0.12)는 전체 고성과자 평균보다 낮은 편이다.
해석하면, 영업에서 성과를 내는 사람은 ‘말을 잘하는 외향형 영업’이라기보다, 제품/서비스 이해(전문성)를 기반으로 신뢰를 만드는 유형일 가능성이 있다. 즉 기술영업/솔루션형 영업에 가까운 그림이 보인다.
다만 이 차이는 Z-score가 대체로 ±0.2~0.3 수준이어서 “극단적으로 다른 집단”이라기보다는, 고성과자 내부에서 조금 더 그쪽으로 기울어진 경향으로 읽는 것이 안전하다.
4. 실무 적용 인사이트: 채용·면접에서 당장 점검할 것들
4-1. 조직 공통: “핵심 변수”를 중심으로 평가하라
L사의 데이터를 보면, 조직 전체에서 고성과를 뚜렷하게 가르는 변수는 성실성·정서적 안정성·전문성·팀워크·개방성이다. 반대로 수리·언어·조직이해·문제해결은 고성과/저성과를 거의 구분하지 못한다. 다만 이 결과는 “옳고 그름”의 판단이 아니라, 현재의 평가 체계가 무엇을 강하게 드러내고 있는지를 보여주는 스냅샷에 가깝다. 따라서 곧바로 측정 항목을 버리기보다, 측정 방식과 해석부터 다시 점검하는 접근이 필요하다.
먼저 조직 공통 역량으로 무엇을 둘 것인지 재정렬해야 한다. 위의 다섯 가지가 정말로 조직 전반에 공통 적용 가능한 기준인지를 확인하는 가장 현실적인 방법은, 직무기술서(JD)를 기준으로 한 고성과자 FGI(또는 인터뷰)다. 이를 통해 “성실성·정서적 안정성·전문성·팀워크·개방성”이 실제 업무에서 어떤 과업과 연결되는지를 구체적인 행동지표로 정의할 필요가 있다.
동시에 변별력이 낮게 나온 항목들(수리·언어·조직이해·문제해결)에 대해서도 성급한 결론을 피해야 한다. 이 항목들이 실제로 성과와 큰 관련이 없는 역량일 수도 있고, 반대로 중요하지만 평가 기준이 모호해 모두 비슷한 점수를 받고 있는 영역일 수도 있다. 이 두 가능성은 처방이 완전히 다르다. 따라서 JD의 핵심 과업, 현업의 실제 업무 흐름, 평가 문항과 가이드를 함께 대조하며, ‘불필요한 역량’인지 ‘잘못 평가되고 있는 역량’인지를 분리해 점검하는 과정이 필요하다.
4-2. 사업부/직무: “구조화 면접”을 통해 평가자 오류를 축소시켜라
L사의 데이터에서 또 하나 눈에 띄는 점은, 면접 단계에서 평가하는 역량들이 고성과자를 구분하는 데 거의 기여하지 못하고 있다는 사실이다. 이는 L사만의 특수한 문제가 아니라, 컨설팅 현장에서 많은 기업들이 반복적으로 언급하는 문제이기도 하다. 표면적으로 보면 면접은 다양한 역량을 종합적으로 확인하는 단계처럼 보인다. 하지만 실제로는 성과와 연결되지 않는 평가가 이루어지는 경우가 적지 않다. 그 이유는 크게 두 가지로 정리할 수 있다.
첫 번째 원인은 직무별 요구 역량이 다른데도 동일한 기준으로 사람을 뽑고 있다는 점이다. 기술엔지니어, 영업, 경영지원의 ‘문제해결’과 ‘조직이해’가 같을 수는 없다. 하지만 면접 질문은 대개 “문제를 해결했던 경험을 말해보라”, “조직을 이해하고 협업했던 사례를 말해보라”처럼 추상적인 수준에 머문다. 이런 질문은 어느 팀에도 완전히 맞지 않고, 동시에 어느 팀에도 완전히 틀리지도 않는다. 결과적으로 지원자의 실제 수행능력을 가려내기보다, 말의 구조나 표현력에 좌우되기 쉽다.
두 번째 원인은 평가 기준의 부재다. 같은 질문을 던졌다고 해서 같은 평가가 이루어지지는 않는다. 평가자가 무엇을 중요하게 보느냐에 따라 질문의 방향도, 점수를 주는 기준도 달라진다. 어떤 면접관은 ‘조직이해’를 충성도나 태도로 해석하고 다른 면접관은 의사결정 구조에 대한 이해로 해석할 수 있다. 이처럼 기준이 정리되지 않은 상태에서는, 같은 지원자라도 누구를 만나느냐에 따라 점수가 달라지는 평가자 오류가 발생할 수밖에 없다.
이 문제를 해결하기 위해 가장 먼저 점검해야 할 것은, 팀 또는 직무별로 구조화된 면접 질문을 사용하고 있는지다. 면접관들이 말하는 ‘조직이해’와 ‘문제해결’은 팀마다 의미가 다를 수 있다. 공통 질문만으로는 팀의 실제 업무 맥락을 반영하기 어렵다. 따라서 타당도와 신뢰도가 확보되지 않은 면접은 계속해서 “그럴듯하지만 성과와는 먼 단계”로 남게 된다.
– 타당도: 팀의 실제 과업과 고성과 행동을 기준으로 질문을 설계하는 것
– 신뢰도: 구조화된 질문과 평가 기준으로 평가의 일관성을 확보하는 것
실무적으로는 면접 단계를 다음과 같이 나누는 방식을 권한다.
1차 면접 (J-Fit) : 직무 적합성 중심 면접
직무기술서(JD)를 기반으로 과업·상황·산출물을 중심으로 질문을 구성하고, 실제 수행 능력과 전문성을 검증한다.
2차 면접 (O-Fit) : 조직 적합성 중심 면접
팀워크와 조직이해를 보되, 추상적인 질문 대신 현업에서 실제로 발생하는 상황을 기반으로 사례 질문을 재구성한다. 여기에 조직의 핵심가치와 일하는 방식을 연결해 평가한다.
4-3. 사례: N사의 구조화 면접 설계
마지막으로, 실제 적용 사례를 하나 소개하며 정리해 보자.
N사(약 130명 규모)는 공통 질문 중심의 채용을 진행해 왔지만, 빠른 성장 과정에서 팀별 미스매치가 늘어나는 문제를 겪었다. 이에 따라 금년 직무별 구조화 면접 질문지를 새로 구축하는 컨설팅을 진행했다.
먼저 직무기술서를 기반으로 핵심 과업과 고성과에 기여하는 역량을 도출했고, 이를 확인할 수 있는 행동사례 질문과 명확한 평가 기준을 만들었다. 이후 면접관 교육을 통해 모든 면접관이 동일한 질문과 기준으로 면접을 진행하도록 하는 계획을 갖고 있다.
더 나아가, N사는 각 문항의 평가 결과를 실제 성과와 연결해 보며, 문항의 타당도와 신뢰도를 지속적으로 점검·업데이트하는 구조를 만들고 있다.


허경필님 글 더보러 가기 : https://brunch.co.kr/@5dfce605c7664e8


