Hanwha Investment & Securities|AI Data Scientist

Job Description

  • Position: ​AI ​Data ​Scientist
  • Affiliate: Hanwha ​Investment & Securities
  • Location: Yeouido, ​Seoul
  • Position ​Type: Conversion ​Track (Full-time offer ​available)


  • Responsibilities

– Internal ​AI ​Service Planning

  • Support ​planning ​of ​internal AI services ​within ​a restricted internal ​network
  • Assist ​with ​documentation and storytelling ​for non-technical ​stakeholders

– ​sLLM Testing ​& Validation

  • Test ​and ​validate internal small ​LLM (sLLM) ​models to improve accuracy
  • Support prompt design, simple RAG use cases, and hallucination evaluation


  • Required/Preferred Qualifications

– Language requirements : Fluent in Korean and English (written and spoken)

– Background in Computer Science, Statistics, or Engineering preferred (graduating by May 2026)

   – Comfortable with Python (Pandas, NumPy) and basic SQL

   – Familiarity with LLM fundamentals (prompting, basic RAG) and vector databases

   – Basic knowledge of Docker; experience with agent design and model serving (e.g., vLLM,

Ollama) is a plus


  • Required Documents for Application

– Resume

– Case Study answer

※ You may submit your case study in either Korean or English


Case Study

  • Submit a detailed up to 2~3 page analysis on one of the two questions below

*Choose one of the two questions to answer

*You do not need to answer both questions

아래 Q1과 Q2 과제 중 하나를 선택하여 답변해주세요. 대부분의 답안은 최신 LLM을 사용하면 좋은 답을 구할 수 있으나 문제에 대해 좀 더 고민하고 자신의 역량을 보여줄 수 있는 방향으로 기술해주시기 바랍니다. 코드를 보충 자료로 제출하시고 싶은 지원자분께서는 GitHub를 활용하여 공유해주시면 감사하겠습니다. (2~3페이지 분량)

Q1. 전통 머신러닝: 금융 데이터 기반의 신용 점수 모델

은행 고객의 대출 상환 여부를 예측하는 분류(Classification) 모델을 개발해야 합니다. 데이터는 수백 개의 피처(Feature)를 포함하며, 클래스 불균형(Class Imbalance)이 매우 심한 상태입니다.

질문1: 수백 개의 피처 중 실제 예측에 유효한 변수를 선별해야 합니다. Lasso(L1) 규제를 사용했을 때 변수 선택이 일어나는 수학적 원리를 설명하고, 피처 간 다중공선성(Multicollinearity)이 존재할 때 트리 기반 모델(Random Forest 등)과 선형 모델(Logistic Regression)이 각각 어떤 영향을 받는지 비교하세요.

질문2: 상환 불이행자(Minority Class)를 찾아내는 것이 핵심입니다. 단순히 Accuracy(정확도)가 높은 모델은 위험합니다. 이를 해결하기 위해 F1-Score나 AUCPR을 평가지표로 삼는 이유를 설명하고, 학습 과정에서 SMOTE 같은 데이터 증강이나 Cost-sensitive Learning(Class Weight 부여) 중 어떤 접근이 더 견고(Robust)하다고 생각하는지 논리적으로 기술하세요.

질문3: 모델이 학습 데이터에서는 잘 작동하나 실전에서 성능이 하락합니다. Bias-Variance Trade-off 관점에서 이 현상을 진단하고, 시간이 흐름에 따라 고객의 행동 패턴이 변하는 Concept Drift 상황을 감지하기 위한 통계적 방법(예: PSI, CSI 등)을 제안하세요. 또한, 이를 방지하기 위한 재학습(Retraining) 주기는 어떻게 결정하시겠습니까?

—————————-

Q2. LLM

우리 회사는 사내 기술 문서를 기반으로 답변하는 챗봇을 만들었습니다. 그런데 사용자가 “A 프로젝트의 API키는 어디서 발급받아?”라고 물었을 때, 챗봇이 엉뚱한 문서를 참조하거나 거짓 정보를 생성하는 문제가 발생했습니다. 벡터DB/임베딩 모델/청크 전략은 아직 고정되지 않았습니다.

질문1: RAG 시스템의 첫 단계는 방대한 문서를 청크(Chunk)로 나누고 벡터화하는 것입니다. 문항의 길이가 매우 길거나(Long-context) 도메인 특화 용어가 많을 때, 단순한 Cosine Similarity 기반의 검색이 가진 한계점은 무엇입니까? 이를 극복하기 위해 하이브리드 검색(Hybrid Search)이나 Re-ranking을 어떻게 구성하시겠습니까?

질문2: 검색된 문서(Context)를 LLM에 전달할 때, 문서의 순서가 모델의 답변 품질에 미치는 영향(Lost in the Middle 현상)에 대해 설명하세요. 또한, 검색된 내용에 정답이 없을 경우 모델이 거짓 정보를 생성(Hallucination)하지 않도록 만드는 프롬프트 엔지니어링 전략과 In-context Learning 최적화 방안은 무엇입니까?

질문3: RAG 시스템은 ‘검색 성능’과 ‘생성 성능’ 두 가지를 모두 평가해야 합니다. 정답(Ground Truth)이 없는 실제 운영 환경에서 RAGAS(RAG Assessment)와 같은 프레임워크가 제안하는 핵심 지표(예: Faithfulness, Answer Relevance 등)를 설명하고, 이를 지속적으로 모니터링하기 위한 LLMOps 파이프라인을 어떻게 설계하시겠습니까?


Logistics & Disclaimer

  • This is a paid internship.
  • Applicants are advised to thoroughly review their applications for accuracy and completeness before submission. We will not be responsible for any disadvantages in the selection process resulting from any errors or omissions.
  • In the case of any fraudulent recruitment practices or suspicion of any unethical behavior, the offer of internship may be revoked.
  • False information or failure to provide verifiable documentation when requested will result in the withdrawal of the internship offer.
  • Individuals with registered disabilities and those eligible for veteran’s benefits will be given preferential treatment in accordance with relevant laws and internal regulations.
  • All communication regarding the progress of your application and screening results will be conducted via email. Please ensure your email address is correctly entered.


마감기한
2026년 01월 26일, 12:59

지원하러 가기

Job Description

  • Position: ​AI ​Data ​Scientist
  • Affiliate: Hanwha ​Investment & Securities
  • Location: Yeouido, ​Seoul
  • Position ​Type: Conversion ​Track (Full-time offer ​available)


  • Responsibilities

– Internal ​AI ​Service Planning

  • Support ​planning ​of ​internal AI services ​within ​a restricted internal ​network
  • Assist ​with ​documentation and storytelling ​for non-technical ​stakeholders

– ​sLLM Testing ​& Validation

  • Test ​and ​validate internal small ​LLM (sLLM) ​models to improve accuracy
  • Support prompt design, simple RAG use cases, and hallucination evaluation


  • Required/Preferred Qualifications

– Language requirements : Fluent in Korean and English (written and spoken)

– Background in Computer Science, Statistics, or Engineering preferred (graduating by May 2026)

   – Comfortable with Python (Pandas, NumPy) and basic SQL

   – Familiarity with LLM fundamentals (prompting, basic RAG) and vector databases

   – Basic knowledge of Docker; experience with agent design and model serving (e.g., vLLM,

Ollama) is a plus


  • Required Documents for Application

– Resume

– Case Study answer

※ You may submit your case study in either Korean or English


Case Study

  • Submit a detailed up to 2~3 page analysis on one of the two questions below

*Choose one of the two questions to answer

*You do not need to answer both questions

아래 Q1과 Q2 과제 중 하나를 선택하여 답변해주세요. 대부분의 답안은 최신 LLM을 사용하면 좋은 답을 구할 수 있으나 문제에 대해 좀 더 고민하고 자신의 역량을 보여줄 수 있는 방향으로 기술해주시기 바랍니다. 코드를 보충 자료로 제출하시고 싶은 지원자분께서는 GitHub를 활용하여 공유해주시면 감사하겠습니다. (2~3페이지 분량)

Q1. 전통 머신러닝: 금융 데이터 기반의 신용 점수 모델

은행 고객의 대출 상환 여부를 예측하는 분류(Classification) 모델을 개발해야 합니다. 데이터는 수백 개의 피처(Feature)를 포함하며, 클래스 불균형(Class Imbalance)이 매우 심한 상태입니다.

질문1: 수백 개의 피처 중 실제 예측에 유효한 변수를 선별해야 합니다. Lasso(L1) 규제를 사용했을 때 변수 선택이 일어나는 수학적 원리를 설명하고, 피처 간 다중공선성(Multicollinearity)이 존재할 때 트리 기반 모델(Random Forest 등)과 선형 모델(Logistic Regression)이 각각 어떤 영향을 받는지 비교하세요.

질문2: 상환 불이행자(Minority Class)를 찾아내는 것이 핵심입니다. 단순히 Accuracy(정확도)가 높은 모델은 위험합니다. 이를 해결하기 위해 F1-Score나 AUCPR을 평가지표로 삼는 이유를 설명하고, 학습 과정에서 SMOTE 같은 데이터 증강이나 Cost-sensitive Learning(Class Weight 부여) 중 어떤 접근이 더 견고(Robust)하다고 생각하는지 논리적으로 기술하세요.

질문3: 모델이 학습 데이터에서는 잘 작동하나 실전에서 성능이 하락합니다. Bias-Variance Trade-off 관점에서 이 현상을 진단하고, 시간이 흐름에 따라 고객의 행동 패턴이 변하는 Concept Drift 상황을 감지하기 위한 통계적 방법(예: PSI, CSI 등)을 제안하세요. 또한, 이를 방지하기 위한 재학습(Retraining) 주기는 어떻게 결정하시겠습니까?

—————————-

Q2. LLM

우리 회사는 사내 기술 문서를 기반으로 답변하는 챗봇을 만들었습니다. 그런데 사용자가 “A 프로젝트의 API키는 어디서 발급받아?”라고 물었을 때, 챗봇이 엉뚱한 문서를 참조하거나 거짓 정보를 생성하는 문제가 발생했습니다. 벡터DB/임베딩 모델/청크 전략은 아직 고정되지 않았습니다.

질문1: RAG 시스템의 첫 단계는 방대한 문서를 청크(Chunk)로 나누고 벡터화하는 것입니다. 문항의 길이가 매우 길거나(Long-context) 도메인 특화 용어가 많을 때, 단순한 Cosine Similarity 기반의 검색이 가진 한계점은 무엇입니까? 이를 극복하기 위해 하이브리드 검색(Hybrid Search)이나 Re-ranking을 어떻게 구성하시겠습니까?

질문2: 검색된 문서(Context)를 LLM에 전달할 때, 문서의 순서가 모델의 답변 품질에 미치는 영향(Lost in the Middle 현상)에 대해 설명하세요. 또한, 검색된 내용에 정답이 없을 경우 모델이 거짓 정보를 생성(Hallucination)하지 않도록 만드는 프롬프트 엔지니어링 전략과 In-context Learning 최적화 방안은 무엇입니까?

질문3: RAG 시스템은 ‘검색 성능’과 ‘생성 성능’ 두 가지를 모두 평가해야 합니다. 정답(Ground Truth)이 없는 실제 운영 환경에서 RAGAS(RAG Assessment)와 같은 프레임워크가 제안하는 핵심 지표(예: Faithfulness, Answer Relevance 등)를 설명하고, 이를 지속적으로 모니터링하기 위한 LLMOps 파이프라인을 어떻게 설계하시겠습니까?


Logistics & Disclaimer

  • This is a paid internship.
  • Applicants are advised to thoroughly review their applications for accuracy and completeness before submission. We will not be responsible for any disadvantages in the selection process resulting from any errors or omissions.
  • In the case of any fraudulent recruitment practices or suspicion of any unethical behavior, the offer of internship may be revoked.
  • False information or failure to provide verifiable documentation when requested will result in the withdrawal of the internship offer.
  • Individuals with registered disabilities and those eligible for veteran’s benefits will be given preferential treatment in accordance with relevant laws and internal regulations.
  • All communication regarding the progress of your application and screening results will be conducted via email. Please ensure your email address is correctly entered.


마감기한
2026년 01월 26일, 12:59

지원하러 가기

기업 사정으로 조기 마감되거나 내용이 변경될 수 있습니다

기업 사정으로 조기 마감되거나 내용이 변경될 수 있습니다

Unpublish ON
previous arrow
next arrow