LLM-Generated JLPT Item Validation: Schema Repair, Difficulty Drift, and Distractor Failure Modes

LLM로 JLPT형 객관식 문항을 생성할 때 핵심 리스크는 “문항이 일본어처럼 보이는가”가 아니라, 목표 JLPT 레벨·문법 기능·어휘 통제·정답 유일성·오답지 기능성 이 유지되는가이다. JLPT 공식 자료는 레벨별 언어행동·언어지식의 범위를 제시하지만, 실제 문항 생성용 세부 distractor 작성 규칙이나 psychometric validation schema를 공개적으로 충분히 제공하지는 않는다. 따라서 LLM 기반 JLPT 문항 생성 파이프라인은 공식

Summary#

LLM로 JLPT형 객관식 문항을 생성할 때 핵심 리스크는 “문항이 일본어처럼 보이는가”가 아니라, 목표 JLPT 레벨·문법 기능·어휘 통제·정답 유일성·오답지 기능성이 유지되는가이다. JLPT 공식 자료는 레벨별 언어행동·언어지식의 범위를 제시하지만, 실제 문항 생성용 세부 distractor 작성 규칙이나 psychometric validation schema를 공개적으로 충분히 제공하지는 않는다. 따라서 LLM 기반 JLPT 문항 생성 파이프라인은 공식 JLPT 샘플과 레벨 설명을 기준 앵커로 삼되, 일반적인 multiple-choice item writing 및 distractor analysis 원칙을 결합해 별도 검증·수정 루프를 가져야 한다.

private capsule 초안의 핵심 가설은 다음과 같다: LLM-generated JLPT item의 실패는 대체로 ① 난이도 drift, ② distractor implausibility, ③ multiple-key 또는 no-key, ④ 문법 포인트 오염, ⑤ 어휘·한자 레벨 초과, ⑥ 설명 가능하지만 시험 문항으로는 부적합한 자연성 문제로 나타난다. 특히 JLPT 문법·어휘 문항에서는 오답지가 단순히 틀린 문장이어서는 안 되고, 학습자가 실제로 혼동할 만한 형태·의미·연결 제약을 반영해야 한다.

Key Points#

Validation schema 권장 필드
target_level: N5–N1
skill_area: vocabulary / grammar / reading / listening-style text prompt 등
target_construct: 예: 조건 표현, 수동형, 존경어, 연결어, 조사 선택
stem: 문제 본문
options: 4지선다 권장
answer_key: 정답 1개
distractor_rationales: 각 오답지가 어떤 오개념을 겨냥하는지
level_controls: 어휘, 한자, 문법 구조의 목표 레벨 적합성
naturalness_check: 일본어 원어민 또는 고품질 LLM/규칙 기반 검토
single_key_check: 정답 유일성 검토
difficulty_estimate: 예상 난이도와 근거
repair_history: 생성 → 검증 → 수정 로그
주요 failure modes
Difficulty drift
- 목표 N4 문항인데 N2 수준 문법, 한자, 관용표현이 섞임.
- 반대로 목표 N2 문항이 N5 수준 단순 조사 선택으로 쉬워짐.
Distractor implausibility
- 오답지가 문법적으로 너무 명백히 틀려 기능하지 않음.
- 길이, 문체, 품사 패턴이 정답과 달라 test-wise clue가 됨.
Multiple-key
- 두 선택지가 모두 자연스럽거나 문맥상 가능함.
- 특히 조사, 접속 표현, 양태 표현, 존경·겸양 표현에서 자주 발생.
No-key
- 정답으로 지정된 선택지도 실제 일본어로 부자연스럽거나 문맥에 맞지 않음.
Construct contamination
- 검증하려는 문법 포인트 외에 어려운 어휘, 독해 추론, 문화지식이 정답 선택에 개입함.
Distractor semantic leakage
- 오답지가 정답의 의미와 너무 다르거나, 반대로 의미상 거의 동일해짐.
Register mismatch
- JLPT 문항 문체와 맞지 않는 과도한 구어체, 비즈니스체, 고전적 표현, 번역투가 섞임.
Explanation-item mismatch
- LLM 설명은 그럴듯하지만 실제 보기 중 정답 유일성을 보장하지 못함.
권장 validation pipeline 1. Spec-first generation
- 먼저 레벨, 문법 포인트, 어휘 제한, 문항 유형, 금지 요소를 명시한다. 2. Independent answer solving
- 생성한 LLM과 다른 모델 또는 검토자가 정답을 독립적으로 풀게 한다. 3. Distractor audit
- 각 오답지에 대해 “왜 그럴듯한가”와 “왜 틀렸는가”를 모두 요구한다.
- rationale이 빈약한 distractor는 교체한다. 4. Level audit
- 공식 JLPT 레벨 설명 및 샘플 문항 스타일과 비교한다.
- 어휘·한자·문법이 목표 레벨을 초과하면 repair한다. 5. Single-key test
- 모든 선택지를 문장에 삽입해 자연성·문법성·의미 적합성을 비교한다. 6. Adversarial review
- “정답이 아닌 보기 중 허용 가능한 것이 있는가?”
- “정답을 몰라도 길이·문체·품사로 맞힐 수 있는가?”
- “문항이 목표 문법이 아니라 독해력이나 배경지식으로 풀리는가?” 7. Human or corpus-informed final check
- 가능하면 일본어 교사, 원어민, 또는 실제 학습자 반응 데이터를 사용한다.
Distractor repair heuristics
정답과 같은 품사·활용형·길이 범위를 유지한다.
오답지는 실제 학습자가 범할 법한 오류여야 한다.
완전히 비문인 보기보다, “부분적으로 그럴듯하지만 특정 제약 때문에 틀린” 보기가 더 유효하다.
정답만 지나치게 자연스럽거나 긴 설명적 표현이 되지 않게 한다.
문법 문항에서는 어휘 난이도를 낮춰 construct contamination을 줄인다.
어휘 문항에서는 문법 구조를 단순화해 어휘 지식이 주된 측정 대상이 되게 한다.
Implementation note for IchiMozzi-style generation
generate → validate → classify_failure → repair → revalidate 루프를 기본 구조로 둔다.
실패 유형을 태그화하면 재사용 가능하다:
- difficulty-drift
- weak-distractor
- multiple-key
- no-key
- level-leakage
- construct-contamination
- unnatural-japanese
- testwise-clue
각 문항은 최종 산출물만 저장하지 말고, rejected options와 repair reason도 함께 저장하는 것이 좋다.

Cautions#

공개 JLPT 자료는 레벨 설명과 샘플 문제를 제공하지만, 실제 시험 문항의 상세한 item-writing rubric, distractor 설계 기준, IRT calibration 결과는 공개 범위가 제한적이다.
LLM-generated JLPT 문항에 특화된 대규모 공개 psychometric 연구는 아직 제한적으로 보이며, 일반 MCQ item-writing 및 distractor analysis 문헌을 함께 적용해야 한다.
공식 JLPT 샘플과 유사한 형식으로 생성하더라도 실제 JLPT 출제 기준을 충족한다고 단정할 수 없다.
자동 검증만으로는 정답 유일성, 자연성, 레벨 적합성을 완전히 보장하기 어렵다. 최소한 표본 문항에 대해서는 일본어 교육 전문가 또는 고급 원어민 검토가 필요하다.
본 초안은 public-source 기반 capsule 설계용이며, 실제 배포 전에는 live WebSearch와 URL 재확인을 통해 최신 자료 여부를 검증해야 한다.

Sources#

https://www.jlpt.jp/e/about/levelsummary.html
https://www.jlpt.jp/e/samples/forlearners.html
https://www.jlpt.jp/e/about/comparison.html
https://doi.org/10.1111/j.1745-3984.2002.tb01188.x
https://pmc.ncbi.nlm.nih.gov/articles/PMC4119145/
https://arxiv.org/abs/2305.08322

Sagwan Revalidation 2026-05-09T08:53:04Z#

verdict: ok
note: 원칙·스키마·실패 유형 모두 현재 관행과 충돌 없이 재사용 가능.

Sagwan Revalidation 2026-05-10T09:15:25Z#

verdict: ok
note: 일반 검증 원칙 중심이라 최신 practice와 충돌 없이 재사용 가능.

Sagwan Revalidation 2026-05-11T09:37:12Z#

verdict: ok
note: 원칙·스키마 중심 내용으로 최근 변화에 따른 수정 필요가 낮음

Sagwan Revalidation 2026-05-12T09:42:09Z#

verdict: ok
note: 일반적 검증 원칙과 JLPT 기준 앵커가 여전히 유효함

Sagwan Revalidation 2026-05-13T10:09:34Z#

verdict: ok
note: 일반 원칙과 검증 스키마 중심이라 최신 practice와 충돌 없음

Sagwan Revalidation 2026-05-14T10:26:31Z#

verdict: ok
note: 일반 원칙과 검증 스키마 중심이라 최근 practice와 충돌 없음

Sagwan Revalidation 2026-05-15T10:41:12Z#

verdict: ok
note: 일반 원칙 중심이라 최신 practice와 충돌 없이 재사용 가능.

Sagwan Revalidation 2026-05-16T10:54:25Z#

verdict: ok
note: 일반 원칙과 검증 스키마 중심이라 현재도 재사용 가능함

Sagwan Revalidation 2026-05-17T11:18:27Z#

verdict: ok
note: JLPT 문항 검증 원칙과 실패 유형이 여전히 일반 practice와 부합함

Sagwan Revalidation 2026-05-18T11:43:06Z#

verdict: ok
note: 구체 수치·링크 의존이 적고 검증 스키마와 실패유형도 여전히 타당함

Sagwan Revalidation 2026-05-19T12:11:49Z#

verdict: ok
note: 일반 원칙 중심이며 최근 검증 이후 바뀔 만한 수치·링크 의존이 없다.

Sagwan Revalidation 2026-05-20T12:35:54Z#

verdict: ok
note: 일반적 검증 스키마와 실패 유형 중심이라 현재 practice와 충돌 없음

Sagwan Revalidation 2026-05-21T13:11:24Z#

verdict: ok
note: 구체 수치·링크 의존이 없고 검증 스키마와 실패유형도 현재 관행과 부합함

Sagwan Revalidation 2026-05-22T13:43:08Z#

verdict: ok
note: 구체 수치·링크 의존이 없고 JLPT 문항 검증 원칙도 여전히 유효함

Sagwan Revalidation 2026-05-23T14:19:40Z#

verdict: ok
note: 공개 JLPT 자료와 MCQ 검증 원칙에 비춰 여전히 재사용 가능함.

Sagwan Revalidation 2026-05-24T14:26:06Z#

verdict: ok
note: 공식 JLPT 공개범위와 문항검증 원칙 모두 현재도 유효함

Sagwan Revalidation 2026-05-25T14:41:50Z#

verdict: ok
note: 공식 JLPT 공개 범위와 MCQ 검증 원칙 모두 현재도 유효함

Sagwan Revalidation 2026-05-26T14:49:35Z#

verdict: ok
note: 공식 JLPT 기준과 문항 검증 원칙 모두 현재도 재사용 가능함

Sagwan Revalidation 2026-05-27T16:12:51Z#

verdict: ok
note: 일반 원칙 중심이며 최근 practice와 충돌하는 주장이나 수치가 없다.

Sagwan Revalidation 2026-05-28T16:47:59Z#

verdict: ok
note: 공식 JLPT·문항검증 원칙과 충돌 없고 최근성 문제도 없음

Sagwan Revalidation 2026-05-29T17:15:31Z#

verdict: ok
note: 일반 원칙·스키마·failure mode가 여전히 유효하며 갱신 필요 낮음.

Sagwan Revalidation 2026-05-30T17:20:39Z#

verdict: ok
note: 수치·링크 의존이 없고 LLM 문항 검증 원칙도 여전히 유효함

Sagwan Revalidation 2026-05-31T17:25:39Z#

verdict: ok
note: 일반 원칙 중심이라 최신 관행과 충돌 없고 재사용 가능함

Sagwan Revalidation 2026-06-01T17:34:20Z#

verdict: ok
note: [chatgpt HTTP 401] {

Sagwan Revalidation 2026-06-02T21:25:15Z#

verdict: ok
note: 일반 검증 원칙과 실패 유형 중심이라 현재도 재사용 가능함

Sagwan Revalidation 2026-06-03T22:18:37Z#

verdict: ok
note: 공개 JLPT 기준과 MCQ 검증 원칙에 부합해 여전히 재사용 가능

Sagwan Revalidation 2026-06-04T22:50:50Z#

verdict: ok
note: 공개 기준·문항검증 원칙 모두 현재도 유효하며 갱신 필요가 낮음

Sagwan Revalidation 2026-06-05T23:24:16Z#

verdict: ok
note: 최근 변화에 민감한 수치·링크 없이 검증 기준이 여전히 타당함

Sagwan Revalidation 2026-06-06T23:25:01Z#

verdict: ok
note: 일반 원칙 중심이라 최신 관행과 충돌 없이 재사용 가능함

Sagwan Revalidation 2026-06-07T23:25:58Z#

verdict: ok
note: 공식 JLPT 공개 범위와 문항검증 원칙 모두 현재도 유효함

Sagwan Revalidation 2026-06-08T23:56:39Z#

verdict: ok
note: 일반적 검증 스키마와 실패 유형이 현재 practice와도 부합함

Sagwan Revalidation 2026-06-10T07:12:17Z#

verdict: ok
note: 공식 기준과 MCQ 검증 원칙 기반이라 현재도 재사용 가능.

Sagwan Revalidation 2026-06-11T07:26:38Z#

verdict: ok
note: 공개 JLPT 범위와 일반 문항검증 원칙에 부합해 재사용 가능함

Sagwan Revalidation 2026-06-12T07:57:55Z#

verdict: ok
note: [chatgpt HTTP 401] {

Sagwan Revalidation 2026-06-13T08:38:24Z#

verdict: ok
note: 일반 원칙 중심이라 최신 practice와 충돌 없이 재사용 가능함

Sagwan Revalidation 2026-06-14T08:51:10Z#

verdict: ok
note: 일반 원칙·검증 스키마 중심이라 최신 practice와 충돌하지 않음

Sagwan Revalidation 2026-06-15T09:30:15Z#

verdict: ok
note: 일반 원칙 중심이라 최신 practice와 충돌 없고 재사용 가능함

Sagwan Revalidation 2026-06-16T09:37:59Z#

verdict: ok
note: 일반 원칙 중심이라 최신 practice와 충돌 없고 재사용 가능함

Sagwan Revalidation 2026-06-17T11:03:32Z#

verdict: ok
note: 일반적 검증 원칙 중심이라 최신 practice와 충돌 없이 재사용 가능.

Sagwan Revalidation 2026-06-18T11:09:45Z#

verdict: ok
note: 일반 원칙 중심이라 최신 관행과 충돌 없고 재사용 가능함

Sagwan Revalidation 2026-06-19T12:37:58Z#

verdict: ok
note: 일반 원칙·스키마 중심이라 최신 practice와 충돌 없이 재사용 가능

Sagwan Revalidation 2026-06-20T13:08:14Z#

verdict: ok
note: 공개 JLPT 기준과 문항검증 원칙에 비춰 여전히 재사용 가능함

Sagwan Revalidation 2026-06-21T13:29:31Z#

verdict: ok
note: 일반 원칙 중심이라 최근 practice와 충돌 없이 재사용 가능함

Sagwan Revalidation 2026-06-22T13:49:47Z#

verdict: ok
note: 일반적 문항 검증 원칙과 JLPT 생성 리스크가 여전히 유효함

Sagwan Revalidation 2026-06-23T13:59:50Z#

verdict: ok
note: [chatgpt HTTP 401] {

Sagwan Revalidation 2026-06-24T14:35:21Z#

verdict: ok
note: [chatgpt HTTP 401] {

Sagwan Revalidation 2026-06-25T16:03:24Z#

verdict: ok
note: 일반 원칙과 스키마 중심이라 최근 기준에서도 재사용 가능함

Sagwan Revalidation 2026-06-26T19:43:27Z#

verdict: ok
note: 일반 원칙 중심이라 최신 관행과 충돌 없고 재사용 가능함

Sagwan Revalidation 2026-06-27T22:35:04Z#

verdict: ok
note: 공식 JLPT 기준과 MCQ 검증 원칙 중심이라 현재도 재사용 가능.

Sagwan Revalidation 2026-06-28T23:08:50Z#

verdict: ok
note: 일반 원칙 중심이라 최신 practice와 충돌 없이 재사용 가능.

Sagwan Revalidation 2026-06-29T23:52:45Z#

verdict: ok
note: 일반 원칙 중심이라 최신 practice와 충돌 없이 재사용 가능함

Sagwan Revalidation 2026-07-01T05:29:46Z#

verdict: ok
note: 일반 원칙 중심이라 최근 검증 이후 갱신 필요성이 낮다.

Sagwan Revalidation 2026-07-02T15:47:22Z#

verdict: ok
note: 일반 원칙 중심이라 하루 사이 갱신 필요성이 낮고 재사용 가능함

Sagwan Revalidation 2026-07-04T04:39:33Z#

verdict: ok
note: 일반 원칙 중심이라 최신 practice와 충돌 없이 재사용 가능함

Sagwan Revalidation 2026-07-05T07:44:12Z#

verdict: ok
note: 일반 원칙과 검증 스키마 중심이라 현재 practice와 충돌 없음

Sagwan Revalidation 2026-07-06T13:01:49Z#

verdict: ok
note: 공식 JLPT·문항검증 원칙과 부합하며 낡은 수치·링크 의존이 없다.

Sagwan Revalidation 2026-07-07T19:40:51Z#

verdict: ok
note: 일반 원칙 중심이라 최신 JLPT 문항 검증 관행과도 충돌 없음

Sagwan Revalidation 2026-07-09T16:31:15Z#

verdict: ok
note: 일반 원칙·스키마 중심이라 최근 practice와 충돌 없이 재사용 가능

Sagwan Revalidation 2026-07-11T08:37:48Z#

verdict: ok
note: 일반 원칙 중심이라 최신 관행과 충돌 없이 재사용 가능함

Sagwan Revalidation 2026-07-13T03:20:16Z#

verdict: ok
note: 일반 원칙 중심이라 최신성 문제나 명백한 오류가 보이지 않음

Sagwan Revalidation 2026-07-15T01:30:26Z#

verdict: ok
note: 일반 원칙과 검증 스키마가 현재 practice와도 충돌하지 않음

Sagwan Revalidation 2026-07-17T02:51:57Z#

verdict: ok
note: 공식 JLPT 공개 범위와 문항 검증 원칙 모두 여전히 유효함

Sagwan Revalidation 2026-07-19T04:03:14Z#

verdict: ok
note: 최근 기준에서도 JLPT 문항 검증 원칙과 실패 유형은 여전히 유효함

Sagwan Revalidation 2026-07-21T05:18:20Z#

verdict: ok
note: 일반 원칙과 검증 스키마가 현재 LLM 문항 생성 practice와도 부합함

Sagwan Revalidation 2026-07-23T07:29:48Z#

verdict: ok
note: 공식 JLPT 자료와 문항검증 원칙 기준으로 여전히 재사용 가능함

Sagwan Revalidation 2026-07-25T10:02:55Z#

verdict: ok
note: 최근 변화에 민감한 수치·링크가 없고 검증 원칙도 여전히 유효함

Sagwan Revalidation 2026-07-27T14:57:25Z#

verdict: ok
note: 일반 원칙·스키마 중심이라 최근 practice와 충돌 없이 재사용 가능

Sagwan Revalidation 2026-07-29T19:22:06Z#

verdict: ok
note: 원칙·스키마·실패모드가 현재 LLM 평가 관행과도 부합함

Sagwan Revalidation 2026-08-01T05:37:07Z#

verdict: ok
note: 최근 변화 영향이 작고 JLPT 문항 검증 원칙으로 여전히 재사용 가능.