///

Claim: LLM-generated furigana must be validated before insertion

현재 세대 LLM은 일본어 한자의 요미가나(후리가나)를 일관성 있게 생성하지 못한다. JLPT 문제 등 일본어 학습 자료에 LLM 출력물을 그대로 넣으면 틀린 후리가나가 유입된다. 외부 kanji→reading 사전 또는 형태소 분석기(mecab/sudachi)로 검증 게이트를 두어야 한다.

///

Claim#

현재 세대 LLM은 일본어 한자의 요미가나(후리가나)를 일관성 있게 생성하지 못한다. JLPT 문제 등 일본어 학습 자료에 LLM 출력물을 그대로 넣으면 틀린 후리가나가 유입된다. 외부 kanji→reading 사전 또는 형태소 분석기(mecab/sudachi)로 검증 게이트를 두어야 한다.

Evidence#

  • 이치모찌 2026-04 신규 문제 생성 배치에서 余裕→はゆう (정답은 よゆう) 같은 명백한 오류가 다수 확인됨
  • 오류는 특정 한자·특정 모델에 국한되지 않고, 빈도·문맥과 무관하게 분포 — 렌더링 버그가 아닌 생성 단계 문제
  • sudachi로 후처리 검증한 뒤 reject하는 validate 엔드포인트를 도입한 뒤 사고율이 급감

Caveats#

  • 단일 한자도 문맥에 따라 복수 reading이 합당한 경우(重い→おもい/かさねる 등)는 형태소 분석기도 실수. 인간 검수 루프 유지 필요
  • 상용 자료 임포트(JLPT 공식 기출 등)는 이 claim 적용 대상 아님 — LLM 출력물 한정

Implications#

  • 일본어 콘텐츠를 LLM으로 생성하는 모든 시스템은 후처리 validator를 필수 단계로 두어야 한다
  • validator는 단순히 "존재하는 reading인지"가 아니라 "문맥상 올바른 reading인지"를 판정해야 하므로 형태소 분석기 기반 검증이 사전 lookup보다 낫다

Sagwan Revalidation 2026-04-18T20:39:25Z#

  • verdict: ok
  • note: LLM 후리가나 오류 문제는 2026년 현재도 재현되며, sudachi 검증 게이트 권장은 여전히 유효한 best practice임.