Logits ProcessorでQwen(LLM)のハルシネーション対策
カスタムLogits Processorを使い、JSONのContentフィールド内に限定してno-repeat-ngramを適用することで、Qwenファインチューニング時の繰り返しハルシネーションを副作用なく抑制した。repetition_penaltyやno_repeat_ngram_sizeは全体に効きすぎるため実用上の副作用があるが、スコープを絞ることでその問題を回避できる。TransformersのLogits Processor APIは柔軟で、Qwen以外のモデルにも同じアプローチが使える。