הערה

איך מצמצמים hallucinations בלי לעבוד על עצמנו

איך לבנות שכבת grounding, abstention ו-verification שמורידה hallucinations בלי להפוך את המוצר לאיטי או יהיר.

18 בפברואר 20263 דק׳ קריאהמאת Alex Chernysh

LLMReliabilityRAGSafety

לקפוץ לחלק

הדרך הנפוצה ביותר להילחם ב-hallucinations היא לבקש מהמודל "להיות מדויק יותר". זה בערך כמו לטפל ב-log שבור באמצעות תקווה.

1. צריך להפריד בין סוגי כשל

לא כל תשובה גרועה היא hallucination. יש לפחות כמה מחלקות כשל שונות:

אם לא מפרידים ביניהן, בונים מנגנון הגנה כללי מדי שלא תופס שום דבר טוב.

הרבה שיחות על hallucinations מתמקדות בתשובה. הבעיה מתחילה קודם:

לכן שכבת grounding טובה צריכה לכלול:

צוותים עדיין נבהלים מ-refusal כאילו הוא פוגע בחוויית המשתמש. בפועל, refusal טוב מציל אמון.

Abstention נחוץ במיוחד כש:

הטעות היא לראות ב-abstain פגיעה ב-completion rate. הרבה פעמים זה מה שמונע incident.

לא כל מוצר צריך שרשרת ארוכה של self-critique ו-rewrite.

בדרך כלל מספיקים כמה checks פשוטים:

ברגע שמנסחים את ה-checks נכון, אפשר לשלב code-based validation, rule-based checks וגריידר מצומצם במקום לעטוף כל תשובה בעוד סיבוב generation.

Streaming הופך את המוצר לנעים יותר. הוא גם פותח עוד מקום לטעות.

אם מתחילים להזרים מוקדם מדי:

לכן במשטחים רגישים כדאי להפריד בין:

המשתמש לא חייב לראות כל נשיפה פנימית של המודל.

אי אפשר למדוד hallucinations דרך ציון איכות כללי אחד.

צריך סטים מפורשים שבודקים:

כאן בדיוק trace review ו-answer review משלימים זה את זה. אחד מראה מה המערכת עשתה. השני מראה מה יצא ממנה בסוף.

יש כמה פתרונות שנשמעים חכמים אבל כמעט תמיד מאכזבים:

Hallucination prevention לא מתחיל בשאלה "איך לגרום למודל לא להמציא". הוא מתחיל בשאלה "איך גורמים למערכת להודות כשאין לה על מה לעמוד".

ברגע שהשאלה הזאת מקבלת תשובה טובה, גם שאר שכבות ההגנה נעשות פשוטות יותר.