הדרך המהירה ביותר לשחרר אסיסטנט משפטי מסוכן היא ללטש fluency לפני evidence. במערכות legal answering העבודה האמיתית איננה לגרום למודל להישמע משכנע. המודל בדרך כלל כבר יודע לעשות את זה. העבודה היא לוודא שהתשובה נשענת על המסמך הנכון, העמוד הנכון ו-סט העובדות הקטן ביותר שאפשר להגן עליו.
1. מסמך הוא לא רק טקסט
הרבה מערכות משפטיות מתחילות מקובצי PDF שנדחפו לקורפוס. זה מספיק לדמו. זה חלש מדי לרגע שבו מישהו באמת נשען על התשובה.
במערכת רצינית, למסמך צריך להיות:
- מזהה יציב
- סוג מסמך
- מקור
- תאריך או גרסה
- חלוקה לעמודים או סעיפים
- אפשרות לחזור למקור המקורי
בלי זה, גם retrieval טוב יחסית יישאר עמום.
2. retrieval חייב להישאר צר
ב-domain משפטי הבעיה היא לא רק למצוא משהו רלוונטי. הבעיה היא להישאר צמוד למשהו שאפשר להגן עליו.
בפועל זה אומר:
- candidate set קטן
- hybrid retrieval במקום reliance על embedding בלבד
- reranking לפני generation
- שמירה על זהות עמוד או סעיף לאורך כל הזרם
- מסלול abstain כשהתמיכה חלקית
כשמעמיסים יותר מדי context, המודל לא נעשה אחראי יותר. הוא פשוט מקבל יותר דרכים לטעות בביטחון.
3. הפורמט צריך לעזור לחשוף uncertainty
תשובה משפטית טובה לא נשמעת רק בטוחה. היא גם חושפת את גבולות הוודאות שלה.
אני מעדיף תשובות שמחלקות את הפלט ל:
- answer
- supporting sources
- gaps or ambiguity
- next review step אם צריך
זה נשמע פחות זוהר מתשובה זורמת אחת. גם טוב. משטח משפטי לא נמדד לפי flow, אלא לפי האופן שבו הוא מחזיק כשהשאלה קשה או חלקית.
4. abstention הוא חלק מהאיכות
במערכת משפטית refusal טוב הוא לא fallback מביך. הוא חלק מהדיוק.
צריך לסרב או להסלים כש:
- המקורות סותרים
- אין מספיק תמיכה
- השאלה דורשת inference שחורגת מהחומר הזמין
- הפלט עלול להישמע קונקרטי יותר ממה שמותר
הרבה צוותים עדיין מנסים להקטין refusal rate כאילו זה KPI טוב. במשטח משפטי זה לעיתים סימן בדיוק הפוך.
5. page-level grounding משנה הכול
Grounding ברמת מסמך שלם לא מספיק. הוא משאיר יותר מדי מקום לניחוש.
Page-level או fragment-level grounding עושה שלושה דברים:
- מצמצם את טווח הטענה
- מקל על review אנושי
- הופך evals להרבה יותר ברורים
השאלה השימושית היא לא “האם התשובה נשענה על המסמך”. השאלה היא “האם אפשר להצביע על המקום שבו המסמך באמת תומך בטענה הזאת”.
6. evals למערכת משפטית חייבים להיות נפרדים
ציון כללי של “איכות תשובה” לא מאוד מועיל כאן. צריך לפחות שכבות נפרדות עבור:
- factual support
- provenance completeness
- abstention quality
- format compliance
- trace quality אם יש routing או multi-step flow
OpenAI ו-Anthropic שניהם דוחפים לכיוון של trace-aware evals במערכות מרובות שלבים. במשטח משפטי זה חשוב במיוחד, כי לפעמים הכשל קורה ב-retrieval או ב-routing הרבה לפני שהמודל ניסח את המשפט האחרון.
7. telemetry חשובה גם לצוות המשפטי
Telemetry לא נועדה רק למהנדסים.
אם יש מערכת משפטית חיה, צריך לדעת:
- אילו מסמכים עלו הכי הרבה
- איפה retrieval פספס
- מתי abstention עלה או ירד
- מתי prompt או policy change שינו את ההתנהגות
- באילו מקרים review אנושי תיקן את המערכת
אחרת הדיון על איכות נשאר תיאורטי.
8. מה לא לעשות
- לא להסתמך על ציטוט ברמת מסמך בלבד
- לא להציג answer confidence בלי provenance ברור
- לא ללטש prompt בזמן שהקורפוס עדיין רופף
- לא להסתיר ambiguity בטון יותר אלגנטי
- לא לחשוב שיותר context פותר חוסר משמעת ב-retrieval
סיכום
מערכת legal answering שאפשר לסמוך עליה לא בנויה קודם כול מניסוח יפה. היא בנויה ממבנה מקור ברור, retrieval צר, תשובה שיודעת להיעצר, וטלמטריה שמסבירה מה קרה.
רק אחר כך יש טעם לדאוג אם המשפט האחרון נשמע חכם.