הערה

איך בונים מערכות Legal QA שאפשר לסמוך עליהן

Blueprint מעשי ל-Legal QA: זהות מסמכים, hybrid retrieval, תשובות מובְנות, grounding ברמת עמוד, טלמטריה ו-evals.

10 במרץ 20264 דק׳ קריאהמאת Alex Chernysh

Legal AIRAGReliabilityArchitectureEvals

לקפוץ לחלק

הדרך המהירה ביותר לשחרר אסיסטנט משפטי מסוכן היא ללטש fluency לפני evidence. במערכות legal answering העבודה האמיתית איננה לגרום למודל להישמע משכנע. המודל בדרך כלל כבר יודע לעשות את זה. העבודה היא לוודא שהתשובה נשענת על המסמך הנכון, העמוד הנכון ו-סט העובדות הקטן ביותר שאפשר להגן עליו.

1. מסמך הוא לא רק טקסט

הרבה מערכות משפטיות מתחילות מקובצי PDF שנדחפו לקורפוס. זה מספיק לדמו. זה חלש מדי לרגע שבו מישהו באמת נשען על התשובה.

במערכת רצינית, למסמך צריך להיות:

מזהה יציב
סוג מסמך
מקור
תאריך או גרסה
חלוקה לעמודים או סעיפים
אפשרות לחזור למקור המקורי

בלי זה, גם retrieval טוב יחסית יישאר עמום.

2. retrieval חייב להישאר צר

ב-domain משפטי הבעיה היא לא רק למצוא משהו רלוונטי. הבעיה היא להישאר צמוד למשהו שאפשר להגן עליו.

בפועל זה אומר:

candidate set קטן
hybrid retrieval במקום reliance על embedding בלבד
reranking לפני generation
שמירה על זהות עמוד או סעיף לאורך כל הזרם
מסלול abstain כשהתמיכה חלקית

כשמעמיסים יותר מדי context, המודל לא נעשה אחראי יותר. הוא פשוט מקבל יותר דרכים לטעות בביטחון.

3. הפורמט צריך לעזור לחשוף uncertainty

תשובה משפטית טובה לא נשמעת רק בטוחה. היא גם חושפת את גבולות הוודאות שלה.

אני מעדיף תשובות שמחלקות את הפלט ל:

answer
supporting sources
gaps or ambiguity
next review step אם צריך

זה נשמע פחות זוהר מתשובה זורמת אחת. גם טוב. משטח משפטי לא נמדד לפי flow, אלא לפי האופן שבו הוא מחזיק כשהשאלה קשה או חלקית.

4. abstention הוא חלק מהאיכות

במערכת משפטית refusal טוב הוא לא fallback מביך. הוא חלק מהדיוק.

צריך לסרב או להסלים כש:

המקורות סותרים
אין מספיק תמיכה
השאלה דורשת inference שחורגת מהחומר הזמין
הפלט עלול להישמע קונקרטי יותר ממה שמותר

הרבה צוותים עדיין מנסים להקטין refusal rate כאילו זה KPI טוב. במשטח משפטי זה לעיתים סימן בדיוק הפוך.

5. page-level grounding משנה הכול

Grounding ברמת מסמך שלם לא מספיק. הוא משאיר יותר מדי מקום לניחוש.

Page-level או fragment-level grounding עושה שלושה דברים:

מצמצם את טווח הטענה
מקל על review אנושי
הופך evals להרבה יותר ברורים

השאלה השימושית היא לא “האם התשובה נשענה על המסמך”. השאלה היא “האם אפשר להצביע על המקום שבו המסמך באמת תומך בטענה הזאת”.

6. evals למערכת משפטית חייבים להיות נפרדים

ציון כללי של “איכות תשובה” לא מאוד מועיל כאן. צריך לפחות שכבות נפרדות עבור:

factual support
provenance completeness
abstention quality
format compliance
trace quality אם יש routing או multi-step flow

OpenAI ו-Anthropic שניהם דוחפים לכיוון של trace-aware evals במערכות מרובות שלבים. במשטח משפטי זה חשוב במיוחד, כי לפעמים הכשל קורה ב-retrieval או ב-routing הרבה לפני שהמודל ניסח את המשפט האחרון.

7. telemetry חשובה גם לצוות המשפטי

Telemetry לא נועדה רק למהנדסים.

אם יש מערכת משפטית חיה, צריך לדעת:

אילו מסמכים עלו הכי הרבה
איפה retrieval פספס
מתי abstention עלה או ירד
מתי prompt או policy change שינו את ההתנהגות
באילו מקרים review אנושי תיקן את המערכת

אחרת הדיון על איכות נשאר תיאורטי.

8. מה לא לעשות

לא להסתמך על ציטוט ברמת מסמך בלבד
לא להציג answer confidence בלי provenance ברור
לא ללטש prompt בזמן שהקורפוס עדיין רופף
לא להסתיר ambiguity בטון יותר אלגנטי
לא לחשוב שיותר context פותר חוסר משמעת ב-retrieval

סיכום

מערכת legal answering שאפשר לסמוך עליה לא בנויה קודם כול מניסוח יפה. היא בנויה ממבנה מקור ברור, retrieval צר, תשובה שיודעת להיעצר, וטלמטריה שמסבירה מה קרה.

רק אחר כך יש טעם לדאוג אם המשפט האחרון נשמע חכם.