מיזם תיקון סופרים המשותף לאוניברסיטת חיפה, למכון המחקר EPHE בפריז ולספריה הלאומית הושק בשבוע שעבר.
המיזם משלב בין קריאה אוטומטית של כתבי יד עבריים באמצעות אלגוריתם מבוסס למידה עמוקה לבין חכמת ההמונים.

הציבור הרחב המוזמן לסייע בתיקון הטעויות שעושה האלגוריתם, הן על מנת לשפרו והן על מנת לאפשר בעתיד חיפוש טקסט חופשי בתוכן כתבי יד ואף להעמיד מהדורות ביקורתיות דיגיטליות.

מוזמנים להיכנס לאתר, ולהצטרף גם אתם למאמץ התיקון של קראקן: https://tikkoun-sofrim.haifa.ac.il

קראקן, האלגוריתם המופעל במסגרת המיזם מבוסס על ניתוח גרפי של שורות כתבי היד, ומתוך כך הטעויות שהוא עושה מעידות על העדר היכרות עם השפה עצמה.
כך הוא יכול לעשות טעויות כגון 'ותמהר ותער כדה אל השוקו', במקום 'ותער כדה אל השוקת' הכתוב במקור

1 tik

בהמשך מתוכנן להוסיף למערכת 'מודל שפה', כך שהכלי הממוחשב ייקח בחשבון גם ידע לקסיקלי ודקדוקי במהלך פעולת הקריאה.
דא עקא, שהוספת מודל שפה מזמינה למעשה את הכלי הדיגיטלי לעשות את אותן טעויות שעושה הקורא האנושי,
לתקן את כתב היד בדיוק במקום שבו מופיעה צורה לשונית נדירה וחריגה שאינה מוכרת על פי מודל השפה שישמש אותנו לאמן את קראקן.
לדוגמא: אם נאמן את הכלי להשתמש במודל שפה המבוסס על קורפוס ספרותי מן העברית המודרנית, או אפילו על קורפוס משחר תקופת הדפוס,
הכלי עשוי לתקן באופן אוטומטי מקומות בהם המילית של עודנה חבורה למלה העוקבת אחריה, כפי שנפוץ בכתבי יד עבריים מוקדמים.

והנה, בנקודה הזו בדיוק, בשלב הזה, מתגלית תופעה מאוד מעניינת בקריאות האוטומטיות שמייצר קראקן. לעיתים קורא הכלי את המילית של כעומדת לעצמה ולעיתים כחבורה למלה שלאחריה:

2 tik

3 tik

4 tik

5 tik

ייתכן, שההתלבטות הממוחשבת הניכרת באוסף התוצאות המקרי הזה היא עדות לתופעה לשונית חשובה. במידה וההתלבטות הזו מייצגת מובהקות סטטיסטית,
היא יכולה להעיד על שלב המעבר מן ה'של' החבורה ל'של' המופרדת. כלומר, אם נגלה כי חוסר היציבות המודגם כאן הוא שיטתי,
והוא מתקיים רק ודווקא ביחס למילית 'של' ולא ביחס למיליות אחרות, או לזוג אותיות אחר בתחילת מילים (ואינו נובע גם מחוסר שיטתיות של הצוות שאימן את קראקן…),
הרי שהקושי של קראקן משקף תופעה לשונית של ממש, כלומר הוא נובע מחוסר עקביות של הסופר עצמו.