סחבק: על המידע, חלק א'

כמות התוכן שמתווספת לרשת בכל יום היא עצומה. הקלות שבה ניתן ליצור היום תוכן מביאה את הרשת למצב שבו כל דיכפין, גם ללא הבנה טכנית ניכרת, מסוגל ליצור תוכן מורכב יחסית ועשיר ויזואלית.

קיימים כיום כלים לא מעטים שמאפשרים עריכה של תוכן, הן עבור האדם הבודד, והן עבור הקבוצה. דוגמאות פשוטות ונפוצות לכך הן הבלוג , הוויקי שנוצר ככלי לעריכה משותפת של דפים ברשת, וכמובן הפורומים השונים על גלגוליהם.

עם פריחתה של הרשת, נולד הצורך הטבעי במנגנונים של ארגון המידע והקלת ההתמצאות בו.

אחת הגישות הראשונות שרווחה הייתה גישת האינדקס. ע"פ גישה זו, קבוצה מסוימת של אנשים, האמונים על בניית האינדקס, בנו היררכיה של מושגים שאמורה לייצג את כל הנושאים בהם עוסקים דפים ברשת. כל בעל אתר שרצה להיכלל באינדקס היה נרשם אל האינדקס הנ"ל. אחד הנסיונות הראשונים והרציניים בנושא הזה נעשה ע"י חברה שנחשבת עד היום לאחת ענקיות התוכן באינטרנט - Yahoo!.

ככל שעבר הזמן, והרשת התפתחה למימדים שאנו מכירים כיום, התברר כי הגישה של חלוקה קשיחה (טקסונומיה)כזו אינה מספקת את צרכי רוב האנשים המעוניינים במציאת מידע.

דבר זה נבע מכמה סיבות עיקריות:

1. החלוקה לקטגוריות הייתה קשיחה, ולא אינטואיטיבית לכולם. היא ייצגה נקודת מבט מאוד ספציפית על מושגים ועל הקשרים בינהם, נקודת מבט שלא כולם שותפים לה. כתוצאה מכך, הניווט בעץ הקטגוריות היה לא אינטואיטיבי ולעתים קרובות מתסכל.

2. היו תכנים, אתרים, שנפלו תחת מספר קטגוריות ולא התאימו לקטגוריה אחת ספציפית. בעיקר אתרים שהכילו תוכן מגוון מאוד.

וכאן הגיעה פריחתו של מנוע החיפוש, שהחל להתפתח ככלי העיקרי למציאת תכנים ומידע באינטרנט. ברוב המקרים, מנועי החיפוש על צורותיהם השונות מהווים עד לרגע זה את הדרך העיקרית למציאת מידע ותוכן.

כאן המקום לציין את Google שבעזרת המנוע החיפוש שלהם שהיה פורץ דרך הן ביעילותו, והן בממשק הנוח שלו (והוא גם בחינם) הפכו את חיפוש המידע לפעולה מאוד נוחה, אינטואיטיבית וזמינה לכל משתמש מתחיל ברשת.

לא מעט אנשים משתמשים כיום במנוע החיפוש החביב עליהם כדי לבצע חיפושים בתוך מאגרי מסמכים מאוד מסוימים מפני שהם זמינים ברשת והחיפוש בעזרת מנוע החיפוש הוא קל יותר. הכלים החדשים שנוצרו רק מקלים על העבודה בנושא הזה (ע"ע סרגל החיפוש ב firefox).

לפני שאמשיך בדיון, חשוב להבהיר שני מושגים חשובים בנושא אחזור המידע. כשאנשי מדעי המחשב עוסקים בנושא אחזור מידע, נהוג למדוד את יעילות שיטת האחזור ( / חיפוש) בשני מדדים עיקריים: שלמות התוצאות ודיוק התוצאות. בהינתן שאילתה מסוימת, שלמות התוצאות הוא המדד שמציין כמה מתוך המסמכים הרלוונטים במאגר קיבלתי בתוצאות השאילתה. הדיוק הוא המדד המציין כמה מסמכים לא רלוונטיים קיבלתי בתוצאות השאילתה.
נשים לב כי מדד שלמות התוצאות עומד "בסתירה" לדיוק שלהן: ככל שאני מחזיר יותר תוצאות, הן יותר שלמות, אך פחות מדויקות.

החיפוש הפשוט אכן מוכיח את עצמו כשיטה מהירה ונוחה לחיפוש מידע. האלגוריתם של גוגל היה במידה רבה פורץ דרך מהסיבה שהוא נתן לרוב תוצאות טובות. עם זאת, ככל שכמות המידע והתוכן המפורסמים ברשת עלתה ועלתה, נוצרה בעיה של רלוונטיות התוצאות מול שלמות התוצאות, הווה אומר - מתוך סך התוצאות המוחזרות עבור שאילתה מסוימת כמה מהן רלוונטיות למחפש המידע.

הקורא הזריז יבחין כאן ב 2 נקודות שעולות:
ראשית, רלוונטיות של מידע היא דבר סובייקטיבי, גם כשמדובר באותה שאילתה. אנשים שונים מעוניינים במידע שונה בזמנים שונים (= בהקשרים שונים). כמו כן, יתכן שדווקא היחשפות למידע שהוא ממבט ראשון "לא רלוונטי" תוביל אותי לתוצאות מעניינות לא פחות ממה שהתכוונתי.

דוגמה פשוטה: נניח שאני מחפש מסמכים הקשורים למילה drill. אם תשימו לב למה שמופיע בקישור, אני מקבל תוצאות שמדברות על מקדחה, תרגילים במתמטיקה, ריקודים ואפילו אולם תיאטרון בלונדון שנקרא בשם drill hall.
גיוון התוצאות נובע בעיקר מהסיבה שלמילה האנגלית drill יש משמעויות שונות, בהקשרים שונים. אני יכול להניח בבטחה שלאדם שהריץ את השאילתה הזאת, לא כל התוצאות הן רלוונטיות.

נושא הרלוונטיות של התוצאות מקבל משנה תוקף לאור מחקרים המראים כי רוב האנשים לא מסתכלים מעבר לדף התוצאות הראשון או השני שהם מקבלים במנוע החיפוש. נושא הדירוג במנועי החיפוש הפך להיות נושא בעל משמעות רבה, בעיקר מסחרית. ככל שתהיה מדורג גבוה יותר במנועי החיפוש סביר יותר שאנשים ימצאו את האתר שלך ויכנסו אליו. יתרה מכך, קיימות כיום טכניקות ידועות לביסוס אתרים כמובילים בתוצאות חיפוש ע"י מניפולציה על הלינקים. וכאן מתגלה "חולשתם" של מנועי החיפוש הסטנדרטיים: כולם מתבססים על ניתוח מבני של מאגר המסמכים שעליו הם מחפשים. אין התייחסות לסמנטיקה - למשמעות המילים.

בהמשך נסקור את עלייתה של גישת התיוג, התיוג החברתי, והויכוח המתנהל סביב גישה זו.

סחבק

יום שלישי, יולי 26, 2005

על המידע, חלק א'

0 Comments:

הוסף רשומת תגובה

פרטים עלי

פוסטים קודמים / Previous Posts