ראשי » כללי, מדריכים

למה המחשב מציג ג'יבריש באתרי UTF-8

1 ביולי 2007 | 2 צפיות | 4 תגובות | מאת ארז וולף
תגים: , , ,

בהמשך לתגובה על מערכת Pluck אקדיש מספר מילים למקרים בהם אתר שמקודד ב-UTF8 מוצג בג'יבריש:

אתחיל מהסוף, משום מה האקספלורר מכנה זאת "בחירה אוטומטית" (בדפדפן תחת, צפיה>קידוד). לדעתי, צריך לקרוא לזה בדיוק ההפך, "בחירה קבועה" היות וכאשר אפשרות זאת מסומנת, המחשב בוחר להציג את האתר בקידוד שמותאם למערכת ההפעלה שמותקנת על המחשב. כלומר, עם מערכת ההפעלה בעברית, הדפדפן יחליט (אוטומטית.. נוותר ונקרא לזה אוטומטית) על קידוד בעברית.
כך, כאשר האתר בקידוד UTF-8 ואפשרות זו מסומנת ומערכת ההפעלה היא בעברית, הדפדפן יחליט "אוטומטית" להתעלם אוטומטית מהגדרות האתר ויציג אוטומטית את האתר בקידוד העברי.
כך נוצר הג'יבריש. פתרון: להסיר את האפשרות של "בחירה אוטומטית". למה זה טוב בכלל?

כתבתי מדריך על התאמת אתרי WordPress לקידוד UTF-8. הנה עוד הסברים על ענייני קידודים:


מה זה יוניקוד (Unicode) ו-UTF8
יוניקוד (Unicode) הוא תקן בינלאומי לייצוג טקסט במערכות מחשב. התקן מגדיר מערכת תווים המקיפה את כל מערכות הכתב הנמצאות כיום בשימוש פעיל בשפות העולם.
לפני שהחל השימוש בתקן זה, התקן המקובל לייצוג טקסט היה ASCII. תקן זה הכיל 256 תווים: 128 תווי ASCII ו-128 תווים אחרים לפי האזור, כך שאותו מספר בעצם היה יכול להיות אותיות שונות.
למשל, המספר 244 הכיל גם את האות à בקידוד של מערב אירופה וגם את האות א בקידוד העברי. מי שעיין בטקסט ראה את האות בהתאם לקידוד בו הוא צפה. אם היה בוחר לצפות בקידוד מערב אירופה היה רואה את האות à, אם היה בוחר לצפות בקידוד עברי, היה רואה את אותו טקסט עם האות א.
דבר זה גרם לבעיות בהעברה של טקסט ממערכות שונות. בשנת 1990 התכנסו חברות תוכנה ותקשורת עולמיות כדי לפתור את הבעיה וכך החלה התקינה של יוניקוד.
כיום, השימוש ביוניקוד מאפשר לייצג כל אות, בכל שפה, במספר ייחודי לה, ולכן ניתן לכתוב באותו הטקסט אותיות שפעם "יישוב" על אותו מספר.

UTF-8 הוא למעשה שם של צורת דחיסה עבור יוניקוד המשתמשת ב-8 תווים:
8 bit Unicode Transformation Format.
כיום יש גם דחיסה ב-16 תווים וב-32 תווים.

איך למנוע את הצגת האתר בג'יבריש?
בדפדפן האינטרנט המציג את האתר קיימת האפשרות לבחור קידוד (encoding באנגלית) בו יוצג האתר. אפשרות זו קיימת בסרגל האפשרויות של הדפדפן תחת צפיה>קידוד.
באותו מקום, בראש התפריט המציג את הקידודים לבחירה, מופיעה האפשרות בחירה אוטומטית, Auto Selectאם אפשרות זו מסומנת. כלומר ישנו V ליד Auto Select, יש להסירו, אפשרות זו לא צריכה להיות מסומנת.

שוב הסבר ורקע:
הבחירה האוטומטית מורה לדפדפן להציג את האתר לפי הקידוד של המחשב. אם המחשב הוא בעברית, הדפדפן יבחר בקידוד, סט האותיות העבריות, להצגת האתר. אולם אתר זה (וכיום יותר ויותר אתרים) גם שהוא בעברית, הוא אינו משתמש בסט האותיות העבריות, אלא בסט הגלובלי, utf-8. לכן, כאמור, אפשרות זו לא צריכה להיות מסומנת.

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

4 תגובות »

  • גילי כתב:

    10
    סוף סוף הבנתי מה קורה שם מאחורי הקלעים

  • סוזן כתב:

    וככה בניקוי סימון V אחד פתרת לי את בעיות התצוגה - תודה!

  • אורן WASSERSPRUNG כתב:

    ארז, האם יש לך הסבר כיצד בונים אתר בג'ומלה בעברית UTF?
    זה חשוב גם להסביר כיצד עובדים לוקאלית על המחשב ואז מעלים לשרת אתר קומפלט עם דטהבייס וההההכל בעברית…

  • וולף ארז (כותב הפוסט) כתב:

    וסרשפרונגר.. אתה קורא בבלוג שלי? איזה כבוד.
    תשמע, מדריך על ג'ומלה ו-UTF8 פרסמתי כאן:
    http://www.rumba.co.il/content/view/43/37/

    אני לא רואה את הקשר בין עבודה לוקאלית והעברה לשרת, לבין ענייני קידוד.

הוספת תגובה

הוסף את תגובתך למטה או שלח טראקבק מאתרך. תוכל גם להרשם לעדכון על התגובות באמצעות RSS.

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Click to hear an audio file of the anti-spam word