

מיסוך נתונים הוא דרך ליצור גרסה מזויפת, אך מציאותית, של המידע הארגוני. המטרה היא להגן על נתונים רגישים, תוך מתן אלטרנטיבה פונקציונלית כאשר אין צורך בנתונים אמיתיים – למשל, בהדרכות משתמשים, הדגמות מכירות או בדיקות תוכנה.
תהליכי מיסוך נתונים משנים את ערכי הנתונים תוך שימוש באותו פורמט בו נוצרו אותם נתונים. המטרה היא ליצור גרסה שלא ניתנת לפענוח או הנדסה לאחור. ישנן מספר דרכים לשנות את הנתונים, כולל ערבוב תווים (ערבול או השינג), החלפת מילה או תווים והצפנה.
באילו ארגונים נצפה לראות את הדרישה הזו מיושמת ביעילות?
חברות העוסקות בפיתוח תוכנה ומחזיקות בסיסי נתונים, בדגש על חברות שיש להן בסיסי נתונים המכילים מידע רגיש. למשל חברה לפיתוח אפליקציה לניהול השקעות פיננסיות, חברה לפיתוח וניהול משחקים ("גיימינג", הימורים וכו'), מוסדות רפואיים מכל סוג, מוסדות פיננסיים כמו בנקים, חברות אשראי, בתי השקעות, גופי ממשל וכו'.
מדוע מיסוך נתונים חשוב?
מיסוך נתונים פותר מספר איומים קריטיים – אובדן נתונים, חילוץ נתונים, איומים פנימיים או פגיעה בחשבון, וממשקים לא מאובטחים עם מערכות צד שלישי, מפחית את הסיכונים הכרוכים בשימוש בשירותי ענן, הופך את הנתונים לחסרי תועלת לתוקף, תוך שמירה על רבים מהמאפיינים הפונקציונליים המובנים שלו.
מאפשר שיתוף נתונים עם משתמשים מורשים, כגון בודקים ומפתחים, מבלי לחשוף נתוני ייצור ("פרודקשן").
ניתן להשתמש בשיטה זו עבור תהליכי סניטציה – מחיקת קבצים רגילה עדיין משאירה עקבות של נתונים במדיית אחסון, בעוד פעולת הסניטציה מחליפה את הערכים הישנים בערכים מוסווים.
סוגי מידע שחייבים לעבור מיסוך
מידע מזהה אישי (PII), מידע רפואי אישי (PHI), מידע פיננסי (חשבונות בנק, כרטיסי אשראי), מידע שהוא קניין רוחני (למעשה כל סוג אחר של מידע שהוג בגדר "נכס קריטי" של הארגון).
ישנם מספר סוגים של סוגי מיסוך נתונים המקובלים בשוק היום:
מיסוך נתונים סטטי
תהליכי מיסוך נתונים סטטיים יכולים לעזור לארגון ליצור עותק "נקי" של בסיס הנתונים (DB). התהליך משנה את כל הנתונים הרגישים עד שניתן לשתף עותק של מסד הנתונים ללא חשש מדלף מידע. בדרך כלל, התהליך כולל יצירת עותק גיבוי של בסיס נתונים בייצור, טעינתו לסביבה נפרדת, מחיקת מידע מיותר, ואז הרצה של פעולת המיסוך כך שיהיה אפשר להעלות את בסיס הנתונים ליעדו.
מיסוך נתונים דטרמיניסטי
כולל מיפוי של שתי קבוצות של נתונים שיש להם אותו סוג של נתונים, באופן שערך אחד תמיד מוחלף בערך אחר. לדוגמה, השם "יצחק רבין" מוחלף תמיד ב"שמעון פרס", בכל מקום שהוא מופיע בבסיס נתונים. שיטה זו נוחה לתרחישים רבים אך מטבעה היא פחות בטוחה.
מיסוך נתונים תוך כדי תנועה
מיסוך נתונים בזמן שהם מועברים ממערכות ייצור למערכות בדיקה או פיתוח לפני שמירת הנתונים בדיסק. ארגונים שמפתחים תוכנה לעתים קרובות אינם יכולים ליצור עותק גיבוי של בסיס הנתונים המקורי ולהחיל מיסוך – הם צריכים דרך להזרים נתונים באופן רציף מסביבת הייצור לסביבות בדיקה מרובות.
תוך כדי תנועה, תהליך המיסוך שולח מקבצים של נתונים (או בסיס נתונים) שעברו מיסוך. כל מקבץ כזה מאוחסן בסביבת הפיתוח/בדיקה ולא בסביבת ייצור בשום אופן.
מיסוך נתונים דינמי
דומה למיסוך תוך כדי תנועה, אך הנתונים לעולם אינם מאוחסנים במאגר נתונים משני בסביבת הפיתוח/בדיקה. במקום זאת, הם מוזרמים ישירות ממערכת הייצור ונאספים על ידי מערכת אחרת בסביבת ה-dev/test.
טכניקות מיסוך נתונים
ישנן טכניקות שונות ליישום מיסוך נתונים. הנה כמה מהן:
הצפנת מידע
כאשר הנתונים מוצפנים, הם הופכים חסרי תועלת אלא אם כן לצופה יש את מפתח הפענוח. כעקרון, הנתונים מוסווים על ידי אלגוריתם ההצפנה. זוהי הצורה המאובטחת ביותר של מיסוך נתונים, אך היא גם מורכבת ליישום מכיוון שהיא דורשת טכנולוגיה לביצוע הצפנת נתונים מתמשכת, ומנגנונים לניהול ושיתוף מפתחות הצפנה.
ערבול נתונים
האובייקטים יאורגנו מחדש בסדר אקראי, ויחליפו את התוכן המקורי. לדוגמה, מספר מזהה כגון 098765 במסד נתונים ייצור יכול להיות מוחלף ב-123456 בבסיס נתונים בסביבת בדיקות. שיטה זו פשוטה מאוד ליישום, אך ניתן ליישם אותה רק על סוגי נתונים מסוימים, והיא פחות מאובטחת.
Nulling Out
הנתונים נראים חסרים או נטולי ערך כשהם נצפים על ידי משתמש לא מורשה. טכניקה זו הופכת את הנתונים לפחות שימושיים למטרות פיתוח ובדיקה.
שינוי ערכים
ערכי הנתונים המקוריים מוחלפים בפונקציה, כגון ההפרש בין הערך הנמוך והגבוה ביותר בסדרה. לדוגמה, אם לקוח רכש מספר מוצרים, ניתן להחליף את מחיר הרכישה בטווח שבין המחיר הגבוה והנמוך ביותר ששולם. טכניקה זו יכולה לספק נתונים שימושיים למטרות רבות, מבלי לחשוף את מערך הנתונים המקורי.
החלפת נתונים
ערכי נתונים מוחלפים בערכים חלופיים מזויפים, אך מציאותיים. לדוגמה, שמות לקוחות אמיתיים מוחלפים במבחר אקראי של שמות מתוך ספר טלפונים.
עירוב נתונים
בדומה להחלפה, למעט ערכי נתונים מוחלפים בתוך אותו מערך נתונים. הנתונים מסודרים מחדש בכל עמודה באמצעות רצף אקראי; לדוגמה, מעבר בין שמות לקוחות אמיתיים על פני מספר רשומות של לקוחות. ערכת הפלט נראית כמו נתונים אמיתיים, אבל היא לא מציגה את המידע האמיתי עבור כל פרט או רשומת נתונים.
פסאודונימיזציה
על פי תקנות GDPR הוכנס מונח חדש שיכסה תהליכים כמו מיסוך נתונים, הצפנה ו-hash להגנה על נתונים אישיים: פסאודונימיזציה.
פסאודונימיזציה, כהגדרתה ב-GDPR, היא כל שיטה שמבטיחה שלא ניתן להשתמש בנתונים לצורך זיהוי אישי. טכניקה זו דורשת הסרת מזהים ישירים, ורצוי להימנע ממספר מזהים שכשהם מוצגים יחד, יכולים לזהות אדם.
בנוסף, מפתחות הצפנה, או נתונים אחרים שניתן להשתמש בהם כדי לחזור לערכי הנתונים המקוריים, צריכים להיות מאוחסנים בנפרד ובאופן מאובטח.
שיטות עבודה מומלצות לביצוע מיסוך נתונים בארגון:
1. יש לקבוע את היקף הפרויקט
על מנת לבצע מיסוך נתונים בצורה יעילה, חברות צריכות לדעת איזה מידע צריך להיות מוגן, מי מורשה לראות אותו, אילו אפליקציות משתמשות בנתונים והיכן הוא שוכן, הן בתחום הייצור והן בתחום שאינו ייצור. למרות שזה עשוי להיראות קל על הנייר, בשל מורכבות היישום והסביבות הארגוניות השונות, תהליך זה עשוי לדרוש מאמץ משמעותי ויש לתכנן אותו כשלב נפרד של הפרויקט.
2. יש לודא אחידות ביישום
אחידות ביישום מגדירה שכל "סוג" של מידע המגיע מאפליקציה ארגונית חייב להיות מוסווה באמצעות אותו אלגוריתם.
בארגונים גדולים, כלי מיסוך נתונים יחיד המשמש בכל הארגון אינו בר ביצוע. כל תחום עיסוק עשוי להידרש ליישם מיסוך נתונים משלו עקב דרישות תקציב או דרישות עסקיות אחרות, נהלי ניהול IT שונים או דרישות אבטחה/רגולציה שונות.
יש לודא שכלי מיסוך נתונים והנהלים השונים ברחבי הארגון מסונכרנים, כאשר עוסקים באותו סוג של נתונים כדי למנוע תקלות אפשריות במיזוג או מעבר בין בסיסי נתונים בארגון בעתיד.
3. יש לאבטח את אלגוריתמי מיסוך הנתונים
על הארגון מוטלת האחריות הכבדה להגן על האלגוריתמים של יצירת הנתונים, כמו גם על מערכי מידע (דאטה סט) או מאגרי מילים ("דיקשיונריז") המשמשים לערבול המידע ("סקרמבלינג"). מכיוון שרק למשתמשים מורשים תהיה גישה לנתונים האמיתיים, אלגוריתמים אלה צריכים להיחשב כרגישים ביותר. אם תוקף מגלה באילו אלגוריתמי מיסוך חוזרים נעשה שימוש, הוא יכול לבצע הנדסה לאחור ולחשוף בלוקים גדולים של מידע רגיש.
שיטת מיסוך נתונים מומלצת, הנדרשת במפורש על פי תקנות מסוימות, היא להבטיח הפרדת תפקידים. לדוגמה, אנשי אבטחת IT קובעים באילו שיטות ואלגוריתמים ייעשה שימוש באופן כללי, אך הגדרות אלגוריתמים ספציפיות ורשימות נתונים צריכות להיות נגישות רק לבעלי המידע במחלקה / צוות הרלוונטיים.
מוצרי המדף הנפוצים בשוק היום לביצוע מיסוך נתונים הם:
#1) K2View Data Masking
#2) IRI FieldShield
#3) DATPROF – Test Data Simplified
#4) IRI DarkShield
#5) Accutive Data Discovery & Masking
#6) Oracle Data Masking and Subsetting
#7) Delphix
#8) Informatica Persistent Data Masking
#9) Microsoft SQL Server Data Masking
#10) IBM InfoSphere Optim Data Privacy
#11) CA Test Data Manager
#12) Compuware Test Data Privacy
