[3] כך למשל, אם יש לנו כתובות של לקוחות אשר אנחנו רוצים נקי, הדבר הראשון להפריד את השדה הזה על האלמנטים העיקריים של הכתובת (רחוב, מספר, בין הרחובות, מיקוד, וכו '.). ניתן לתקנן השני רכיבים, או כי הם באופן אחיד. תוודא האלמנטים מתוקננת מכילים שגיאות בתוכן שלהם, ואם כבר היינו מוכנים machear (יצירת זוגות או התכתבויות) וקיבוץ, וזו לזהות כי מהווים חלק מהחלקים של הכתובת קיבוץ, לדוגמה, אם ברשותך שני שווה בכיוונים שונים לקוחות הקשורים בדרך כלשהי (הם אחים או נשואים), טופס אלה קבוצה. בסופו של דבר התוצאות של השלבים הקודמים במטה הוא documentarían. זה עוזר כי ניקויים הבאים יותר מסוגלים לזהות כתובות, למשתמשי קצה של היישום יכול לבצע יותר פעולות DW.
כפי שאתה יכול לראות, זה יהיה די מייגע לשאת באופן ידני את התהליך הזה, כדי להפוך אותו אוטומטית זה ייקח יישומים מתוחכמים אשר מכילים כתובות אלגוריתמי ניתוח דקדוקי (ניתוח), אלגוריתמים macheo, והטבלאות ענק עם המון ערכים המספקים מילים נרדפות בחלקים שונים של כתובות. במקרים מסוימים, זה אפשרי ליצור תוכניות ניקוי יעיל. אבל במקרה של מסדי נתונים גדולים, מעורפל ולא עקבי, שימוש בכלים המסחרי הקיים, יכול להיות כמעט חובה. מהי תקינה? החשיבות של סטנדרטיזציה של כתובות עבור חברות של האחדה NOWADAYS הוא חלק שישה צעדים הכרחי לבצע את הניקוי של נתונים. הוא כולל מידע נפרדים בתחומים שונים, כמו גם באשר לאחד קריטריונים מסוימים טיפול טוב ומניפולציה של הנתונים. יש נתונים מתוקננים, איכות עקבית, מאוד שימושי וחיוני לפעמים עבור חברות המשתמשות מחסני נתונים. דוגמה לכך הם ארגונים אלה הנוגעות ללקוחות שנתוניהם בעל ערך רב.
ניהול של שמות וכתובות של הלקוחות אינה משימה קלה. יותר מ- 50% של חברות אינטרנט שלא להגיב לצרכים של כל הלקוחות שלה, זה לא יכול להזדהות איתם בגלל חוסר איכות הנתונים שלהם. [2] לתקשר ביעילות עם הלקוחות שלהם, בטלפון, בדואר או באמצעות כל אמצעי אחר, חברה חייבים לשמור על רשימה של לקוחותיה נקיים מאוד. זה גורם לא רק כי יש פחות חזרה דואר ומשלוחים מדויק יותר, אך גם משפר את תיאור וניתוח של לקוחות, אשר מיתרגם שירות מהיר יותר ו מקצועי.