נכתב ע"י שטינברג איתמר, מנהל תחום דאטה בהאקריו ומנכ"ל חברת Inflow.
עולם הדאטה רווי במונחים מקצועיים, אותיות קיצור באנגלית בדומה לרוב עולם ההיי טק, במאמר זה אסביר באופן פשוט את המונחים הפופולריים כך שגם למי שאין היכרות עם עולם זה הוא יוכל להשתתף בשיחה ערה על הנושא.
להלן קטע משיחה שאתם עלולים לשמוע בין שני אנשי דאטה.
"אני עובד כמהנדס נתונים בחברת SAAS בינלאומית בתחום הפינטק, לאחרונה נדרשנו לפתח דוחות ודשבורדים במערכת Power BI עבור הדאטה אנליסטים שלנו, האתגר המשמעותי שלנו היה שחלק מהנתונים נמצאים ב ERP SAP וחלק ב-salesforce CRM, כמו כן המערכת המרכזית שלנו, בפיתוח פנימי, מנהלת טרנקציות כספיות בין מאות אלפי משתמשים בעולם.
התחלנו לבצע את תהליך ה-ELT עם Airbyte במטרה להעתיק את הנתונים ל Snowflake כ Data warehouse, את הטרנספורציות בחרנו לבצע עם DBT (מזל שה AI של ChatGPT "יודע" SQL). בזמן שה-BI developer שלנו פיתח את המודלים עבור הדשבורדים שאופיינו עם הדאטה אנליסטים, ה Data scientist שלנו פיתח מודלים של ML ב Python עבור מחלקת ה Risk.
התהליך לווה ע"י מומחה Dataops וכן אנשי דאטה של חברת Inflow אשר עזרו לנו לבחור את הכלים הטכנולוגים לצרכים שלנו, האמת שהם פיתחו עבורינו את ה ELT והם עוזרים לנו בתחזוקה השוטפת של ה-Pipeline. "
אז להלן התרגום בגוף הסרט:
זוהי ההגדרה של התהליך המלא של ניהול מחזור חיי הדאטה. מאיסוף הנתונים ממקורות המידע השונים, דרך האינטגרציה ועד לניתוח המידע והפצת הנתונים לצרכנים. בשנים האחרונות התהליך מנוהל בעזרת כלים מעולם התשתיות ופיתוח התוכנה.
ה-Pipeline הכוונה ל "צינור" שבו הנתונים עוברים מהמקורות השונים עד ליעד. כך שניתן יהיה לנתח אותם ולהפכם למידע. בשנים האחרונות קמו חברות המבצעות את התהליך או חלקים ממנו כשירות, לדוגמא: חברת Inflow שמבצעת פרויקטים בתחום.
זהו מודל מחשוב ענן המציע יישומי תוכנה דרך האינטרנט על בסיס מנוי.לדוגמא: Monday המאפשרת ניהול של משימות או Airbnb להשכרת מקום לתקופה קצרה.
בניגוד לתוכנה מסורתית, SaaS, מבטלת את הצורך של משתמשים להתקין ולתחזק את התוכנה על השרתים או המכשירים שלהם. עם SaaS משתמשים יכולים לגשת לאפליקציה מכל מכשיר עם חיבור לאינטרנט, מה שהופך אותה לבחירה גמישה ונוחה לעסקים בכל הגדלים.
יתרון מרכזי אחד של SaaS הוא המדרגיות שלו. כאשר עסקים גדלים או קטנים הם יכולים בקלות לשדרג או לשדרג לאחור את המנוי שלהם כדי להתאים לדרישות שלהם.
חברת היי טק העוסקת בתחומים פיננסים כגון: בורסה, מניות, טרנזקציות פיננסיות. לרוב יהיו להם מחלקות שמודדות סיכון הקשור להונאה או בקרה פיננסית של התנהגות צרכנים לדוגמא: Paypal, Payoneer, Bluevine ועוד
זוהי מערכת מידע המשמשת ארגונים על מנת להציג ולנתח נתונים. התוצרים שלה הינם דוחות ודשבורדים ניהוליים או תפעוליים (לוח מחוונים) העוזרים לעסקים לקבל החלטות מושכלות מבוססות נתונים.
ישנם כלי BI מתחרים רבים בשוק, הבסיס של רובם דומה, הכלים מנסים לבדל את עצמם בעזרת התמקדות בתחום מסוים בתהליך. התכונות המרכזיות של תוכנת BI הן:
המטרה היא לאפשר לעסקים לקבל נקודת מבט הוליסטית על הפעילות, הלקוחות ומגמות השוק שלהם אך לא רק, לעיתים נפתח דוחות על נושא נקודתי כגון תמונת מצב על תקינות תהליך, דו"ח סיכום יומי שישלח אוטומטית בסוף יום ועוד.
דשבורדים ניהוליים יכילו לרוב KPI (Key performance indicator) – מדדי יעילות.
הכוונה היא לנתון או מכוון שמעיד האם בנושא המסוים אנחנו במצב טוב (ירוק) או לא טוב (אדום) .
לרוב יהיה מדובר בנתון אחד מספרי או אחוז והשוואתו לרצוי. בדרך זו מנהל יכול לקבל תמונה ברורה ומהירה על מצב הנושא הנבחן. לכל עולם תוכן ישנם עשרות KPI פופולריים לדוגמא:
מכירות: יעד מכירות, אחוז החזרות, זמן שיחה ממוצע, עלות לליד ועוד...
מלאי: כמות במלאי ביחס למכירות, זמן מהזמנת מלאי ועד למכירה (Time to receive)
וכך הלאה בכל תחום: ניתוח מוקד השירות, ניתוח התפעול, ניתוח הייצור, הפיננסים ועוד.
בשנים האחרונות, תוכנות ה-BI מציעות יכולות ניתוח מתקדמות כגון מידול חזוי ואלגוריתמים של למידת מכונה (ML ו-AI). כלים אלה מסייעים לארגונים לחשוף תובנות עמוקות החבויות בתוך הנתונים, שאולי אינן גלויות באמצעות שיטות ניתוח מסורתיות בלבד.
לדוגמה, מודלים חזויים יכולים לסייע לעסקים בחיזוי מגמות מכירות או בזיהוי סיכונים או הזדמנויות פוטנציאליים בשוק. על ידי מינוף יכולות ניתוח מתקדמות כאלה של תוכנת BI בצורה יעילה, ארגונים משיגים יתרון תחרותי בנוף העסקי המהיר של היום.
קיימות עשרות אם לא מאות מערכות BI, הפופולריות: Power BI של מיקרוסופט, Tableau, Looker, Qlik. יש אפילו נציגות ישראל: Sisense ו-click-BI.
זוהי מערכת מרכזית בארגונים, נועדה לנהל את התהליכים האופרטיבים של הארגון.
מכילה מודולים כגון: מכירות, כספים, מלאי, רכש, ייצור ועוד.
המערכות הפופולריות בישראל הינן: Priority, Sap BO, Sap עבור חברות גדולות, חשבשבת ורווחית עבור לקוחות קטנים.
מערכת המנהלת את הקשר עם הלקוח מהמדיות השונות כגון: שיחות, התכתבויות ולאחרונה גם Whatsapp
לרוב המערכת תנהל את הלקוח משלב הפוטנציאל ועד לקשר השוטף עימו כלקוח.
מערכות פופולריות Salesforce, Microsoft CRM ,hubspot, zoho.
זוהי מערכת אשר מבצעת סינכרון נתונים בין מקורות שונים ו "מסדרת" את הנתונים על מנת שיהיה קל לתשאל ולנתח את המידע. על מנת לאחד את הנתונים, ראשית יש להתחבר למקורות המידע ולהעביר את הנתונים ליעד מרכזי אחד. תהליך זה מתבצע ע"י כלי EL. ביעד, ניתן לטפל בנתונים ע"י איחוד שלהם, טרנספורמציה, הוספת עמודות, טיפול במבנים מורכבים ועוד.
לדוגמא:
במערכת ה- CRM salesforce יש לנו את תיעוד שיחות השירות מול הלקוח, לעומת זאת במערכת ה ERP SAP יש לנו את הזמנות הלקוח והחשבוניות. במערכת הראשית הפנימית יש טרנזקציות פיננסיות (המוצר שלנו) אם נרצה לנתח את המכירות של פריט וכן את רמת ההתענינות או כמות השימוש של הלקוח נצטרך את הנתונים משלושת המערכות. ראשית נעביר את הנתונים כמות שהם ליעד ואז נבצע טרנספורמציה שתחבר אותם ותוסיף עמודות מחושבות.
קיימות מגוון מערכות המבצעות את הפעולות הללו: "המסורתיות" כגון: SSIS של מיקרוסופט, Informatica, Pentaho ו Talend Data stage. (ישנן עוד עשרות רבות) ולעומתן כלי הענן החדשים שמבצעים EL.
כגון : Fivetran, Stitch, Hevodata, Etlworks, Rivery הישראלית ועוד רבות.
מהו Snowflake:
את הנתונים נרצה להעביר למחסן נתונים מרכזי בעל משאבים משמעותיים.
אם מדובר בכמות נתונים קטנה של חברה SMB ( חברה קטנה בינונית) נוכל להשתמש בבסיסי נתונים טבלאיים (רלציונים) סטנדרטים. אך אם כמות הנתונים גדולה נרצה להעביר את הנתונים לבסיס נתונים אנליטי מנוהל בענן. Snowflake היא אחת מהאופציות, בסיסי הנתונים האנליטים הפופולריים הינם: Redshift של אמזון ו Bigquery של גוגל.
מהו DBT:
לאחר שהעברנו את הנתונים לבסיס הנתונים האנליטי Snowflake, יש לחבר את הנתונים מהמערכות השונות ולהוסיף שכבה של שדות מחושבים ודגלים שיעזרו לדאטה אנליסט ול Data scientist לעשות את החלק שלהם. DBT הוא מוצר תוכנה המאפשר לנהל את הטרנספורמציות ע"י כתיבת SQL, היתרון של הכלי הינו שהפיתוח מתבצע כמו ניהול פיתוח קוד אשר מאפשר ניהול גירסאות ותלויות בין שאילתות
כמו כן הכלי מבצע את תהליכי יצירת הטבלאות וה Views באופן אוטומטי ע"י הגדרות של המפתח (Materialization) מה שיוצר תהליך יציב ונוח לתחזוקה.
מדעני נתונים ומנתחי נתונים הם שניהם תפקידים חשובים בתחום ניתוח הנתונים, אך יש להם הבדלים ברורים במערך המיומנויות והאחריות שלהם. בעוד ששני אנשי המקצוע עובדים עם נתונים על מנת לחלץ תובנות ולפתור בעיות, ההבדל העיקרי טמון בגישה וברמת המומחיות שלהם. מנתחי נתונים מתמקדים בעיקר בארגון ופרשנות של נתונים מובנים תוך שימוש בטכניקות סטטיסטיות כדי לענות על שאלות עסקיות ספציפיות. מצד שני, למדעני נתונים יש מגוון רחב יותר של מיומנויות, כולל שפות קידוד מתקדמות כמו Python או R, אלגוריתמים של למידת מכונה (ML) והבנה עמוקה של סטטיסטיקה. הם מיומנים לא רק בניתוח מגמות עבר אלא גם ביצירת מודלים חזויים לחיזוי עתידי.
הבחנה חשובה נוספת היא באוריינטציה שלהם לפתרון בעיות. על דאטה אנליסטים מוטלת בדרך כלל משימה לזהות דפוסים או מגמות בתוך מערכי נתונים קיימים כדי לספק תובנות מעשיות למקבלי ההחלטות. ההתמקדות שלהם היא יותר בניתוח תיאורי - מה קרה בעבר ולמה - מוגבל לשאלות מוגדרות מראש של בעלי עניין. לעומת זאת, מדעני נתונים מצטיינים בניתוח חקרני על ידי חשיפת קשרים נסתרים בתוך כמויות גדולות של מערכי נתונים לא מובנים או מבולגנים, שאולי אין להם יעדים ברורים שצוינו בתחילה על ידי בעלי עניין. בכך הם חושפים הזדמנויות עסקיות חשובות שאם לא כן, ניתן היה להתעלם מהן.
לסיכום, בעוד ששני התפקידים תורמים באופן משמעותי להפקת ערך מהנתונים, המומחיות הנדרשת לכל אחד משתנה מאוד בין מדען נתונים למנתח נתונים. לראשון יש מיזוג של מיומנויות מדעי המחשב יחד עם ידע סטטיסטי בעוד שלאחרון יש שליטה חזקה על כלים דמויי Excel יחד עם יכולת סטטיסטית.
ביקשו מאיתנו לנתח את הנתונים של הארגון, כיוון שהם "מפוזרים" בכמה מקומות, היינו צריכים להביא את הנתונים למקום אחד מרכזי ולסדר אותם כך שלהוא שבונה דוחות במחולל הדוחות שלנו יהיה קל לבנות ולהוא שחוזה את העתיד ומוצא מי מנסה לעבוד עלינו יהיה קל לבנות מודלים.כיוון שהתחום חדש לנו, נעזרנו בתהליך בחברת Inflow שהינם מומחים בתחום הדאטה.
מ.ש.ל
מתעניינים בלימודי דאטה אנליסט? לחצו כאן לפרטים על הקורס