המסורת ממשיכה, והפעם אני מפיצה לשימושכם מילון מושגים עליו עמלתי קשות, על מנת שבאמת יהיה כלי עבודה משמעותי בידכם. המילון עוסק במושגים המרכזיים והחשובים מעולם הBig Data. אספתי עבורכם את המושגים החשובים ביותר, על כל מושג אכתוב לא יותר מכמה משפטים תמציתיים על מנת שתוכלו לקלוט בקלות את עולם הדברים האקטואליים. כמו כן, למי שרוצה להעמיק בעולם המופלא הזה של הביג דטה והדטה, אתם יותר ממוזמנים להכנס לקטגוריה שלי בנושא בבלוג הזה-Big Data, קטגוריה בה אני מקיפה את עולם המושגים הזה על ידי קייס סטאדיז, מחקרים, נתונים, כתבות מכל העולם ועוד ועוד.
<A>
Aggregation- הצטברות, אַגְרֶגַצְיָה | תהליך של חיפוש, איסוף והצגת הדטה לאחר החיבור שלה מכמה מקורות שונים.
Algorithms– אַלְגּוֹרִיתְם | סדרת פעולות חישוב, שיכולה להוביל לפתרון בעיה נתונה אחת, או אתגר נבחר שמוביל לפעולה מתוך הדטה.
Analytics- ניתוח מתמטי | הגילוי של אינסייטים מתוך הדטה על ידי היעזרות במתמטיקה או אלגברה.
Anomaly detection- גילוי של סטיה | החיפוש אחר מושגים בדטה בתוך דטהבייס- בצורה מכלילה שאינה יכולה להסביר התנהגויות, או לחילופין להצביע על דפוסים. האנלומליה מספקת למעשה נקודות קריטיות של אינפורמציה שיכולות להפוך לאקשנבול בעקבותיה.
Anonymization– דטה אנונימית | ביטוי שמשקף את האפשרות להפוך את הדטה לאנונימית, הודות להסרת כל הנקודות בדטה שיכולות להוביל לזהותו של אדם או לפתרון מזוהה.
Application- אפליקציות | תוכנות מחשוב שמאפשרות למחשבים לבצע פעולות מסוימות שמתוכנתות לכך מראש.
Artificial Intelligence- בִּינָה מְלָאכוּתִית | פיתוח של בינה חכמה על ידי ובאמצעות מכונות ותוכנות שיש ביכולתן להבין ולקלוט את הסביבה ועל בסיס ההבנה והלמידה המקפת לבצע פעולות במהירות רבה. ההישג החשוב ביותר טמון בעובדה שהיכולת הזו מתפתחת ולמעשה הלימוד של הפעולות מצטבר ומוביל לכך שהמכונה- תוכנה או חומרה, מסוגלת לעשות דברים נוספים לאורך זמן.
<B>
Big Data- ביג דטה | מושג כללי שמשמש לתיאור כמות מאוד גדולה של דטה מובנית או לחילופין לא מובנית שהחברה מייצרת. מדובר בדטה שצריך לנתח במערכות שיודעות להתמודד עם כמויות גדולות שהגיעו ממקורות מידע שונים. למרות שאין להצביע על כמות ברורה לגבי השאלה מה זה בדיוק ביג דטה, הרי בדרך כלל כשמתייחסים לביג דטה מתכוונים לאקסבייט של דטה או פטהבייט.
BI-Business intelligence- בינה עסקית | בינה עסקית- באנגלית business intelligence, בראשי תיבות bi, היא תחום בטכנולוגיית המידע העוסק בבניית מערכות שנועדו להדריך את הארגון איך להבין את הנושאים העסקיים שבהם הוא פועל ואת דפוסי העבודה שלו באותם תחומים.
Big Data Analytics- אנליזה של ביג דטה | מושג שמתאר תהליך שמטרתו בחינה של כמויות גדולות של דטה מסוגים שונים, על מנת לגלות דפוסים שנחבאים בתוך הדטה ויכולים לשמש להעלאת אינפורמציה תועלתית. כך ניתן לספק חומר ממידע תחרותי או לגלות בניפיטים עסקיים שאנחנו לא מצליחים לראות לבד כמו הערכת אפקטיביות שיווקית והגדלת הכנסות שהופקו הודות לאותה אינפורמציה.
Big Data Management- ניהול של ביג דטה | ניהול של ביג דטה בתוך ארגון, מתייחס לניווט האדמיניסטרציה של המידע ולחיבור אוסף הנתונים למקום אחד שיכיל כמויות גדולות של מידע אשר הושגו גם ממקורות של דטה מובנית וגם של דטה שאינה מובנת- Unstructured data.
Big Data as a Service -BDaaS- ביג דטה כשירות | ביג דטה כשירות מתאר את השירות שניתן מטעם אנליסטים וסטטיסטיקאים וכולל כלים שיודעים להתמודד עם אינפורמציה על ידי ספקי מיקור חוץ. כל אלה הם למעשה כלי עזר שמקלים על הארגון לנהל את הדטה המובנית והלא מובנית באמצעות אותם כלים ואותם נותני שירותים. זאת על מנת שהחברה תרוויח מהמידע הזה אך לא תוציא כספים מופרזים על התשתית ועל הקניית המומחיות בתוך הארגון.
Big Data Technologies- טכנולוגיות ביג דטה | טכנולוגיות שתומכות אתגרים של חברות ומכינות אותן להתמודדות עם כמות מאוד גדולה של דטה, מובנית ולא מובנית. הטכנולוגיות מפותחות על ידי שחקנים גדולים כמו : IBM, מייקרוסופט ועוד. ובאותה נשימה ישנן טכנולוגיות אשר משתכללות בידי שחקנים קטנים, סטרטאפים וחברות תוכנה קטנות.
Behavioural Analytics- אנליזה של התנהגיויות | מושג המתאר אנליזה שמדגימה איך ולמה ומה- במקום שתתאר רק מתי. האנליזה הזו יכולה למעשה לבחון התנהגויות אנושיות, לזהות דפוסים אופייניים בחומרי הדטה השוטפים ולחלץ שפע רב יותר של תובנות לטובת חברות ששואפות להבין את נטיות לקוחותיהם.
Big Data Scientist- המדען של הביג דטה | מישהו שיש לו יכולת לפתח אלגוריתם שמאפשר למצוא היגיון בתוך כמות גדולה מאוד של מידע, כלומר- בביג דטה.
Big data Startup- סטארטאפ של ביג דטה | חברה צעירה שפיתחה טכנולוגיה חדשה של ביג דטה.
Biometrics- בִּיוֹמֶטְרְיָה | ההגדרה של אנשים על פי המאפיינים שלהם, בדיקת מערכות אורגניות בשיטות מתמטיות וסטטיסטיות.
Brontobytes- ברונטובייטס | בערך 1000 Yottabytes והגודל של הדיגיטל ביקום כולו. הצפי למחר הוא שברונטו בייטס כולל 27 אפסים ! זאת על מנת שתבינו את גודלו.
<C>
Classification analysis- קְלָסִיפִיקַצְיָה של אנליזה | תהליך סיסטמתי לקבלת מידע חשוב ורלוונטי על הדטה.
Cloud computing- טכנולוגיות ענן | חלוקה של מערכות מחשוב ברשתות שמאפשרות אחסון של הדטה של החברה מחוץ לשרתים בבעלות.
Clustering analysis- ניתוח אשכולות של דטה ואנליזה | התהליך של איתור והגדרה של אובייקטים אשר דומים אחד לשני והיכולת לעשות להם קלסטרינג על מנת שניתן יהיה להבין את השוני ואת הדמיון בתוך הדטה, כדי שנוכל בפועל לחלץ ממנו תובנות שעל בסיסן ניתן לעשות דברים משמעותיים.
Cold data storage- אחסון של דטה שלא בשימוש | אחסון של דטה ישנה שכבר אינה בשימוש בשרתים (ואשר העלות לאחסון של המידע בהם זולה יותר). חשוב לציין שבמקרה הזה החזרת הדטה אל המערכות תהיה כרוכה בתהליך ארוך יותר מהרגיל.
Comparative analysis- אנליזה השוואתית | פרוצדורה של השוואה והערכה של חומרים מתוך הדטה אשר נועדו להבחין בדפוסים בתוך כמות גדולה מאוד של דטה.
Complex structured data- דטה מובנת מורכבת | דטה שמצורפת ממקורות מורכבים, אינטגרציה של חלקים שאי אפשר לפענח אותם בקלות על ידי כלי זיהוי רגילים של דטה.
Computer generated data- דטה שנוצרת על ידי כוח מחשוב | דטה שנוצרת מתוך מערכת המחשוב, למשל – במקרה של כניסת משתמשים לעמודים Log Files.
Concurrency- בו זמנית | ביצוע בו זמני של משימות ותהליכים שמתקיימים במקביל באותו זמן.
Correlation analysis- קורלציה באנליזה | ניתוח דטה שמאפשר לקבוע את מערכת היחסים בין סוגים שונים של דטה.
Customer Relationship Management- ניהול לקוח | ניהול של המכירות או של התהליך העסקי שמתקיים מול לקוח. מתברר כי עולם הביג דטה ישפיע ללא ספק על הדרך ועל האסטרטגיות של מערכות ושיטות הCRM.
Commoditization of Information- קומודיטציה של האינפורמציה | יכולת לקחת את הדטה ולהפוך אותה לקומודיטי לכל דבר ועניין, מכירת הדטה, שימוש בדטה ככוח ועוד.
<D>
Data Science- המדע של הדטה | המחקר של מקורות האינפורמציה, מה הם מיצגים ואיך ראוי להשתמש בהם כמקורות ערך וכמשאב לטובת העסקים ולטובת מערכות הIT.
Data Mining- כריית דטה | היכולת למצוא בתוך הדטה את המידע הרלוונטי, או לחילופין היכולת למצוא במרחב הרשת עוד דטה נוספת שאינה בבעלות החברה ולחבר אותה אל הדטה המובנית של הארגון. היכולת למצוא דפוסים שונים של מידע ממקורות מידע שונים.
Dashboard- לוּחַ מַחֲוָנִים | מיצג גראפי שמייצג את הביצועים ואת האנליזה של האלגוריתמים השונים של המידע.
Data aggregation tools- כלי אגריגציה של דטה | התהליך של טרנספורמציה של דטה מובנית מכמה מקורות מידע שונים אל תוך משפך אחד.
Data analyst- אנליסט של דטה | מישהו שיודע לעשות אנליזה, מודרציה וניקיון של תהליך הדטה.
Database- מאגר מידע | דטה שמאוחסנת בתוך מקום אחד ולמעשה יכולה להיות מנוהלת בשיטת טכניקה אחת.
Database-as-a-Service- מאגרי מידע כשירות | שירות של אחסון של דטה בענן, שעליו עובדים לפי השימושים. אמזון היא למשל שירות מסוג זה.
Database Management System- ניהול מערכות של מאגרי מידע | היכולת לאסוף, לאחסן ולתת גישה לדטה.
Data Centre- מרכז דטה | מקום פיזי בו ישנם שרתים שמאחסנים כמות גדולה של דטה.
Data cleansing- ניקוי דטה | תהליך של בדיקת הדטה על מנת למחוק כפילויות, לתקן טעויות ולספק דטה קונסיסטנטית ממנה אפשר לחלץ תובנות.
Data custodian- משמורת על הדטה | מישהו שאחראי על הסביבה הטכנולוגית ועל הצרכים שלה מהפרספקטיבה של אחסון ושימור המידע. הדטה.
Data ethical guidelines- גייד ליין לשימוש אתי בדטה | מדינויות וגייד ליין שעוזרים לארגון להיות שקוף ואתי בכל הקשור לשימוש של הדטה. בעצם קו זה משמש לאבטחת המידע ושימור הפרטיות של האנשים.
Data feed- הפיד של הדטה | סטרימינג של דטה שמגיע מרשתות חברתיות, כמו למשל – טוויטר, פייסבוק, RSS.
Data marketplace- שוק של דטה | סביבה דיגיטלית שמאפשרת לקנות ולמכור דטה.
Data modelling- מידול של הדטה | הניתוח והאנליזה של הדטה שמשתמשים בה לטובת מידול של טכניקות על מנת שניתן יהיה לבנות אינסייטים מתוך הדטה.
Data set- איסוף דטה | קוֹלֶקְצְיָה של דטה, ליקוט קובצי דטה וריכוזם לקבוצה אחת.
Data virtualization- וירטואליזציה של הדטה | תהליך של אינטגרציה של דטה שאמור להשיג יותר אינסייטים. לרוב מהלך זה כולל שימוש בדטה בייס גדולים, מערכות מסמכים, אתרים, טכניקות של ביג דטה ועוד.
De-identification- זיהוי | זה ממש כמו להגיד אנונימיות, יכולת שמבטיחה שאי אפשר לגלות את זהותו של האדם דרך הדטה.
Discriminant analysis- אנליזה ואבחנה | קטלוג של הדטה, חלוקתה לקבוצות, וכן לתת קטגוריות, בצורה שמאפשרת לפגוש את החוקים ה של הדטה דרך הקטלוג.
Distributed File System- הפצה של מסמכים בתשתית של הדטה | מערכות שמטרתן להציע דרך גישה קלה וזמינה לשם אחסון ואנליזה של דטה ושל תהליכים של דטה.
Document Store Databases- אפסון של מסמכים | שיטה של אחסון דטה בייס מבוסס מסמכים. מערכת המעוצבת בעיקר למטרת אחסון, ניהול ומציאת מסמכים חשובים. שיטה זו גם ידועה בשם “סמי דטה מובנית”.
<E>
Exploratory analysis- גילוי באנליזה | מציאת דפוסים קבועים בתוך הדטה. ניתוח זה מספר על היכולת לאתר בתוך הדטה ממצאים ומאפיינים מובהקים.
Exabytes- אקסבייטס | בערך 1000 פטה בייטס או בחישוב אחר מיליארד גיגהבייטס. כיום אנחנו יוצרים בערך כל יום אקסבייט של אינפורמציה ברמה הגולבאלית, וזאת- בכל יום נתון.
Extract, Transform and Load -ETL- לשלוף, לשנות ולטעון | תהליך בתוך הדטה בייס ובמחסני אחסון דטה שמאפשר לכרות את החומר הנחוץ מתוך הנתונים ולבנות סט של תובנות מתוך מקורות מידע שונים. בצורה זאת ניתן לעשות טרנספורמציה של המידע כך שתתאים לצרכים התפעוליים.
<F>
Failover- לשנות תשתית כשהמערכת נופלת | היכולת לשנות באופן אוטומאטי את השרת ולהחליפו באחר כשמערכות של שרתים נופלות. שיטת גיבוי.
Fault-tolerant design- עיצוב מערכת סובלנית לטעויות | מערכות שמעוצבות באופן כזה שהן יהיו מסוגלות להמשיך ולעבוד גם כשחלק מהמערכת נופל.
<G>
Gamification- משחקיות | שימוש באלמנטים משחקיים בעולם הסחר שאינו משחקי בהגדרה, על מנת שנוכל ליצור דטה שתשמש לאחר מכן לפעולות עסקיות משמעותיות.
Graph Databases- תשתית של דטה בייס | השימוש בתשתיות שמכילות נכסים שונים של דטה, וקשרים שונים של דטה שאוחסנה. זה מאפשר לבנות אינדקסים לפי סמיכות של מידע, וכן בחינת המידע מהיבט שונה.
Grid computing- מערכות ותשתית מחשובית | חיבור בין מערכות מחשוב שונות שעולות במיקומים שונים, הרבה לרוב באמצעות ענן לטובת השגת יעדים ומטרות זהות.
<H>
Hadoop- מערכת קוד פתוח | שיטת עבודה, פרייממוורק מתוך תפישה של קוד פתוח שמאפשר לבנות תהליכים ולאחסן ביג דטה לרוחב אגפים שונים של מסמכים ומערכות.
HBase- מערכת קוד פתוח לדטה | מערכת קוד פתוח, שרצה במקביל לHadoop ומאפשרת קישוריות בין דטה שאינה ייעודית או בזיקה לדטה אחרת.
High-Performance-Computing -HPC- מערכות מחשב שיודעות לייצר ביצועים גבוהים | מחשבי על שיודעים לפתור בעיות מורכבות.
<I>
In-memory- זיכרון פנימי | מערכת דטה בייס לאחסון דטה שמשתמשת באותו זיכרון שאצור בדיסק, מאפשרת מהירות מאוד גבוהה בתהליך מהיר של אחסון ושל העלאת הדטה.
Internet of Things- האינטרנט של הדברים | ההגדרה היא- כשחפצים רגילים מתחברים לאינטרנט עם סנסורים והופכים לפריטים חכמים, וכמובן מחוברים.
<J>
Juridical data compliance- דרישות משפטיות ליצירת דטה | מושג זה הופך לרלוונטי כשאנחנו משתמשים בפתרונות ענן וכשהדטה מאוחסנת במקומות שונים בארץ או אפילו מחוצה לה, ביבשות שונות. במידה וזה המצב יש מחויבות משפטית לאשר את הטיפול בדטה ואת תוכניות האחסון שלה.
<K>
KeyValue Databases- מפתחות עיקריים לדטה בייס שיוצר ערך | דרך ייחודית להקליט ולהגדיר את הדטה, שבאמצעותה החיפוש בדטה נעשה מהיר יותר. הדטה מאוחסנת בשיטה של מפתחות ערך- ומאפשרת לעשות תכנות מהיר לשפה ולמידע.
<L>
Latency- השהייה, עיכוב | מדידה של זמן שלמעשה מעכבת את המערכת.
LBS- לוקישן בייס דטה, דטה מקומית | דטה שמושתתת על שירותים שונים ומכווני מטרה. מידע על מיקומים, מפות של גוגל, Waze, צ’ק אינים למקומות שונים ברשתות החברתיות, וזיהוי של אפליקציות בGPS של מיקומנו.
Legacy system- מערכות ישנות | מערכת טכנולוגית ישנה, או מערכת מחשוב ישנה – שכבר אינה נתמכת.
Load balancing- איזון עומסים | היכולת לפזר ולהפיץ את העומסים השונים של העבודה, באמצעות מחשבים שונים או שרתים נפרדים על מנת להשיג תוצאה אופטימאלית יותר ושימוש ממקסם של אגפי המערכת.
Location data- דטה מבוססת מיקום | דטה מבוססת GPS ממוקדת ביכולת זיהוי של מיקום גאוגרפי.
Log file- רישום כניסה לדף מידע במחשב | עמוד שמיוצר באופן אוטומאטי במחשב ולמעשה מתעד את האירועים שקורים בזמן שהוא פעיל.
<M>
Machine 2 Machine data- דטה מבוססת על מכונה למכונה | שתי מכונות או יותר שיכולות לתקשר אחת עם השניה דרך סנסורים אשר יוצרים מידע מובנה שניתן לניהול.
Machine data- דטה ממכונות | דטה שנוצרת מפעולת מכונות באמצעות סנסורים או באמצעות אלגוריתמים.
Machine learning- יכולתן של מכונות ללמוד את הדטה | חלק מכל הפרק שקרוי- AI-Artificial Intelligence תבונה מלאכותית, בו למעשה מכונות לומדות להתמקצע במה שהן עושות אבל עם הזמן הן גם יודעות להשתכלל ולעשות את עבודתן טוב יותר.
MapReduce- תוכנה למיפוי מסות של דטה | צורת בהרבה מאוד תהליכים, או הפעלת מחשבים שנועדו לבצע פעולה מסוימת אחת באותה נקודת זמן.
Massively Parallel Processing -MPP- שימוש בפרוססורים שונים | שימוש בהרבה מאוד תהליכים, או מחשבים על מנת לבצע פעולה מסוימת אחת באותה נקודת זמן.
Metadata- מטא נתונים | דטה שמשקפת מכלול נתונים על הדטה, ומספקת אינפורמציה על מהותה של הדטה.
Multi-Dimensional Databases- דטה בייס בכמה מימדים | תהליך אנליזה אונלייני שמאפשר אופטימיזציה של דטה בייס מתוך מרכזי דטה.
MultiValue Databases- ריבוי ערך מדטה בייס | ערך של דטה מכמה מקורות שונים.
<N>
Natural Language Processing- תהליך של לימוד של שפה מדטה | שדה התמחות בתחום המחשוב והמדע של המחשוב שעוסק באינטראקציה בין מחשבים לבין השפה של האדם.
Network analysis- אנליזה של רשתות | היכולת לראות מערכות יחסים בין רשתות, אנליזה של הקשרים בינהן.
<O>
Object Databases- דטה בייס כאוביקט | אחסון דטה כאוביקט.
Object-based Image Analysis- אנליזה מבוססת תמונה | אנליזה נתונים של תמונה דיגיטלית, שמספק מידע על התמונה דרך הפיקסלים שלה.
Operational Databases- אופרציה של דטה בייס | היכולת להשתמש בטרנסאקציות שמתבצעות בדרך כלל באון ליין ומאפשרות איסוף ואיתור פריטים ספציפיים בדטה, אינפורמציה ספציפית שיכולה לעזור לחברה.
Optimization analysis- אופטימיזציה של אנליזה | התהליך של אופטימיזציה תוך עיצוב מוצר שקשור לאלגוריתמים. מהלך זה מאפשר לחברות לבנות עיצוב וירטואלי של אופציות שונות של מוצרים ועל ידי הדטה לבחון את המוצר מכמה היבטים שונים.
Ontology- אונתולוגיה | מערכת שמתקפת את הידע על קונספטים שונים בתוך ממד אחד ומאחדת את מערכות היחסים שנוצרו בין אותם קונספטים.
Outlier detection- זיהוי של מידע מנקודת מבט מרוחקת | נקודה במדגם סטטיסטי המרוחקת מהמקבץ העיקרי בטבלת הנקודות שהוצגה באותו מדגם.
<P>
Pattern Recognition- זיהוי של דפוס קבוע | היכולת לזהות דפוסים בדטה, על ידי אלגוריתמים שמסוגלים לעשות חיזוי על דטה חדשה שמגיעה מאותו מקור.
Petabytes- פטהבייטס | בערך 1000 טרה בייטס- או מיליון גיגה בייטס.
Platform-as-a-Service- פלטפורמה כשירות | שרת שמסוגל להפעיל את כל התשתיות שנחוצות בפתרונות של ענן כשירות לחברות.
Predictive analysis- חיזוי אנליזה | הערך הגדול ביותר של האנליזה בביג דטה הוא זה שמאפשר לערוך חיזוי מראש לגבי הנטיות של הגולשים, עם פירוט מבוסס לגבי כל מה שהם ירצו לקנות, איפה יבחרו לבקר או איך מאן דהוא יתנהג בעתיד. לצורך חיזוי עתידי המערכות יודעות להשתמש במאגרי נתונים ממקורות שונים- כמו דטה היסטורית, דטה של טרנסאקציות, סושייל או פרופילים של לקוחות- כל אלו יכולים למעשה פתוחים לשם הצלבה ואיתור הזדמנויות עתידיות.
Privacy- פרטיות | לבודד חלק מסוים בדטה או באינפורמציה על מישהו או על פריט מוגדר, על מנת לבצר את החלקה הפרטית כך שהיא לא ניתנת לשימוש פומבי.
Public data- דטה פומבית | ההפך מהדטה הפרטית- אינפורמציה פומבית או דטה ציבורית- אותה אנשים יכולים למצוא במצב חשוף.
<Q>
Quantified Self- מדידה עצמית | תנועה לשימוש באפליקציות, לטובת מדידה עצמית על מנת לנטר פעולות אישיות במהלך היום. וזאת לטובת הבנה טובה יותר במצבי ההתנהגות הגופנית, הבריאותית ועוד.
Query- שאילתא | שאלה לגבי אינפורמציה או חיפוש תשובה על שאלה ספציפית מתוך הדטה.
<R>
Re-identification- זיהוי מחדש | קומבינציה של כמה סטים של דטה למטרת איתור אדם מסוים בתוך הרבה מאוד דטה אנונימית.
Regression analysis- נסיגה של אנליזה | הגדרה של תלות בין שני משתנים. אבחון זה למעשה מניח שיש בנמצא דרך אחת שמשפיעה על משתנה אחד, וזאת- על מנת שהוא ישפיע על משתנה נוסף.
RFID- גלי רדיו | סנסור שמשתמש בגלי רדיו לטובת שידור של דטה.
Real-time data- דטה בזמן אמת | דטה שנוצרת, מעובדת, מאוחסנת, ועוברת אנליזה עם וויזואליזציה בשבריר של שניה.
Recommendation engine- מנועי חיפוש והמלצה על מידע | אלגריתם שמציע מספר מוצרים על בסיס קניה קודמת ועל בסיס של התנהגויות הצרכן או לחילופין נטיות הצריכה של אחרים.
Routing analysis – מיגור אנליזה | מציאת האופטימיזציה של המיגור על ידי שימוש במירב המשתנים- על מנת להוריד עלויות ולהעלות את רמת האפקטיביות.
<S>
Semi-structured data- דטה מובנת חלקית | תבנית או צורה של דטה מובנית שאין לה סְטְרוּקְטוּרָה טיפוסית של דטה מובנית. אך בכל זאת יש לה תגיות או דפוסים אחרים שהופכים אותה למסודרת.
Sentiment Analysis- הסנטימנט מהדטה | שימוש באלגוריתם על מנת למצוא את הדרך בה אנשים מרגישים לגבי נושא מסוים לטוב או לרע.
Signal analysis- סימנים באנליזה | שימוש בחיישנים של הדטה, לטובת ניתוח ומדידה של תכונות מבחינת משך הזמן או הכמות של חומרים שנבדקו בעולם הפיזי. הניתוח מתבקש על מנת למדוד את רמת התוצאות.
Similarity searches- הקבלות בחיפוש | היכולת למצוא בדטה קווי דמיון מקבילים לדפוס שכבר הכרנו מאובייקט אחד כדי שניתן יהיה לזהות אותו באובייקט אחר.
Simulation analysis- הדמיות באנליזה | סימולציה של פעילות בזמן אמת של תהליך או של מערכת. הסימולציה מבטיחה את הדרגה האופטימלית של הביצועים כשהיא לוקחת בחשבון משתנים רבים ממקורות נפרדים.
Smart grid- תשתית חכמה | שימוש בסנסורים בתוך תשתית- על מנת לנטר מה קורה בזמן אמת ולהבטיח אפקטיביות מוגברת על ידי דטה שמשקפת זמן אמת.
Software-as-a-Service- תוכנה כשירות | תוכנה או כלי של תוכנה שמשתמשים בו דרך האינטרנט, כדוגמת הדפדפן.
Spatial analysis- אנליזה מרחבית | אנליזה של דטה ספציפית כגון דטה על מיקום או דטה על פי קטגוריות- על מנת להגדיר ולהבין את הופעת הדפוסים הקבועים בתוך מאגר הדטה.
SQL- שפת תכנות | שפת תכנות שעוזרת לערוך בדיקה של דטה ממקורות שונים עם זיקה למטרה מוגדרת מראש.
Data Social- סושייל | דטה שנוצרת ברשתות החברתיות, על ידי המשתמשים.
Structured data- דטה מובנת | דטה אשר מאורגנת על פי תשתית וחוקים. הדטה מופיעה בטורים מסודרים ומאפשרת את הניהול שלה.
<T>
Terabytes- טרה בייטס | בערך 1000 גיגהבייטס, טרה ביטט יכול לאגור עד ל300 שעות של וידיאו בHD.
Time series analysis- סדרה של מערכות אנליזה במקצבי זמן | אנליזה של דטה שמנותחת בקצבים של זמן. הדטה צריכה להיות מוגדרת היטב והודות לכך מודדים אותה באחוזי הצלחה גבוהים בנקודות זמן ספציפיות ובמהירות מאוד גבוהה וזאת על מנת להגדיר אירועים משמעותיים שקורים על ציר הזמן.
Topological Data Analysis- אנליזה של טופולוגיה | פוקוס על המורכבות הטיפוסית של הדטה ושל הזהות המובהקת של הדטה. המיפוי כולל כל מידע סטטיסטי משמעותי אחר שמוצג על ידי הדטה.
Transactional data- טרנזקציה של דטה | דטה דינמית שמשתנה בתוך ציר הזמן.
Transparency- שקיפות | הלקוחות רוצים לדעת מה קורה עם הדטה שלהם ולאור זאת גם הארגונים חייבים להיות שקופים כל כך, על מנת שישיגו את מלוא שיתוף הפעולה מצד המשתמשים.
<U>
Un-structured data- דטה לא מובנת | דטה בכל זאת יכולה להכיל בתוכה אינפורמציה משמעותיות עבור החברה. בדרך כלל דטה שאינה מובנית תגיע מהרשתות החברתיות, מהאפליקציות, ומהסרץ’.
<V>
Value- ערך | דטה שנמצאת בשימוש החברה יכולה להוביל להפקת ערך עצום עבור ארגונים, עבור החברה באופן כללי ועבור הלקוחות. ביג דטה משמעו בפועל שעסקים גדולים יכולים להגיע להרבה מאוד תעשיות והערך המועצם שנבע מהדטה יכול להיות משמעותי עבור חברות כי דרכו ניתן לקבל עוד ערך מוסף בצורת רווחים שאינם קיימים כיום.
Variability- השתנות | כריית הדטה יכולה להשתנות ובמהירות, כמעט בכל טוויט למשל תוצג מילה שיכולה לקבל משמעות שונה לחלוטין ממה שחשבנו- והתחלופה בין המשמעויות גורמות לדטה להיות בפועל מאוד מגוונת ומאתגרת.
Variety- גיוון | כידוע, הדטה כיום מגיעה מהרבה מאוד מקורות מידע וממכלול פורמטים. למשל דטה מובנית, סמי דטה מובנית ודטה שאינה מובנית כלל . כל אלו יחד מעלים לעין כול את ההזדמנות לגלות דפוסים ולהעלות שאלות רלוונטיות שאנחנו לבד אפילו לא יודעים לשאול.
Velocity- מהירות | המהירות בה הדטה נוצרת, מאוחסנת, עוברת אנליזה וויזואליזציה.
Veracity – מְהֵימָנוּת | ארגונים חייבים להבטיח שהדטה היא מדויקת ועוברת אנליזה נכונה. המילה הזו מתייחסת אל שלב המימוש, הקונקרטיזציה של הדטה.
Visualization- ויזואליזציה | עם היכולת לעשות ויזואליזציה- דטה כחומר גלם יכולה להיות מוצגת בעיצוב חזותי מרשים, ודרך כך לקבל משמעות חדשה. מצב זה מספר שדטה מורכבת יכולה להיות מוצגת דרך וריאנטים שונים- ולהמחיש דרך הויזואליזציה משמעויות ברורות.
Volume- ווליום | הכמות של הדטה, שמגבירה את הווליום מכמות X לכמות Y.
<W>
Weather data- דטה ממקורות שונים שמעידה על “מזג האוויר” העסקי | דטה ציבורית וחשובה שמאפשרת לארגונים להכיר ולגלות הרבה מאוד אינסייטים שמרכיבים דטה שאינה בבעלות החברה.
<X>
XML Databases- כינוי לשיטת איסוף ואחסון | אפשרות אחסון בפורמאט XML.
<Y>
Yottabytes- יוטהבייטס | בערך 1000 דטה בייטס, או לצורך הדוגמא : 250 טריליון DVD’S- בערך כל התכולה של הדיגיטל בכל העולם כיום היא יוטה בייטס אחד- וזה יכפיל את עצמו בערך כל 18 חודשים.
<Z>
Zettabytes- זטה בייטס | בערך 1000 אקסבייטס- או במילים אחרות מיליארד טרה בייטס. מצופה כי ב2016 יהיו למעלה מ1 זטה בייטס בכל העולם, וזאת, בכל יום נתון.
מילת סיכום, דקה לפני שנסיים, אני רוצה לצרף עבורכם את תיאורי הכלים הקודמים שפורסמו בבלוג זה, על מנת שתוכלו להיעזר גם בהם ככלים שמחזקים עבורכם את השריר-אינדקס סטארטאפים, מילון דיגיטל, ומילון חדשנות. מקווה שהContent Utility הללו אותם אני מפיקה עבורכם ועליהם אני עובדת בשקידה יהיו לכם לעזר ויתמכו במסע שלכם לקראת שיטת עבודה מדויקת יותר, מעניינת ומלאת חדשנות, יצירתיות, וכמובן ברוח הדיגיטל.