จนถึงตอนนี้ในบล็อกของฉันเกี่ยวกับBig Dataฉันได้รู้จักคุณในแง่มุมต่างๆ ของ Big Data ตั้งแต่ความหมายที่แท้จริง ข้อเท็จจริง สิ่งที่ควรทำและไม่ควรทำ ในบล็อกที่แล้วเราเห็นเทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่ นำรายการเพิ่มเติมในบล็อกนี้
- การจดจำรูปแบบ
การจดจำรูปแบบเป็นสาขาหนึ่งของการเรียนรู้ของเครื่องที่เน้นการจดจำรูปแบบและความสม่ำเสมอในข้อมูล แม้ว่าในบางกรณีถือว่าเกือบตรงกันกับการเรียนรู้ของเครื่อง ระบบการรู้จำรูปแบบในหลายกรณีได้รับการฝึกฝนจากข้อมูล "การฝึกอบรม" ที่มีป้ายกำกับ (การเรียนรู้ภายใต้การดูแล) แต่เมื่อไม่มีข้อมูลที่ติดป้ายกำกับ สามารถใช้อัลกอริทึมอื่นเพื่อค้นหารูปแบบที่ไม่รู้จักก่อนหน้านี้ (การเรียนรู้แบบไม่มีผู้ดูแล)
- การสร้างแบบจำลองเชิงทำนาย
การวิเคราะห์เชิงคาดการณ์ประกอบด้วยเทคนิคต่างๆ ที่คาดการณ์ผลลัพธ์ในอนาคตโดยอิงจากข้อมูลในอดีตและปัจจุบัน ในทางปฏิบัติ การวิเคราะห์เชิงคาดการณ์สามารถใช้ได้กับเกือบทุกสาขาวิชา ตั้งแต่การทำนายความล้มเหลวของเครื่องยนต์ไอพ่นโดยพิจารณาจากสตรีมข้อมูลจากเซ็นเซอร์หลายพันตัว ไปจนถึงการคาดการณ์การเคลื่อนไหวครั้งต่อไปของลูกค้าโดยพิจารณาจากสิ่งที่พวกเขาซื้อ เมื่อพวกเขาซื้อ และแม้กระทั่งอะไร พวกเขาพูดในโซเชียลมีเดีย เทคนิคการวิเคราะห์เชิงคาดการณ์นั้นใช้วิธีการทางสถิติเป็นหลัก
ดูเพิ่มเติม: คู่มือเริ่มต้นสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่
- การวิเคราะห์การถดถอย
นี่เป็นเทคนิคที่ใช้ตัวแปรอิสระและผลกระทบต่อตัวแปรตามอย่างไร นี่อาจเป็นเทคนิคที่มีประโยชน์มากในการพิจารณาการวิเคราะห์โซเชียลมีเดีย เช่น ความน่าจะเป็นที่จะพบรักบนแพลตฟอร์มอินเทอร์เน็ต
- การวิเคราะห์ความเชื่อมั่น
การวิเคราะห์ความคิดเห็นช่วยให้นักวิจัยกำหนดความรู้สึกของผู้พูดหรือผู้เขียนเกี่ยวกับหัวข้อ การวิเคราะห์ความเชื่อมั่นถูกนำมาใช้เพื่อช่วย:
- ปรับปรุงบริการในเครือโรงแรมโดยการวิเคราะห์ความคิดเห็นของแขก
- ปรับแต่งสิ่งจูงใจและบริการเพื่อตอบสนองต่อสิ่งที่ลูกค้าต้องการจริงๆ
- กำหนดว่าผู้บริโภคคิดอย่างไรจริง ๆ ตามความคิดเห็นจากโซเชียลมีเดีย
- การประมวลผลสัญญาณ
การประมวลผลสัญญาณเป็นเทคโนโลยีการเปิดใช้งานที่ครอบคลุมพื้นฐานทฤษฎีการใช้งานอัลกอริทึมและการใช้งานของการประมวลผลหรือการถ่ายโอนข้อมูลที่อยู่ในทางกายภาพที่แตกต่างกัน, สัญลักษณ์หรือรูปแบบนามธรรมที่กำหนดในวงกว้างเป็นสัญญาณ มันใช้การแสดงแทนทางคณิตศาสตร์ สถิติ การคำนวณ ฮิวริสติก และภาษาศาสตร์ พิธีการและเทคนิคสำหรับการแสดงแทน แบบจำลอง การวิเคราะห์ การสังเคราะห์ การค้นพบ การกู้คืน การตรวจจับ การได้มา การสกัด การเรียนรู้ ความปลอดภัย หรือนิติวิทยาศาสตร์ ตัวอย่างการใช้งานรวมถึงการสร้างแบบจำลองสำหรับการวิเคราะห์อนุกรมเวลาหรือใช้การรวมข้อมูลเพื่อกำหนดการอ่านที่แม่นยำยิ่งขึ้นโดยการรวมข้อมูลจากชุดแหล่งข้อมูลที่มีความแม่นยำน้อยกว่า (เช่น การดึงสัญญาณจากสัญญาณรบกวน)
- การวิเคราะห์เชิงพื้นที่
การวิเคราะห์เชิงพื้นที่เป็นกระบวนการที่เราเปลี่ยนข้อมูลดิบให้เป็นข้อมูลที่เป็นประโยชน์ เป็นกระบวนการตรวจสอบตำแหน่ง คุณลักษณะ และความสัมพันธ์ของคุณลักษณะในข้อมูลเชิงพื้นที่ผ่านการซ้อนทับและเทคนิคการวิเคราะห์อื่นๆ เพื่อตอบคำถามหรือได้รับความรู้ที่เป็นประโยชน์ การวิเคราะห์เชิงพื้นที่ดึงหรือสร้างข้อมูลใหม่จากข้อมูลเชิงพื้นที่
- สถิติ
ในสถิติ การวิเคราะห์ข้อมูลเชิงสำรวจเป็นแนวทางในการวิเคราะห์ชุดข้อมูลเพื่อสรุปลักษณะเฉพาะหลักๆ ของชุดข้อมูล ซึ่งมักจะใช้วิธีการมองเห็น แบบจำลองทางสถิติสามารถใช้ได้หรือไม่ แต่โดยหลักแล้ว EDA มีไว้สำหรับการดูว่าข้อมูลสามารถบอกอะไรเราได้บ้างนอกเหนือจากการสร้างแบบจำลองที่เป็นทางการหรืองานทดสอบสมมติฐาน เทคนิคทางสถิติยังใช้เพื่อลดโอกาสของข้อผิดพลาดประเภทที่ 1 (“ผลบวกเท็จ”) และข้อผิดพลาดประเภท II (“ผลลบเท็จ”) ตัวอย่างของแอปพลิเคชันคือ การทดสอบ A/B เพื่อพิจารณาว่าสื่อการตลาดประเภทใดที่จะช่วยเพิ่มรายได้ได้มากที่สุด
ดูเพิ่มเติม: 40 ข้อเท็จจริงที่น่าเหลือเชื่อเกี่ยวกับบิ๊กดาต้า
- การเรียนรู้ภายใต้การดูแล
การเรียนรู้ภายใต้การดูแลเป็นงานการเรียนรู้ของเครื่องในการอนุมานฟังก์ชันจากข้อมูลการฝึกอบรมที่มีป้ายกำกับ ข้อมูลการฝึกอบรมประกอบด้วยชุดของตัวอย่างการฝึกอบรม ในการเรียนรู้ภายใต้การดูแล แต่ละตัวอย่างเป็นคู่ที่ประกอบด้วยวัตถุอินพุต (โดยทั่วไปคือเวกเตอร์) และค่าเอาต์พุตที่ต้องการ (เรียกอีกอย่างว่าสัญญาณการควบคุม ) อัลกอริธึมการเรียนรู้ภายใต้การดูแลจะวิเคราะห์ข้อมูลการฝึกอบรมและสร้างฟังก์ชันอนุมาน ซึ่งสามารถใช้สำหรับการทำแผนที่ตัวอย่างใหม่
- การวิเคราะห์เครือข่ายสังคม
การวิเคราะห์เครือข่ายโซเชียลเป็นเทคนิคที่ใช้ครั้งแรกในอุตสาหกรรมโทรคมนาคม จากนั้นนักสังคมวิทยาก็นำความรู้ไปใช้อย่างรวดเร็วเพื่อศึกษาความสัมพันธ์ระหว่างบุคคล ขณะนี้กำลังถูกนำไปใช้เพื่อวิเคราะห์ความสัมพันธ์ระหว่างผู้คนในหลายสาขาและกิจกรรมเชิงพาณิชย์ โหนดเป็นตัวแทนของบุคคลภายในเครือข่าย ในขณะที่ความสัมพันธ์แสดงถึงความสัมพันธ์ระหว่างบุคคล
- การจำลอง
การสร้างแบบจำลองพฤติกรรมของระบบที่ซับซ้อน ซึ่งมักใช้สำหรับการคาดการณ์ การทำนาย และการวางแผนสถานการณ์ ตัวอย่างเช่น การจำลองมอนติคาร์โลเป็นคลาสของอัลกอริทึมที่อาศัยการสุ่มตัวอย่างซ้ำๆ เช่น รันการจำลองหลายพันครั้ง โดยแต่ละรายการอิงตามสมมติฐานที่แตกต่างกัน ผลลัพธ์คือฮิสโตแกรมที่ให้การกระจายความน่าจะเป็นของผลลัพธ์ แอปพลิเคชั่นหนึ่งกำลังประเมินความเป็นไปได้ที่จะบรรลุเป้าหมายทางการเงินเนื่องจากความไม่แน่นอนเกี่ยวกับความสำเร็จของความคิดริเริ่มต่างๆ
- การวิเคราะห์อนุกรมเวลา
การวิเคราะห์อนุกรมเวลาประกอบด้วยวิธีการวิเคราะห์ข้อมูลอนุกรมเวลาเพื่อแยกสถิติที่มีความหมายและลักษณะอื่นๆ ของข้อมูล ข้อมูลอนุกรมเวลามักเกิดขึ้นเมื่อตรวจสอบกระบวนการทางอุตสาหกรรมหรือติดตามตัวชี้วัดทางธุรกิจขององค์กร การวิเคราะห์อนุกรมเวลาพิจารณาข้อเท็จจริงที่ว่าจุดข้อมูลในช่วงเวลาหนึ่งอาจมีโครงสร้างภายใน (เช่น ความสัมพันธ์อัตโนมัติ แนวโน้ม หรือความผันแปรตามฤดูกาล) ที่ควรนำมาพิจารณา ตัวอย่างของการวิเคราะห์อนุกรมเวลา ได้แก่ มูลค่ารายชั่วโมงของดัชนีตลาดหุ้นหรือจำนวนผู้ป่วยที่ได้รับการวินิจฉัยว่าเป็นโรคนี้ทุกวัน
- การเรียนรู้แบบไม่มีผู้ดูแล
การเรียนรู้แบบไม่มีผู้ดูแลเป็นงานการเรียนรู้ของเครื่องในการอนุมานฟังก์ชันเพื่ออธิบายโครงสร้างที่ซ่อนอยู่จากข้อมูลที่ไม่มีป้ายกำกับ เนื่องจากตัวอย่างที่มอบให้กับผู้เรียนไม่มีป้ายกำกับ จึงไม่มีข้อผิดพลาดหรือสัญญาณให้รางวัลในการประเมินวิธีแก้ปัญหาที่เป็นไปได้ ซึ่งเป็นการแยกความแตกต่างของการเรียนรู้ที่ไม่ได้รับการดูแลจากการเรียนรู้ภายใต้การดูแลและการเรียนรู้แบบเสริมกำลัง
อย่างไรก็ตาม การเรียนรู้แบบไม่มีผู้ดูแลยังครอบคลุมถึงเทคนิคอื่นๆ อีกมากมายที่พยายามสรุปและอธิบายลักษณะสำคัญของข้อมูล
- การสร้างภาพ
การสร้างภาพข้อมูลคือการจัดเตรียมข้อมูลในรูปแบบรูปภาพหรือกราฟิก ช่วยให้ผู้มีอำนาจตัดสินใจมองเห็นการวิเคราะห์ที่นำเสนอด้วยภาพ เพื่อให้สามารถเข้าใจแนวคิดที่ยากหรือระบุรูปแบบใหม่ได้ ด้วยการแสดงภาพแบบโต้ตอบ คุณสามารถนำแนวคิดไปอีกขั้นโดยใช้เทคโนโลยีเพื่อเจาะลึกลงไปในแผนภูมิและกราฟเพื่อดูรายละเอียดเพิ่มเติม เปลี่ยนแปลงข้อมูลที่คุณเห็นแบบโต้ตอบและวิธีการประมวลผล
บทสรุป
การวิเคราะห์ข้อมูลขนาดใหญ่ถือเป็นหนึ่งในความก้าวหน้าที่สำคัญที่สุดในอุตสาหกรรมเทคโนโลยีสารสนเทศ อันที่จริง Big Data ได้แสดงให้เห็นความสำคัญและมีความจำเป็นในแทบทุกภาคส่วน และในทุกแผนกของอุตสาหกรรมเหล่านั้น ไม่มีแง่มุมใดในชีวิตที่ไม่ได้รับผลกระทบจาก Big Data แม้แต่ชีวิตส่วนตัวของเรา ดังนั้นเราจึงต้องการ Big Data Analytics เพื่อจัดการข้อมูลจำนวนมหาศาลนี้อย่างมีประสิทธิภาพ
อย่างที่บอกไปก่อนหน้านี้ว่ารายการนี้ไม่ละเอียดถี่ถ้วน นักวิจัยยังคงทดลองวิธีใหม่ๆ ในการวิเคราะห์ข้อมูลจำนวนมหาศาลนี้ ซึ่งมีอยู่ในรูปแบบต่างๆ ที่ความเร็วของการสร้างเพิ่มขึ้นตามเวลาเพื่อให้ได้มาซึ่งค่าสำหรับการใช้งานเฉพาะของเรา