' บิ๊กดาต้า ' คือการประยุกต์ใช้เทคนิคและเทคโนโลยีเฉพาะทางเพื่อประมวลผลชุดข้อมูลขนาดใหญ่มาก ชุดข้อมูลเหล่านี้มักจะมีขนาดใหญ่และซับซ้อนจนยากต่อการประมวลผลโดยใช้เครื่องมือการจัดการฐานข้อมูลในมือ
การเติบโตอย่างก้าวกระโดดของเทคโนโลยีสารสนเทศได้นำไปสู่เงื่อนไขที่เอื้อประโยชน์หลายประการในอุตสาหกรรม หนึ่งในผลลัพธ์ที่คงอยู่และคงอยู่มากที่สุดคือการมีอยู่ของข้อมูลขนาดใหญ่ คำว่าบิ๊กดาต้าเป็นวลีที่จับได้ถูกสร้างขึ้นเพื่ออธิบายการมีอยู่ของข้อมูลจำนวนมาก ผลที่ตามมาของการมีข้อมูลจำนวนมากเช่นนี้คือ Data Analytics
Data Analyticsเป็นกระบวนการของการจัดโครงสร้าง Big Data ภายใน Big Data มีรูปแบบและความสัมพันธ์ที่แตกต่างกันซึ่งทำให้การวิเคราะห์ข้อมูลสามารถคำนวณลักษณะเฉพาะของข้อมูลได้ดีขึ้น ทำให้การวิเคราะห์ข้อมูลเป็นส่วนที่สำคัญที่สุดของเทคโนโลยีสารสนเทศ
ดังนั้น ฉันกำลังแสดงรายการเทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่ 26 รายการ รายการนี้ไม่ได้ละเอียดถี่ถ้วน
-
การทดสอบ A/B
การทดสอบ A/B เป็นเครื่องมือประเมินสำหรับระบุเวอร์ชันของหน้าเว็บหรือแอปที่ช่วยให้องค์กรหรือบุคคลบรรลุเป้าหมายทางธุรกิจได้อย่างมีประสิทธิภาพมากขึ้น การตัดสินใจนี้ใช้โดยการเปรียบเทียบว่าเวอร์ชันใดทำงานได้ดีกว่า การทดสอบ A/B มักใช้ในการพัฒนาเว็บไซต์เพื่อให้แน่ใจว่าการเปลี่ยนแปลงในหน้าเว็บหรือองค์ประกอบของหน้านั้นเกิดจากข้อมูล ไม่ใช่ความคิดเห็นส่วนตัว
เรียกอีกอย่างว่าการทดสอบที่หกหรือการทดสอบถัง
ดูเพิ่มเติม: The Big Data Grey Area – สิ่งที่ควรทำและไม่ควรทำ
-
การเรียนรู้กฎสมาคม
ชุดเทคนิคในการค้นหาความสัมพันธ์ที่น่าสนใจ เช่น "กฎการเชื่อมโยง" ท่ามกลางตัวแปรในฐานข้อมูลขนาดใหญ่ เทคนิคเหล่านี้ประกอบด้วยอัลกอริธึมที่หลากหลายเพื่อสร้างและทดสอบกฎที่เป็นไปได้
แอปพลิเคชั่นหนึ่งคือการวิเคราะห์ตะกร้าตลาด ซึ่งผู้ค้าปลีกสามารถระบุได้ว่าผลิตภัณฑ์ใดที่ซื้อร่วมกันบ่อยและใช้ข้อมูลนี้สำหรับการตลาด (ตัวอย่างที่อ้างถึงโดยทั่วไปคือการค้นพบว่าผู้ซื้อในซูเปอร์มาร์เก็ตจำนวนมากที่ซื้อนาโชส์ซื้อเบียร์ด้วย)
-
การวิเคราะห์ต้นไม้การจำแนกประเภท
การจำแนกทางสถิติเป็นวิธีการระบุหมวดหมู่ที่มีการสังเกตใหม่ ต้องใช้ชุดฝึกอบรมของการสังเกตที่ระบุอย่างถูกต้อง – ข้อมูลทางประวัติศาสตร์กล่าวอีกนัยหนึ่ง
การจำแนกประเภททางสถิติถูกใช้เพื่อ:
- กำหนดเอกสารให้กับหมวดหมู่โดยอัตโนมัติ
- จำแนกสิ่งมีชีวิตออกเป็นกลุ่ม
- พัฒนาโปรไฟล์ของนักศึกษาที่เรียนหลักสูตรออนไลน์
-
การวิเคราะห์คลัสเตอร์
วิธีการทางสถิติสำหรับการจำแนกวัตถุที่แบ่งกลุ่มที่หลากหลายออกเป็นกลุ่มเล็กๆ ของวัตถุที่คล้ายคลึงกัน ซึ่งไม่ทราบลักษณะของความคล้ายคลึงกันล่วงหน้า ตัวอย่างของการวิเคราะห์คลัสเตอร์คือการแบ่งกลุ่มผู้บริโภคออกเป็นกลุ่มที่คล้ายกันสำหรับการตลาดเป้าหมาย ใช้สำหรับการทำเหมืองข้อมูล
-
Crowdsourcing
ในการ crowdsourcing ความแตกต่างกันนิดหน่อยคืองานหรืองานได้รับการว่าจ้างจากภายนอก แต่ไม่ใช่สำหรับมืออาชีพหรือองค์กรที่กำหนด แต่สำหรับประชาชนทั่วไปในรูปแบบของการโทรแบบเปิด Crowdsourcing เป็นเทคนิคที่สามารถนำไปใช้เพื่อรวบรวมข้อมูลจากแหล่งต่าง ๆ เช่น ข้อความ การอัปเดตโซเชียลมีเดีย บล็อก ฯลฯ นี่คือประเภทของการทำงานร่วมกันจำนวนมากและอินสแตนซ์ของการใช้เว็บ
-
การรวมข้อมูลและการรวมข้อมูล
กระบวนการหลายระดับที่เกี่ยวข้องกับการเชื่อมโยง ความสัมพันธ์ การรวมข้อมูลและข้อมูลจากแหล่งเดียวและหลายแหล่งเพื่อให้ได้ตำแหน่งที่ปรับปรุง ระบุการประมาณการและการประเมินสถานการณ์ ภัยคุกคาม และความสำคัญของสถานการณ์ที่สมบูรณ์และทันเวลา
เทคนิคการฟิวชั่นข้อมูลจะรวมข้อมูลจากเซ็นเซอร์หลายตัวและข้อมูลที่เกี่ยวข้องจากฐานข้อมูลที่เกี่ยวข้อง เพื่อปรับปรุงความแม่นยำและการอนุมานที่เฉพาะเจาะจงมากกว่าที่จะทำได้โดยใช้เซ็นเซอร์เพียงตัวเดียว
ดูเพิ่มเติม: คู่มือเริ่มต้นสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่
-
การทำเหมืองข้อมูล
การขุดข้อมูลกำลังจัดเรียงข้อมูลเพื่อระบุรูปแบบและสร้างความสัมพันธ์ การทำเหมืองข้อมูลหมายถึงเทคนิคการดึงข้อมูลแบบรวมซึ่งดำเนินการกับข้อมูลปริมาณมาก พารามิเตอร์การขุดข้อมูลรวมถึงการเชื่อมโยง การวิเคราะห์ลำดับ การจำแนกประเภท การทำคลัสเตอร์และการพยากรณ์
แอปพลิเคชันรวมถึงการขุดข้อมูลลูกค้าเพื่อกำหนดกลุ่มที่มีแนวโน้มว่าจะตอบสนองต่อข้อเสนอมากที่สุด การขุดข้อมูลทรัพยากรบุคคลเพื่อระบุลักษณะของพนักงานที่ประสบความสำเร็จมากที่สุด หรือการวิเคราะห์ตะกร้าตลาดเพื่อจำลองพฤติกรรมการซื้อของลูกค้า
-
การเรียนรู้ทั้งมวล
เป็นศิลปะของการรวมชุดอัลกอริธึมการเรียนรู้ที่หลากหลายเข้าด้วยกันเพื่อสร้างเสถียรภาพและพลังการทำนายของแบบจำลอง นี่คือประเภทของการเรียนรู้ภายใต้การดูแล
-
ขั้นตอนวิธีทางพันธุกรรม
เทคนิคการเพิ่มประสิทธิภาพที่ใช้กระบวนการต่างๆ เช่น การผสมผสานทางพันธุกรรม การกลายพันธุ์ และการคัดเลือกโดยธรรมชาติ ในการออกแบบตามแนวคิดของวิวัฒนาการทางธรรมชาติ อัลกอริธึมทางพันธุกรรมเป็นเทคนิคที่ใช้ในการระบุวิดีโอ รายการทีวี และสื่อรูปแบบอื่นๆ ที่มีโอกาสเข้าชมมากที่สุด มีรูปแบบวิวัฒนาการที่สามารถทำได้โดยการใช้อัลกอริธึมทางพันธุกรรม การวิเคราะห์วิดีโอและสื่อสามารถทำได้โดยใช้อัลกอริธึมทางพันธุกรรม
-
การเรียนรู้ของเครื่อง
การเรียนรู้ของเครื่องเป็นอีกเทคนิคหนึ่งที่สามารถใช้ในหมวดหมู่และกำหนดผลลัพธ์ที่น่าจะเป็นของชุดข้อมูลเฉพาะได้ แมชชีนเลิร์นนิงกำหนดซอฟต์แวร์ที่สามารถกำหนดผลลัพธ์ที่เป็นไปได้ของเหตุการณ์บางชุด ดังนั้นจึงใช้ในการวิเคราะห์เชิงคาดการณ์ ตัวอย่างของการวิเคราะห์เชิงคาดการณ์คือความน่าจะเป็นที่จะชนะคดีความหรือความสำเร็จของผลงานบางประเภท
-
การประมวลผลภาษาธรรมชาติ
ชุดเทคนิคจากความเชี่ยวชาญเฉพาะทางของวิทยาการคอมพิวเตอร์ (ในสาขาที่เรียกกันว่า "ปัญญาประดิษฐ์") และภาษาศาสตร์ที่ใช้อัลกอริทึมของคอมพิวเตอร์ในการวิเคราะห์ภาษามนุษย์ (ธรรมชาติ) เทคนิค NLP หลายอย่างเป็นประเภทของการเรียนรู้ของเครื่อง แอปพลิเคชันหนึ่งของ NLP กำลังใช้การวิเคราะห์ความเชื่อมั่นบนโซเชียลมีเดียเพื่อกำหนดว่าผู้มีโอกาสเป็นลูกค้ามีปฏิกิริยาอย่างไรต่อแคมเปญการสร้างแบรนด์
-
โครงข่ายประสาทเทียม
แบบจำลองการคาดการณ์แบบไม่เชิงเส้นที่เรียนรู้ผ่านการฝึกอบรมและมีลักษณะคล้ายโครงข่ายประสาทเทียมทางชีววิทยาในโครงสร้าง สามารถใช้สำหรับการจดจำรูปแบบและการปรับให้เหมาะสม แอปพลิเคชันโครงข่ายประสาทเทียมบางตัวเกี่ยวข้องกับการเรียนรู้ภายใต้การดูแล และแอปพลิเคชันอื่นๆ เกี่ยวข้องกับการเรียนรู้แบบไม่มีผู้ดูแล ตัวอย่างของแอปพลิเคชัน ได้แก่ การระบุลูกค้าที่มีมูลค่าสูงที่เสี่ยงต่อการออกจากบริษัทใดบริษัทหนึ่ง และระบุการเรียกร้องค่าสินไหมทดแทนที่เป็นการฉ้อโกง
อ่านเพิ่มเติม: 40 ข้อเท็จจริงที่น่าเหลือเชื่อเกี่ยวกับ Big Data
-
การเพิ่มประสิทธิภาพ
กลุ่มเทคนิคเชิงตัวเลขที่ใช้ในการออกแบบระบบและกระบวนการที่ซับซ้อนใหม่ เพื่อปรับปรุงประสิทธิภาพตามการวัดผลตามวัตถุประสงค์อย่างน้อยหนึ่งอย่าง (เช่น ต้นทุน ความเร็ว หรือความน่าเชื่อถือ) ตัวอย่างของแอปพลิเคชัน ได้แก่ การปรับปรุงกระบวนการปฏิบัติงาน เช่น การจัดกำหนดการ การกำหนดเส้นทาง และแผนผังพื้น และการตัดสินใจเชิงกลยุทธ์ เช่น กลยุทธ์ช่วงผลิตภัณฑ์ การวิเคราะห์การลงทุนที่เชื่อมโยง และกลยุทธ์พอร์ตโฟลิโอ R&D อัลกอริทึมทางพันธุกรรมเป็นตัวอย่างของเทคนิคการเพิ่มประสิทธิภาพ
ในบล็อกถัดไป ฉันจะอธิบายเทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่อีก 13 ข้อที่เหลือ
อ่าน: ส่วนถัดไปของข้อมูลเชิงลึก 26 เทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่