' Dữ liệu lớn ' là ứng dụng của các kỹ thuật và công nghệ chuyên biệt để xử lý các tập dữ liệu rất lớn. Những tập dữ liệu này thường rất lớn và phức tạp nên rất khó xử lý khi sử dụng các công cụ quản lý cơ sở dữ liệu thủ công.
Sự phát triển vượt bậc của Công nghệ thông tin đã dẫn đến một số điều kiện bổ sung trong ngành. Một trong những kết quả lâu dài nhất và được cho là hiện tại nhất, là sự hiện diện của Dữ liệu lớn. Thuật ngữ Dữ liệu lớn là một cụm từ được đặt ra để mô tả sự hiện diện của một lượng lớn dữ liệu. Kết quả của việc có một lượng lớn Dữ liệu như vậy là Phân tích dữ liệu.
Phân tích dữ liệu là quá trình cấu trúc Dữ liệu lớn. Trong Dữ liệu lớn, có các mẫu và mối tương quan khác nhau giúp phân tích dữ liệu có thể thực hiện các đặc tính được tính toán tốt hơn của dữ liệu. Điều này làm cho phân tích dữ liệu trở thành một trong những phần quan trọng nhất của công nghệ thông tin.
Do đó, ở đây tôi liệt kê 26 kỹ thuật phân tích dữ liệu lớn. Danh sách này là không toàn diện.
-
Thử nghiệm A / B
Thử nghiệm A / B là một công cụ đánh giá để xác định phiên bản nào của trang web hoặc ứng dụng giúp tổ chức hoặc cá nhân đạt được mục tiêu kinh doanh hiệu quả hơn. Quyết định này được đưa ra bằng cách so sánh phiên bản nào đó hoạt động tốt hơn. Thử nghiệm A / B thường được sử dụng trong phát triển web để đảm bảo rằng các thay đổi đối với trang web hoặc thành phần trang được thúc đẩy bởi dữ liệu chứ không phải ý kiến cá nhân.
Nó còn được gọi là thử nghiệm tràn hoặc thử nghiệm xô.
Xem thêm: Vùng xám dữ liệu lớn - Nên và Không nên
-
Học quy tắc kết hợp
Một tập hợp các kỹ thuật để khám phá các mối quan hệ thú vị, tức là “các quy tắc kết hợp” giữa các biến trong cơ sở dữ liệu lớn. Các kỹ thuật này bao gồm nhiều thuật toán khác nhau để tạo và kiểm tra các quy tắc khả thi.
Một ứng dụng là phân tích giỏ thị trường, trong đó nhà bán lẻ có thể xác định sản phẩm nào thường xuyên được mua cùng nhau và sử dụng thông tin này để tiếp thị. (Một ví dụ thường được trích dẫn là phát hiện ra rằng nhiều người mua sắm trong siêu thị mua nachos cũng mua bia.)
-
Phân tích cây phân loại
Phân loại thống kê là một phương pháp xác định các danh mục mà một quan sát mới thuộc về. Nó yêu cầu một tập hợp đào tạo các quan sát được xác định chính xác - nói cách khác là dữ liệu lịch sử.
Phân loại thống kê đang được sử dụng để:
- Tự động gán tài liệu vào các danh mục
- Phân loại sinh vật thành các nhóm
- Xây dựng hồ sơ của sinh viên tham gia các khóa học trực tuyến
-
Phân tích cluster
Một phương pháp thống kê để phân loại các đối tượng chia một nhóm đa dạng thành các nhóm nhỏ hơn của các đối tượng tương tự, mà các đặc điểm của sự giống nhau không được biết trước. Một ví dụ về phân tích cụm là phân khúc người tiêu dùng thành các nhóm tương tự để tiếp thị mục tiêu. Được sử dụng để khai thác dữ liệu.
-
Nguồn cung ứng cộng đồng
Trong nguồn cung ứng cộng đồng, sắc thái là, một nhiệm vụ hoặc một công việc được thuê ngoài nhưng không phải cho một chuyên gia hoặc tổ chức được chỉ định mà cho công chúng dưới dạng một cuộc gọi mở. Crowdsourcing là một kỹ thuật có thể được triển khai để thu thập dữ liệu từ nhiều nguồn khác nhau như tin nhắn văn bản, cập nhật trên mạng xã hội, blog, v.v. Đây là một kiểu cộng tác hàng loạt và là một ví dụ của việc sử dụng Web.
-
Kết hợp dữ liệu và tích hợp dữ liệu
Một quy trình đa cấp xử lý sự liên kết, tương quan, kết hợp dữ liệu và thông tin từ nhiều nguồn đơn lẻ để đạt được vị trí tinh tế, xác định các ước tính và đánh giá đầy đủ và kịp thời về các tình huống, mối đe dọa và ý nghĩa của chúng.
Kỹ thuật tổng hợp dữ liệu kết hợp dữ liệu từ nhiều cảm biến và thông tin liên quan từ cơ sở dữ liệu liên quan để cải thiện độ chính xác và các suy luận cụ thể hơn có thể đạt được khi chỉ sử dụng một cảm biến duy nhất.
Xem thêm: Hướng dẫn cho người mới bắt đầu về phân tích dữ liệu lớn
-
Khai thác dữ liệu
Khai thác dữ liệu là phân loại thông qua dữ liệu để xác định các mẫu và thiết lập các mối quan hệ. Khai phá dữ liệu được đề cập đến các kỹ thuật khai thác dữ liệu tập thể được thực hiện trên khối lượng lớn dữ liệu. Các tham số khai thác dữ liệu bao gồm Hiệp hội, Phân tích trình tự, phân loại, Phân cụm và Dự báo.
Các ứng dụng bao gồm khai thác dữ liệu khách hàng để xác định các phân khúc có nhiều khả năng sẽ phản hồi lời đề nghị nhất, khai thác dữ liệu nguồn nhân lực để xác định đặc điểm của hầu hết các nhân viên thành công hoặc phân tích rổ thị trường để lập mô hình hành vi mua hàng của khách hàng.
-
Học tập theo nhóm
Nó là một nghệ thuật kết hợp các tập hợp các thuật toán học tập đa dạng với nhau để ứng biến về tính ổn định và khả năng dự đoán của mô hình. Đây là một loại hình học tập có giám sát.
-
Thuật toán di truyền
Các kỹ thuật tối ưu hóa sử dụng các quá trình như tổ hợp gen, đột biến và chọn lọc tự nhiên trong một thiết kế dựa trên các khái niệm về tiến hóa tự nhiên. Thuật toán di truyền là kỹ thuật được sử dụng để xác định các video, chương trình truyền hình và các hình thức truyền thông khác có thể được xem nhiều nhất. Có một mô hình tiến hóa có thể được thực hiện bằng cách sử dụng các thuật toán di truyền. Phân tích video và phương tiện có thể được thực hiện bằng cách sử dụng các thuật toán di truyền.
-
Học máy
Học máy là một kỹ thuật khác có thể được sử dụng để phân loại và xác định kết quả có thể xảy ra của một tập dữ liệu cụ thể. Học máy định nghĩa một phần mềm có thể xác định các kết quả có thể xảy ra của một nhóm sự kiện nhất định. Do đó, nó được sử dụng trong phân tích dự đoán. Một ví dụ về phân tích dự đoán là xác suất thắng kiện hoặc thành công của một số sản phẩm nhất định.
-
Xử lý ngôn ngữ tự nhiên
Một tập hợp các kỹ thuật từ một chuyên ngành phụ của khoa học máy tính (trong lĩnh vực lịch sử được gọi là “trí tuệ nhân tạo”) và ngôn ngữ học sử dụng các thuật toán máy tính để phân tích ngôn ngữ (tự nhiên) của con người. Nhiều kỹ thuật NLP là loại học máy. Một ứng dụng của NLP là sử dụng phân tích cảm xúc trên phương tiện truyền thông xã hội để xác định cách khách hàng tiềm năng phản ứng với chiến dịch xây dựng thương hiệu.
-
Mạng thần kinh
Các mô hình dự đoán phi tuyến tính học thông qua đào tạo và giống với mạng nơ-ron sinh học về cấu trúc. Chúng có thể được sử dụng để nhận dạng và tối ưu hóa mẫu. Một số ứng dụng mạng thần kinh liên quan đến việc học có giám sát và những ứng dụng khác liên quan đến việc học không có giám sát. Ví dụ về các ứng dụng bao gồm xác định khách hàng giá trị cao có nguy cơ rời khỏi một công ty cụ thể và xác định các yêu cầu bảo hiểm gian lận.
Đọc thêm: 40 sự thật khó hiểu về dữ liệu lớn
-
Tối ưu hóa
Một danh mục các kỹ thuật số được sử dụng để thiết kế lại các hệ thống và quy trình phức tạp nhằm cải thiện hiệu suất của chúng theo một hoặc nhiều biện pháp khách quan (ví dụ: chi phí, tốc độ hoặc độ tin cậy). Ví dụ về các ứng dụng bao gồm cải thiện các quy trình hoạt động như lập lịch, định tuyến và bố trí tầng và đưa ra các quyết định chiến lược như chiến lược phạm vi sản phẩm, phân tích đầu tư được liên kết và chiến lược danh mục đầu tư R&D. Các thuật toán di truyền là một ví dụ về kỹ thuật tối ưu hóa.
Trong blog tiếp theo của tôi, tôi sẽ mô tả 13 Kỹ thuật Phân tích Dữ liệu lớn còn lại.
Đọc: Phần tiếp theo của cái nhìn sâu sắc về 26 kỹ thuật phân tích dữ liệu lớn