Semantics có thể giải quyết các thách thức của Bigdata?

Các công nghệ Big data được thiết kế để xử lý ba vấn đề lớn của Big data bao gồm: Kích thước (số lượng dữ liệu), Tốc độ (sự nhanh chậm của luồng dữ liệu đi vào và đi ra) và Sự đa dạng (loại dữ liệu và nguồn gốc dữ liệu). Vì dữ liệu được thu thập mà không có một mục dích cụ thể, nên dẫn đến việc có nhiều dữ liệu không liên quan khi chúng được phân loại. Như vậy nét đặc trưng nhất của dư liệu không phải là kích cỡ, tốc độ hay sự đa dạng mà là giá trị dữ liệu. Làm sao để kết hợp ngữ nghĩa vào Big data để phân chia dữ liệu theo các nhóm thông tin liên quan là mục tiêu nghiên cứu của bài viết này.

Phương pháp nghiên cứu của chúng tôi sẽ hướng vào giải quyết các vấn đề của Big data gồm Kích thước, Tốc độ xử lý và Sự đa dạng. Một dạng cấu trúc ngữ nghĩa có phân cấp sẽ chuyển đổi dữ liệu sang những dạng dữ liệu trừu tượng, có ngữ nghĩa dùng cho việc phân loại sau này. Cấu trúc ontology kết hợp với xử lý ngôn ngữ sẽ giúp việc kết hợp các nguồn dữ liệu dễ dàng hơn. Cuối cùng, các kỹ thuật phát triển Ontology sẽ hỗ trợ cách linh động, nhanh chóng trong việc tạo ra các đối tượng mới, các khái niệm mới, xây dựng các mối liện hệ mới v.v... Các kỹ thuật này giúp giải quyết các vấn đề liên quan đến tốc độ xử lý. Chúng tôi đề xuất một cấu trúc Ontology là một dạng thể hiện toàn bộ dữ liệu theo cấu trúc phân cấp ngữ nghĩa, nhằm giúp giải quyết ba vấn đề của Big data. Hơn nữa, chúng tôi cũng đề xuất một thuật toán cấu trúc phân cấp ngữ nghĩa dựa trên Ontology cho việc xử lý Big data và những ứng dụng của cấu trúc này.