programming mysql

Tìm kiếm toàn văn MySQL mờ

Fuzzy Seach [tìm kiếm "mờ"], hay còn được gọi là Tìm kiếm gần đúng [tìm kiếm "xấp xẩm"] là khái niệm chỉ dành cho kỹ thuật để tìm kiếm một xâu "gần giống" [thay vì "giống như"]

Qua. Thắng Trần Đức

Đây là câu mở đầu của bài viết Tìm kiếm mờ đơn giản Đọc đến đây chắc các bạn cũng biết rằng bài viết này mình sẽ viết về Tìm kiếm mờ. Tại lâu quá không viết bài nào nên mình cũng không biết nên mở đầu ra sao nữa. Mong các bạn thông cảm

Nếu bạn chưa biết về Fuzzy Seach có thể đọc bài viết ở link trên. Tuy không chắc chắn là đầy đủ nhưng vẫn giúp bất kỳ phần nào cho việc tìm hiểu. Trong bài viết này mình sẽ thử tự tạo Fuzzy Seach áp dụng thuật toán Khoảng cách Levenshtein với khoảng cách tối thiểu là 1 và sẽ kết hợp với tìm kiếm toàn văn để tìm kiếm đối tượng tương đối chính xác mà mình mong muốn thứ hai

Open post

Khi làm việc nhiều với Sql và gần đây là mysql mình tự hỏi một điều rằng

Tại sao các quản trị viên không thêm những thuật toán tìm kiếm để giúp đỡ cho những culi của làng code như mình nhỉ?. Nghĩ đến đây mình mủi lòng tự nhủ à thì có mà dùng là được rồi, được voi đòi tiên mà để làm gì

Chắc chắn các bạn biết rằng trong Sql có 1 chức năng là Công dụng của nó như sau

Soundex là một thuật toán âm thanh để liệt kê các từ theo âm sắc, theo cách phát âm của tiếng Anh
Mục đích là mã hóa những từ có cùng cách phát âm qua các đặc trưng giống nhau, từ đó người ta có thể tìm được một từ nào đó dù có sai sót nhỏ trong mô tả chính xác từ đó

Giúp ta có thể sử dụng SOUNDEX kết hợp với tìm kiếm toàn văn một cách dễ dàng mình sẽ làm ví dụ trong một bài viết gần nhất

Nhưng đây chắc chắn không phải là những gì mình muốn chương trình của mình thực hiện. Mình muốn có một thuật toán thực sự tồn tại và nếu được thì kết hợp luôn cả Levenshtein. Qua tìm ngăn tủ thì mình thấy mysql không có những tính năng này mà muốn sử dụng thì ta phải sử dụng những máy chủ tìm kiếm khác như SOLR hoặc Elaticsearch. Việc sử dụng 1 chương trình tìm kiếm thứ 3 làm cho phần mềm không mát mẻ

Nên mình quyết định tự tạo một phương pháp cho bản thân mình =]]. Nếu bạn đã đọc bài viết về Fuzzy Seach của anh Thắng thì sẽ biết rằng trong PHP có 1 hàm mang tên levenshtein nhưng trong ngôn ngữ khác thì hoàn toàn không. Do vậy mình sẽ làm từ đầu đến hết tất cả các giai đoạn.

Thân bài

B1. Khoảng cách Levenshtein là gì

Khoảng cách Levenshtein là một số liệu chuỗi để đo sự khác biệt giữa hai chuỗi. Một cách không chính thức, khoảng cách Levenshtein giữa hai từ là số lần chỉnh sửa một ký tự tối thiểu [i. e. chèn, xóa hoặc thay thế] cần thiết để thay đổi từ này sang từ khác
Qua. wikipedia. tổ chức

Để hiểu thêm xin mời tham khảo ví dụ này.

B2. Ý tưởng cho bài toán

Khoảng cách tối thiểu là 1 ta sẽ sử dụng 3 phép biến đổi của Levenshtein để tạo ra những từ như sau. VD. Từ "Fuzzy", with a " _ " tương ứng là 1 ký tự hoặc cụm ký tự

1, Add an character

2, Bớt một ký tự

3, Change a character

Do đó tổng cộng ta có 16 cụm từ cần phải tìm kiếm để có kết quả chính xác nhất với mong muốn. Từ đây ta có thể viết được 1 câu truy vấn như sau

SELECT *  FROM table_name WHERE
`name` LIKE '%_fuzzy%' OR
`name` LIKE '%f_uzzy%' OR
`name` LIKE '%fu_zzy%' OR
`name` LIKE '%fuz_zy%' OR
`name` LIKE '%fuzz_y%' OR
`name` LIKE '%fuzzy_%' OR
`name` LIKE '%uzzy%' OR
`name` LIKE '%fzzy%' OR
`name` LIKE '%fuzy%' OR
`name` LIKE '%fuzz%' OR
`name` LIKE '%_uzzy%' OR
`name` LIKE '%f_zzy%' OR
`name` LIKE '%fu_zy%' OR
`name` LIKE '%fuz_y%' OR
`name` LIKE '%fuzz_%'

Khi nhìn số từ cần tìm ta có thể thấy ngay chúng ta cần [3 * n] + 1 từ so sánh [với n là độ dài của từ cần tìm]. That is in the contract of ta use the distance of the minimum. Còn nếu gọi khoảng cách ta dùng là d thì ta phải có ít nhất là [3∗n]d[3 * n]^d[3∗n]d từ.

Đó là một con số rất lớn, Từ đây mình nhận ra rằng việc mình đang làm thật sự là ngu ngơ và ngây thơ

. Thôi kệ làm tiếp vậy.

Từ câu Sql ở bên trên

bạn thấy việc tìm kiếm này tổng quát hơn Chắc chắn việc chỉ sử dụng câu truy vấn thông thường như sau.

SELECT * FROM table_name WHERE `name` LIKE '%fuzzy%'

Làm sao để tạo ra một câu truy vấn dài ngoằng như trên

Hãy cùng suy nghĩ nào.

B3. Suy nghĩ tiếp

Chỗ này mình viết mã giả bằng js để hiển thị màu mè cho dễ nhìn

Ở B2 ta đã xác định câu hỏi cần tạo ra. Nhìn vào câu này ta có thể dễ dàng nghĩ đến giải pháp cộng chuỗi để tạo ra nó như sau

var list_regex = ["_fuzzy", "f_uzzy",..., "fuzz_"];
var sql = "SELECT *  FROM table_name WHERE ";
list_regex.forEach[ function[el] {
    if [el == list_regex.pop[]]
        sql += `name LIKE '% ${el} %'`;
    else
        sql += `name LIKE '% ${el} %' OR`;
}

Đó là ta có 1 đoạn mã giả thật là. Đến đây nếu bạn để ý rằng ta đã có 1 thuật toán tìm kiếm và tự đánh chỉ mục cho dữ liệu rất chi là chất chứa trong Sql đó là Tìm kiếm toàn văn. Có thể tóm tắt là nếu bạn tìm kiếm 1 cụm từ bằng tìm kiếm toàn văn, thì nó sẽ sinh ra cho bạn 1 câu truy vấn tương tự như trên. Từ đây công việc của chúng ta dễ dàng hơn vài phần

Biến mảng từ cần tìm thành 1 câu

var list_regex = ["_fuzzy", "f_uzzy",..., "fuzz_"];
var text_search = list_regex.join[' '];

Sau đó dùng full text search ta có 1 câu truy vấn như sau

SELECT name FROM table_name WHERE MATCH [name] AGAINST [text_search IN BOOLEAN MODE];

Rằng từ đây bạn không cần phải suy nghĩ để viết ra câu truy vấn dài kia làm gì. Cái gì khó có thể sử dụng mấy cái có sẵn cho đời thêm vui

B 4. Viết hàm ngốc nghếch tạo ra cụm từ cần tìm kiếm

Đây là bước mất công suy nghĩ nhất của bài viết này.

function my_Levenshtein_level_one[word, key] {
    var list_regex = [];
    var lg = word.length;
    
    for [var i = 0; i


				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Thư mục hoạt động MongoDB

		
	

		
		
		   
		   
		   
		
		
			Mảng có được truyền bằng tham chiếu trong PHP không?

		
	

		
		
		   
		   
		   
		
		
			Excel có trình tạo số ngẫu nhiên không?

		
	

		
		
		   
		   
		   
		
		
			Làm cách nào để lấy tên tệp hiện tại trong PHP?

		
	

		
		
		   
		   
		   
		
		
			Vỏ Python và IDLE có giống nhau không?

		
	

		
		
		   
		   
		   
		
		
			Các chương trình cơ bản trong Python là gì?

		
	

		
		
		   
		   
		   
		
		
			Han sara bao nhiêu tuổi

		
	

		
		
		   
		   
		   
		
		
			Html di chuyển hình ảnh bằng các phím mũi tên

		
	

		
		
		   
		   
		   
		
		
			Plugin bài viết gần đây wordpress

		
	

		
		
		   
		   
		   
		
		
			Là một thiết bị bắt nguồn từ bất hợp pháp?

		
	

		
		
		   
		   
		   
		
		
			Phòng thí nghiệm tham số chức năng JavaScript

		
	

		
		
		   
		   
		   
		
		
			Làm cách nào để đọc email bằng PHP?

		
	

		
		
		   
		   
		   
		
		
			Sắp xếp nhanh trong Python là gì?

		
	

		
		
		   
		   
		   
		
		
			Dự án mở IntelliJ trong cửa sổ mới không hoạt động

		
	

		
		
		   
		   
		   
		
		
			Cách khai báo thư viện trong Python

		
	

		
		
		   
		   
		   
		
		
			1/5 km vuông bằng bao nhiêu mét vuông

		
	

		
		
		   
		   
		   
		
		
			Trình phân tích cú pháp HTML tốt nhất là gì?

		
	

		
		
		   
		   
		   
		
		
			Cách thêm tiền tố 0 vào Excel

		
	

		
		
		   
		   
		   
		
		
			Làm cách nào để chuyển đổi phản hồi HTML thành JSON trong PHP?

		
	

		
		
		   
		   
		   
		
		
			Putra Ekadashi Tháng Một 2023 Vrata Katha

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 7 tết mậu thân năm 1968 đã diễn ra sự kiện gì ở miền nam nước ta 2023
			5 tháng trước
		
	



	
	 
		#2
		
			Top 13 luyện từ và câu: dấu gạch ngang lớp 4 trang 45 2023
			5 tháng trước
		
	



	
	 
		#3
		
			Top 6 trong mặt phẳng oxy ảnh của đường thẳng d 3x y 4=0 2023
			5 tháng trước
		
	



	
	 
		#4
		
			Top 6 thử thách thần chết thuyết minh phần 2 2023
			5 tháng trước
		
	



	
	 
		#5
		
			Top 4 vở bài tập tiếng việt lớp 3 tập 2 chính tả trang 15 2023
			5 tháng trước
		
	



	
	 
		#6
		
			Top 5 áo khoác nam quảng châu cao cấp 2023
			5 tháng trước
		
	



	
	 
		#7
		
			Top 4 nội dung nào sau đây không phải là trách nhiệm của đơn vị đầu mối cung cấp thông tin 2023
			5 tháng trước
		
	



	
	 
		#8
		
			Top 9 mẫu đồng phục công sở đẹp 2022 2023
			5 tháng trước
		
	



	
	 
		#9
		
			Top 5 ốp lưng iphone 13 pro bảo vệ camera 2023
			5 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Lỗi alt click to define trên photoshop có nghĩa gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Trưởng ban dân vận tỉnh ủy tiếng anh là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Lỗi khi cài win 7 require cd từ usb năm 2024

		
	

		
		
		   
		   
		   
		
		
			31 10 11 đến chơi nào eunhyuk donghae full năm 2024

		
	

		
		
		   
		   
		   
		
		
			Chữ c trên công tơ điện là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Cua sốt trứng muối tiếng anh là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Giải vở bài tập toán lớp 5 bài 168 năm 2024

		
	

		
		
		   
		   
		   
		
		
			Tập làm văn kiểm tra viết trang 45 năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bài tập powerpoint cơ bản cho tiểu học năm 2024

		
	

		
		
		   
		   
		   
		
		
			Hùng vương tên thật là gì năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Là gì
		  Mẹo Hay
		  Toplist
		  Địa Điểm Hay
		  Học Tốt
		  mẹo hay
		  Công Nghệ
		  Nghĩa của từ
		  Bao nhiêu
		  Khỏe Đẹp
		  đánh giá
		  Tiếng anh
		  Top List
		  bao nhieu
		  bao nhiêu
		  hướng dẫn
		  Món Ngon
		  So Sánh
		  So sánh
		  Bài tập
		  Xây Đựng
		  Sản phẩm tốt
		  Ngôn ngữ
		  Bài Tập
		  javascript
		  Ở đâu
		  Thế nào
		  Hướng dẫn
		  Dịch 
		  Tại sao
		  Máy tính
		  Đại học