Lucene Là Gì

  -  
1. Giới thiệu về Lucene

Bài viết ngày hôm trước tôi vẫn giới thiệu về NOSquốc lộ, cấu trúc của NoSquốc lộ không ràng buộc vậy việc tìm và đào bới kiếm công bố trên tài liệu NoSquốc lộ tất cả cạnh tranh không? Có tlỗi viện như thế nào cung ứng không?Câu vấn đáp ngơi nghỉ đó là chúng ta chớ lo, có tương đối nhiều thư viện nhằm giúp sức điều ấy. Hôm ni tôi xin giới thiệu về một tlỗi viện tìm kiếm kiếm toàn vnạp năng lượng bạn dạng tên là Lucene.Lucene được trở nên tân tiến bởi vì Dough Cutting trong tháng 8 năm 2000, hiện giờ đang được Apađậy phát triển cùng cung cấp. Lucene cung ứng mang lại Việc đánh index- chỉ mục và tra cứu kiếm. Dữ liệu tìm kiếm tìm rất có thể là tập tin dạng PDF, Word xuất xắc HTML, Json,... hoặc tài liệu trong số hệ quản ngại trị tài liệu nlỗi MS Squốc lộ, Squốc lộ server hay MySQL. Lucene ban đầu được cách tân và phát triển trên ngôn từ java, đến thời điểm này thì được cải cách và phát triển bởi các ngôn ngũ nhỏng Perl, C++/C#, Pybé, Ruby, PHP..,...

Bạn đang xem: Lucene là gì

*

2. Chức năng của Lucence

Qua có mang bên trên hoàn toàn có thể thấy một phần sức mạnh của Lucence rồi đúng không? Lucence có khả năng tra cứu kiếm đối với tất cả dữ liệu kết cấu và dữ liệu phi cấu trúcDữ liệu kết cấu và phi cấu trúc được đề cập qua vào bài ra mắt trước về NoSquốc lộ. Dữ liệu tất cả cấu tạo là dữ liệu được giữ trong số hệ quản ngại trị như MySQL, MS Squốc lộ server,... Các cấu tạo được vẻ ngoài sẵn ví như bảng customer bao hàm những ngôi trường như thể tên, số điện thoại cảm ứng thông minh, ngày sinc, liên quan.Dữ liệu ko kết cấu là dữ liệu ko yêu cầu tư tưởng sẵn được tổ chức thành các documents hoàn toàn có thể nghỉ ngơi dạng văn uống bảnNếu sinh hoạt các các đại lý cai quản trị dữ liệu điện thoại tư vấn thông thường Squốc lộ chỉ rất có thể bị hạn chế vày cú pháp của ngôn từ truy vấn vấn, hoặc truy nã vấn cùng với dữ liệu search kiếm quá lớn khiến cho bị chậm.Giải quyết sự việc trên bạn ta vẫn phát hành Lucence- Tlỗi viện tìm kiếm trên toàn vnạp năng lượng phiên bản.

Đánh chỉ mục (Index): Trước tiên, Lucene giúp bạn phân loại chỉ mục, cai quản như các Document. Việc tấn công chỉ mục được triển khai qua các bước sau.

trước hết, thu thập tài liệu (Acquire content), ở công đoạn này thường là crawler hoặc spider nhằm tích lũy dữ liệu đánh chỉ mục.Tiếp theo là bước desgin tư liệu (Build document). Ở đoạn này thì tài liệu thô thu nhập ở trên được tạo thành những document với các ngôi trường text, tuy thế các tìm kiếm engine vẫn chưa đánh chỉ mục luôn luôn được mà cần phải chuyển thanh lịch so với tư liệu.Phân tích tài liệu (Analyze document): Tại đây text được chia nhỏ tuổi thành các token, mỗi token được gọi là một trong trường đoản cú trong tài liệu. Document được xác minh vì chưng dãy các tokenBước sau cùng là tấn công chỉ mục. Lucene hỗ trợ API không thiếu đến vấn đề tấn công chỉ mục trlàm việc đề xuất dễ ợt hơn.

Truy vấn (query): Khi người sử dụng gửi lên 1 submit thì hệ thống search engine nên phân tích thành câu query đến hệ thống hoàn toàn có thể hiểu, đoạn này call là (Build query). Lucene cung cấp gói QueryParser để đổi thay câu truy vấn của người tiêu dùng thành câu query của hệ thống.Truy vấn hoàn toàn có thể là các toán tử boolean hoặc các phép tân oán liên quan, hoặc tổng thích hợp, so với,...

Xem thêm: Java Bài 33: Interface Java Là Gì, Interface Khác Gì Class

Tìm tìm (search): Là quá trình tra cứu và tìm thấy hiệu quả cân xứng với câu truy nã vấn của người tiêu dùng và giới thiệu kết quả. Ở phía trên thường query theo 3 tế bào hình: Mô hình toán thù tử Boolean, mô hình vector, quy mô Tỷ Lệ. Những mô hình này đã có được giới thiệu vào bài tầm nã vấn đọc tin (IR).

Display: Render các hiệu quả kiếm tìm tìm bố trí theo vật dụng trường đoản cú tương xứng cùng hiển thị cho người thực hiện. Ở đây, xong xuôi một phiên tìm kiếm tìm.

Xem thêm: Tổng Hợp Lời Chúc 20 10 Cho Chị Gái, Em Gái Cực Kỳ Tình Cảm Năm

3. Những câu hỏi thường xuyên gặp

- Lucene khác gì kiếm tìm kiếm toàn văn uống phiên bản của Mysql với MS Squốc lộ Server?

Lucene hoàn toàn có thể tìm kiếm tìm không chỉ là cùng với phần đông DB gồm ngôn từ SQL, cơ mà tương đối nhiều văn uống bản được viết bằng ngôn ngữ không giống.Lucene còn mở rộng các nguyên tố hiện tại bao gồm cân xứng cùng với kiếm tìm tìm của người tiêu dùng.

-Lucene tất cả mạnh mẽ bằng Google kiếm tìm tìm không?

Câu vấn đáp là không. Google tìm tìm là một trong những hệ thống kiếm tìm tìm search engine phức hợp rộng không hề ít còn Lucene chỉ nên thỏng viện hỗ trợ search kiếm thôi4. Danh mục tham khảo

https://lucene.apađậy.org/core/documentation.html