Khái niệm, định nghĩa Crawling Web là gì?

Web crawler hay còn gọi là Crawler có chức năng lấy thông tin từ website , trích xuất ra những thông tin người sử dụng cần, đồng thời cũng tìm những link có trong trang web đó và tự động truy cập vào những link đó. Các tên gọi khác của crawler là robot, bot, spider, worm, ant

THÔNG TIN CHÍNH

Crawler là 1 từ để ám chỉ các công cụ (phần mềm, modules, plugins… hay đơn giản chỉ là 1 funtion nho nhỏ) có chức năng chính là tự động phân tích dữ liệu từ nguồn nội dung sau đó bóc tách những thông tin cần thiết theo tiêu chí mà nó được lập trình viên hệ thống thiết lập

Được hiểu nó là 1 chương trình hoặc các đoạn mã có khả năng tự động duyệt các trang web # theo 1 phương thức, cách thức tự động. Những từ dùng để chỉ thuật ngữ Web Crawler như ants, automatic indexers, bots, and worms.

Quá trình thực hiện được gọi là Web crawling hay spidering, rất nhiều các công cụ tìm kiếm trên thế giới sử dụng spidering để cập nhật kho dữ liệu website của mình. Chẳng hạn như google dùng nó để lấy các thông tin trên các website ồi cập nhật vào cơ sở dữ liệu của nó giúp người dùng search ra các trang theo ý muốn.

Web crawler là 1 loại của cái gọi là bot (là 1 tác tử thực hiện tự động, đại loại nghĩa giống như spider). Đại loại, nó bắt đầu từ danh sách các địa chỉ URL được gọi là seeds (hạt giống). Nó sẽ vào các địa chỉ này lọc thông tin rồi tìm ra các địa chỉ URL khác thêm chúng vào danh sách các địa chỉ đã duyệt qua gọi là crawl frontier. Sau nó nó lại lặp lại quá trình đó duyệt qua những URL mới. Cứ thế, cứ thể nó lần qua rất nhiều địa chỉ website và thu thập rất nhiều nội dung khác nhau giúp ta dễ dàng tìm kiếm thông tin mình cần.

Trên thế giới những web crawler rất nhiều và áp dụng vào rất nhiều loại hình website khác nhau như: web xxx, web rao vặt, web so sánh giá, web tổng hợp tin tức, web tìm kiếm,…