Vài nét về bức tranh tìm kiếm
Công
cụ tìm kiếm trên Internet đã quá quen thuộc với nhiều người truy cập
như Google, Yahoo, Microsoft… Dẫn đầu cuộc chạy đua về lượng tìm kiếm
giữa các hãng vẫn là Google. Google đã được nhiều người hiểu như một
động từ là “tìm kiếm”. Để có được một công cụ tìm kiếm thuyết phục, thu
hút được nhiều người dùng, phải giải quyết hàng loạt vấn đề liên quan
đến phương pháp, thuật toán, công nghệ, phương tiện máy móc và dĩ nhiên
là cần có những con người tài giỏi và phải có tiền. Gần đây, Microsoft
cho ra mắt công cụ tìm kiếm, ra quyết định với tên gọi Bing. Trong thời
gian ngắn, Bing đã chiếm vị trí thứ 2 về số người sử dụng, vượt qua cả
Yahoo.
Theo
StatCounter, từ 4/6/2009 Bing đã chiếm 16,28% lượng truy cập, trong khi
Yahoo chỉ có khoảng 10,22%. Theo Microsoft, Bing giúp giải quyết sự bất
hợp lý của mảng tìm kiếm khi có đến 30% số lệnh tìm kiếm trên thế giới
với kết quả không như người dùng mong muốn! Microsoft trang bị cho Bing
một số tính năng mới như Best Match để tìm câu trả lời tốt nhất, Deep
Links để cung cấp cho người dùng thông tin tóm tắt về nội dung, Quick
Preview cửa sổ để người dùng mở rộng các lệnh tìm kiếm và cung cấp
những thông tin khác, Instant Answers để hiển thị thông tin tìm kiếm
với bất kỳ dạng nào: text, hình ảnh và video… Gần đây, Microsoft thỏa
thuận được với Yahoo cùng khai thác Bing trong 10 năm với những điều
khoản hưởng lợi cụ thể của 2 bên và nhằm cạnh tranh với Google. Tuy
nhiên, Google cho đến nay vẫn chiếm 71,47% phần Mỹ, còn trên thị phần
toàn cầu thì 87,62%, trong khi đó Bing chỉ 5,62% và Yahoo chiếm 5,13%.
Công
cụ tìm kiếm Google thống trị trên mạng di động toàn cầu, dù Yandex và
Baidu chiếm lĩnh hai thị trường Nga và Trung Quốc (theo hãng trình
duyệt Opera). Nhu cầu tìm kiếm thông tin trên các thiết bị di động càng
thúc đẩy phát triển các công cụ tìm kiếm mạnh mẽ. Ngay trong khu vực
ASEAN, Philippines có tỷ lệ phổ cập di động lên tới 90% dân số, lướt
Net bằng điện thoại di động trở thành thói quen của nhiều người. Tại Ấn
Độ, Nigeria tìm kiếm di động chiếm tới 16,3% và 26,6% lưu lượng tìm
kiếm.
Một mảng tìm kiếm khác cũng rất sôi động là tìm kiếm
chuyên dụng. Đó là tìm kiếm trên các mạng xã hội và các micro-blogging.
Bing, Google, CrowdEye (Microsoft), Topsy, Oneriot, Tweetfind, Twingly…
đều có chức năng này. Nhu cầu phát triển các công cụ tìm kiếm cho mảng
chuyên còn rất lớn!
Xét theo một khía cạnh khác là chiều sâu
của kết quả tìm kiếm đã có các công cụ tìm kiếm kiểu chuyên gia, chẳng
hạn Wolfram Alpha. Về tìm kiếm mảng chuyên đã có nhiều hãng cho ra đời
các hệ như: Pandia, BoarReader, CampInfo, CompletePlanet, Itools… Xử lý
yêu cầu tìm kiếm "thông minh" đã có một số hệ như Powerset. Hiện tại,
Powerset chỉ mới tìm kiếm và đánh chỉ mục hơn một triệu trang từ
Wikipedia và Freebase với công nghệ Metaweb.
Các công cụ tìm kiếm của nước ta
Ở
nước ta, trong nhiều năm qua cũng đã xuất hiện nhiều công cụ tìm kiếm
được làm từ trong nước. Hãng IDG đã quyết định đầu tư vào công cụ tìm
kiếm Việt với 2 hướng chủ yếu: tìm kiếm tài nguyên Internet và tìm kiếm
quảng cáo trực tuyến. Nhu cầu của cả 2 hướng đều tăng do số lượng người
dùng Internet và các kênh truyền thông trên Internet tăng mạnh ở nước
ta.
Tìm
kiếm là một nhu cầu lớn của người truy cập Internet. Hơn nữa, sự thành
công rực rỡ của các hãng như Google, Baidu… đã thu hút nhiều người muốn
thử sức nghiên cứu. Tuy vậy, những công cụ tìm kiếm như 7sac.com,
Socbay.vn, Baamboo.com, Xalo.vn, Zing.vn... trong nước phát triển chưa
thật sự thuyết phục, chưa thu hút được nhiều người dùng. Nhờ công nghệ
của Fast Search cho phép mở rộng đến 3,5 tỉ trang tìm kiếm, một nền
tảng công nghệ ổn định. Kinh nghiệm phát triển dịch vụ tìm kiếm từ
nhiều năm của Tinh Vân (Vinaseek), Xalo.vn đã thể hiện được một vài thế
mạnh. Về lý thuyết, “tìm kiếm” đã được các trường ĐH và các viện nghiên
cứu ở nước ta quan tâm và đã thu được một số kết quả nghiên cứu.
Nền
công nghiệp nội dung số đang phát triển mạnh mẽ. Nền công nghiệp này
được xây dựng trên nền tảng nhiều dạng dữ liệu khác nhau: văn bản, âm
thanh, ảnh và video... Một cách khái quát, đó là dữ liệu multimedia.
Những bài toán đặt ra cho việc xử lý thông tin multimedia là thu thập,
lưu trữ, tìm kiếm và truyền thông tin. Theo sự phát triển một cách tự
nhiên đối với CNTT, những loại dữ liệu văn bản được nghiên cứu sớm và
đã có kết quả đáp ứng nhu cầu thực tiễn và phát triển mạnh mẽ.
Mỗi
dạng dữ liệu có những đặc trưng riêng và cũng đều có những đặc trưng
giống nhau theo cách nhìn hướng đến lưu trữ, xử lý, tìm kiếm. Với văn
bản, do bản thân nó được xây dựng trên một quy tắc xác định nên có khả
năng đáp ứng được nhu cầu xử lý với độ chính xác cao, còn đối với các
dạng khác, để kết quả xử lý có độ chính xác cao thì khó khăn hơn nhiều.
Thật ra ảnh là bản sao chụp thế giới thực hàm chứa một nội dung nào đó.
Để đọc được nội dung đó, cần một ngôn ngữ. Đó là ngôn ngữ ảnh. Với bức
ảnh một khu rừng, người thường có thể nhận biết được nhưng đưa bức ảnh
đó để máy tính có thể nhận biết được thì phải bỏ nhiều công sức. Trong
chiến lược tìm kiếm có thể kết hợp đặc trưng thị giác và ngữ nghĩa,
TP.HCM đã xây dựng được hệ truy vấn thông tin thị giác gồm 2 phân hệ
chính: hệ truy vấn ảnh số và hệ truy vấn video số (VIROS - Visual
Information Retrieval of Saigon).
|
|
Google áp đảo Kết
quả khảo sát nhanh về "Thói quen sử dụng công cụ tìm kiếm" trên website
www.pcworld.com.vn từ 6/8 -20/8/2009 cho thấy Google có lượng người
dùng áp đảo với 1518/ 1672 lượt bình chọn (trên 90%), các công cụ còn
lại là có Bing: 5%, Yahoo!: 2%. Các công cụ tìm kiếm Việt Nam (Socbay,
Zing, Baamboo...) có tỉ lệ bình chọn rất thấp: 1% hoặc chỉ gần đạt 1%. |
Những hệ tìm kiếm có
lượng người dùng lớn đều được vận dụng những cơ sở khoa học là những
kết quả nghiên cứu về nhận dạng, xử lý ảnh. Google đã tạo ra công cụ có
khả năng tìm kiếm một hình ảnh có nội dung và kích thước phù hợp
(http://images.google.com) tìm kiếm tất cả hình ảnh trên một trang web;
tìm kiếm hình ảnh theo một kích thước và định dạng cụ thể, với từ khoá
là imagesize, filetype; tìm những hình ảnh có cùng nội dung… Công cụ
tìm kiếm ảnh nâng cao của Google có thể đáp ứng cao nhu cầu của người
dùng. Chẳng hạn, tìm những ảnh với những nội dung mặc định thì tại mục
Content types, nếu chọn faces thì kết quả sẽ là chân dung liên quan đến
từ khoá đã chọn; tại mục Safe search (tìm kiếm an toàn) thì trong kết
quả sẽ loại bỏ những hình ảnh mang nội dung không mong muốn.
Từ
đây cũng gợi cho ta những điều có thể suy nghĩ về xây dựng những công
cụ tìm kiếm như: Tìm kiếm những mảng chuyên; Những hệ tìm kiếm thông
minh mảng chuyên… Con đường bứt phá, có tính đột biến là phải tập trung
nghiên cứu khoa học vào những hướng liên quan đến “tìm kiếm” và có biện
pháp đưa nhanh kết quả nghiên cứu vào thực tiễn, một việc làm có tính
hiển nhiên mà nói mãi vẫn không làm được!
|