Wednesday, June 11, 2014

Tagged under: , , , , ,

10 thuật toán có tầm ảnh hưởng toàn cầu




Tầm quan trọng của các thuật toán trong cuộc sống hiện đại không hề bị cường điệu hóa. Các thuật toán được sử dụng hầu như ở khắp mọi nơi, từ các tổ chức tài chính cho tới những trang hẹn hò trực tuyến. Tuy nhiên, có những thuật toán có sức ảnh hưởng lớn với thế giới của chúng ta hơn những thuật toán khác – tiêu biểu là 10 thuật toán được liệt kê trong bài viết này.

Giới thiệu một chút về thuật toán trước khi bắt đầu vào câu truyện chính. Cho dù không có bất kì một định nghĩa chính thức nào, các nhà khoa học máy tính mô tả thuật toán như một chuỗi các nguyên tắc nhằm xác định trình tự của các hoạt động. Chúng là chuỗi các hướng dẫn để chỉ cho máy tính hiểu cách giải quyết một vấn đề hay một mục tiêu nhất định. Một cách tốt để hình dung về thuật toán là bằng việc vẽ ra lưu đồ (hay còn gọi là sơ đồ khối / biểu đồ tiến trình / flowchart).    

1. Google Tìm kiếm
Có một khoảng thời gian cách đây không lâu, khi mà các cỗ máy tìm kiếm tranh giành vị trí tối cao trên Internet. Và rồi Google xuất hiện với thuật toán thông minh mang tên Pagerank.

Ngày nay, Google chiếm 66.7% thị trường tại Mỹ khi tìm kiếm bất kì nội dung gì trên Internet, theo sau là Microsoft (18.1%), Yahoo (11.2%), Ask (2.6%), and AOL (1.4%). Google hiện tại đang thống lĩnh thị trường đến mức chúng ta mặc định Google là đáp án cho những câu hỏi thường ngày đặt ra; và với nhiều người, Google.com là cánh cổng vào Internet của họ.
PageRank hoạt động dựa trên sự kết hợp giữa những chương trình tự động như spiders hay crawlers, và một lượng lớn chỉ mục các từ khóa và vị trí của chúng. Thuật toán hoạt động bằng cách đánh giá các con số và chất lượng các liên kết tới trang web để có một ước tính sơ lược về tầm quan trọng của trang web đó. Ý tưởng cơ bản đó là tầm quan trọng hoặc giá trị của website càng cao thì xác suất website đó nhận được liên kết từ website khác cũng tăng lên. Chung quy có thể gọi đó là cuộc thi về mức độ phổ biến. Thêm vào đó, Thuật toán Pagerank cũng xem xét các chỉ số về tần suất và vị trí của từ khóa trong một trang web và thời gian tồn tại của trang web đó.

2. Facebook News Feed 
Cho dù chúng ta có thể không thích thú nhận điều này, nhưng Facebook News Feed là nơi ưa thích mà đa số chúng ta dùng để giết thời gian. Và trừ khi tùy chỉnh của bạn là hiển thị toàn bộ các hoạt động và cập nhật mới của TẤT CẢ bạn của bạn theo thứ tự thời gian, còn nếu không thì bạn đang xem Bảng tin với các mục được định sẵn (tức là chế độ Top Stories) mà thuật toán của Facebook đã chọn cho bạn.
Figure 1 Các nội dung trên Facebook được chấm điểm khác nhau tùy thuộc vào sự tương tác của người dùng với tác giả của những nội dung đó.
Để tính toán xem nội dung nào hấp dẫn nhất, thuật toán của Facebook xem xét vài yếu tố, ví dụ như số lượng nhận xét, ai là người viết nội dung đó (dĩ nhiên là có một bảng xếp hạng ngầm về mức độ “nổi tiếng” và mức tương tác của người dùng) và bài viết đó thuộc loại bài viết gì (hình ảnh, video, status, update, v.v…).

3. Trang hẹn hò trực tuyến OKCupid
Hẹn hò trực tuyến ngày nay trở thành ngành công nghiệp trị giá 2 tỷ đô. Nhờ vào sự phát triển của những website như Match.com, eHarmony, và OKCupid, ngành công nghiệp này đạt tốc độ phát triển 3.5% mỗi năm kể từ 2008. Các chuyên gia phân tích dự đoán tốc độ phát triển sẽ tiếp tục tăng trong năm năm tới – và với lý do khả quan là : Đây là một cách rất hiệu quả để các đôi gặp nhau. Không những các trang hẹn hò tạo ra những cuộc hôn nhân thành công, các trang web này hoàn thành xuất sắc nhiệm vụ kết nối những cặp đôi với nhau dựa trên sở thích và xu hướng của họ. Dĩ nhiên là, những kết quả “ghép đôi” đều phải dựa vào thuật toán.
Ví dụ như trang OKCupid, một trang hẹn hò trực tuyến miễn phí được lập ra bởi nhà toán học Christian Rudder từ Harvard. OKCupid đưa ra những phương án phân tích, thu thập các tệp dữ liệu từ người dùng. Nhưng thuật toán của OKCupidkhông chỉ đơn giản là việc ghép đôi dựa trên những sở thích chung; mỗi câu trả lời tại trang này đều được “ cân đo đong đếm “ bởi mức độ quan trọng của câu hỏi đối với người dùng và “người ấy”. Sự khác biệt này là yếu tố làm nên sự hiệu quả của OKCupid.
Tham khảo thêm cách hoạt động của OKCupid



4. Chương trình thu thập, diễn giải, và mã hóa dữ liệu của Cơ quan An ninh quốc gia Mỹ(NSA)
Những hoạt động hàng ngày của chúng ta bị theo dõi không phải bởi con người, mà bằng những thuật toán. Nhờ có Edward Snowden, chúng ta mới biết Cơ quan An ninh quốc gia (NSA – National Security Agency) và các đối tác của họ trên toàn thế giới đã và đang theo dõi hàng triệu, thậm chí hàng tỷ người dân. Những tài liệu bị tiết lộ đã phanh phui sự tồn tài của các chương trình giám sát hợp tác cùng với Five Eyes, một liên minh trí tuệ bao gồm Mỹ, Úc, Canada, New Zealand và Anh. Họ cùng nhau hợp tác để quản lý những cuộc gọi, emails, hình ảnh webcam, và vị trí địa lý của bạn. Và “Họ” như đã đề cập ở đây ám chỉ thuật toán; đơn giản bởi vì số lượng thông tin và dữ liệu quá nhiều và vượt khả năng xử lý của con người.



Thú vị là, NSA cho rằng họ không thực sự "thu thập" dữ liệu của chúng ta. Dựa theo bản hướng dẫn quy trình năm 1982, "thông tin được coi là “được thu thập” chỉ khi được sử dụng bởi cơ quan tình báo của Bộ Quốc phòng trong quá trình thực thi công việc của họ." Và dữ liệu thu thập bởi các thiết bị điện tử chỉ được gọi là “thu thập” khi chúng được xử lý và trở thành dạng dữ liệu “trí tuệ”. Ông Bruce Schneier của The Guardian giải thích như sau:
Vậy, giả sử bạn của bạn có hàng ngàn cuốn sách trong nhà của anh ấy. Dựa theo NSA, anh ấy không thực sự “thu thập” sách. Anh ấy chỉ đơn giản là làm một cái gì đó với những cuốn sách này, và chỉ khi nào anh ấy thực sự đã đọc những cuốn sách thì anh ấy mới có thể xác nhận là “đã thu thập” những cuốn đó.
Vấn đề ở đây đó là:
Các thuật toán máy tính có liên quan mật thiết tới con người. Và khi chúng ta nghĩ tới việc các thuật toán theo dõi hay phân tích dữ liệu cá nhân, chúng ta cần nghĩ tới con người đằng sau những thuật toán đó. Cho dù không có ai thực sự nhìn vào những dữ liệu đó, sự thật là họ có thể biến dữ liệu sang trạng thái “theo dõi” bất cứ lúc nào.
Và, chúng ta cũng có thể xem xét Bộ Mã hóa của NSA , một thuật toán đầy quyền năng sử dụng để mã hóa, thay đổi mã khóa, chữ kí điện tử, và “hashing”. Đây là thứ NSA sử dụng để bảo vệ tài liệu đã phân loại hoặc chưa phân loại.

5. "Bạn cũng có thể thích..."
Các trang bán hàng hay dịch vụ như Amazon và Netflix quản lý số sách bạn mua và danh sách phim đang chiếu, và gợi ý các sản phẩm tương tự dựa trên thói quen tiêu dùng của chúng ta.


Tương tự như bất kỳ quy trình tự động khác, chức năng phổ biến của thế kỷ 21 này có mặt lợi và mặt hại. Một mặt chức năng nay hoạt động mạnh mẽ và tiện lợi giúp khách hàng nhận được những đề nghị tương tự phù hợp, hoặc hoàn toàn ngược lại – ví dụ như khi bạn vừa mua một cuốn truyện tranh vẽ làm quà cho đứa con gái 3 tuổi.
Quả thật, cùng với PageRank và Bảng tin của Facebook (Newsfeed), những thuật toán này tạo nên hiện tượng gọi là filter bubble (tạm dịch “Bộ lọc bong bóng”), một hiện tượng mà người dùng trở nên tách biệt với các thông tin trái chiều với quan điểm, góc nhìn của họ. Các thuật toán vô tình tách biệt người dùng trong một hệ tư tưởng ví von như “bong bóng”. Điều này có thể dẫn tới hệ quả như Eli Pariser từng gọi là “Thuyết định mệnh thông tin” – khi thói quen duyệt web trước đây quyết định tương lai của bạn.

6. Google AdWords


Bảng so sánh khả năng tiếp cận thông tin quảng cáo giữa Facebook và Google 
Google Adwords cũng tương tự như các thuật toán của Google, Facebook, và các website khác sử dụng thuật toán theo dõi hành vi, cách sử dụng từ ngữ, và truy vấn tìm kiếm để cung cấp thông tin quảng cáo theo ngữ cảnh. Google Adwords — một trong những nguồn doanh thu chính của Gã khổng lồ — dựa trên mô hình thuật toán đó, trong khi Facebook vẫn còn đang cố gắng làm cho các quảng cáo của mình thực sự hoạt động. (nhớ lại thử xem lần gần đây nhất bạn click vào ad trên facebook là khi nào ?).

7. Giao dịch chứng khoán tần suất cao
Lĩnh  vực tài chính từ lâu đã sử dụng thuật toán để dự đoán các biến động thị trường, nhưng chúng cũng đang được dùng để phát triển Giao dịch chứng khoán tần suất cao. Hình thức giao dịch “liên thanh” này liên quan tới các thuật toán, hay còn được gọi là các robot với khả năng đưa ra quyết định trên các lệnh trong một phần nghìn giây. Trong khi đó, con người phải mất tối thiểu 1 giây để nhận diện và phản ứng với một mối nguy hiểm nào đó. Đó là lý do mà con người đang dần dần bị đẩy ra khỏi vòng giao dịch này – và đồng thời một “hệ sinh thái kỹ thuật số” đang phát triển lớn dần.


 Video hiển thị giá trị 10 giây giao dịch của Blackberry vào ngày 2 tháng 10 năm ngoái.
                             Và mọi thứ diễn ra trong vẻn vẹn 3 phút rưỡi.

Nhưng , đôi khi những thuật toán này cũng phạm lỗi. Leo Hickman giải thích :
Lấy ví dụ như  "flash crash" (tạm dịch “sự cố nhanh”) vào ngày 6 tháng 5 năm 2010, khi chỉ số bình quân công nghiệp Dow Jones rớt 1,000 điểm trong vài phút, và hồi lại sau đó 20 phút. Lý do của cú tụt dốc đột ngột này cho đến nay vẫn chưa giải thích được một cách đầy đủ, nhưng đa số các nhà quan sát tài chính cho rằng do một "cuộc đua chạm đáy" bởi các thuật toán cạnh tranh giao dịch định lượng (còn gọi là quants), các thuật toán này được sử dụng phổ biến để thực hiện các giao dịch tần suất cao. Scott Patterson, phóng viên của nhật báo Wall Street và đồng thời là tác giả của cuốn The Quants, bị cuốn hút bởi cách tận dụng thuật toán trên sàn giao dịch để “cất cánh tự động”. Đa số các giao dịch ngày nay đều do thuật toán thực hiện, nhưng khi xuất hiện vấn đề, như đã từng xảy ra trong ví dụ trên, con người có thể can thiệp.
8. Chuẩn nén MP3


So sánh chuẩn FLAC và 64kbps để thấy sự khác biệt trong chất lượng âm thanh
Các thuật toán nén dữ liệu đánh dấu mốc quan trọng trong thế giới kỹ thuật số. Chúng ta luôn muốn nhận các sản phẩm media nhanh chóng , và cũng muốn “níu kéo” dung lượng ổ đĩa cứng trong máy. Để giải quyết những vấn đề này, muôn vàn thủ thuật được thiết kế để nén và truyền dữ liệu.

Quay lại năm 1991, Tập đoàn hệ thống Cisco đã phát triển Giao thức nén thời gian thực (CRTP).  Trong năm 1987, các nhà nghiên cứu tại Đức đã tìm ra MP3, một phương pháp nén giúp giảm dung lượng tệp âm thanh xuống 10 lần so với tệp gốc. Phương thức nén này đã tạo nên một cuộc cách mạng trong nền âm nhạc cho tới ngày nay (tốt hơn hay xấu đi xin được nói trong bài viết khác).

9. Thuật toán Giảm thiểu tội phạm hình sự bằng cách sử dụng lịch sử thống kê (CRUSH) của IBM
Thuật toán này vẫn chưa thực sự thống trị thế giới, nhưng không lâu nữa mọi người sẽ biết tới nó. Các sở cảnh sát tại châu Âu đang tận dụng công nghệ mới này để phân tích dự báo – thứ công cụ này có khả năng biến một thế giới như trong phim “Minority Report” thành hiện thực



Quay lại năm 2010, chính quyền thành phố Memphis đã công bố rằng, với việc sử dụng phần mềm phân tích dự báo của IBM( gọi là CRUSH, hay Giảm thiểu tội phạm hình sự bằng cách sử dụng lịch sử thống kê), Sở cảnh sát của Memphis đã giảm thiểu đáng kể số lượng tội phạm nghiêm trọng tới 30%, bao gồm 15% số lượng trọng tội được giảm kể từ năm 2006. Các thành phố khác cũng đồng loạt áp dụng CRUSH, bao gồm các thành phố tại Ba Lan, Israel, và tại Anh. Dự án thí điểm cũng đang được tiến hành tại Los Angeles, Santa Cruz, và Charleston.

Biểu đồ tội phạm tại Memphis do CRUSH thống kê và phân tích
CRUSH hoạt động qua việc kết hợp các tổ hợp dữ liệu, phân tích thống kê, và dĩ nhiên, các thuật toán tiên tiến nhất. Thuật toán cho phép cảnh sát đánh giá các mẫu sự cố xuyên suốt cả thành phố và dự báo “điểm nóng tội phạm” để "chủ động phân bổ tài nguyên và nguồn nhân lực giúp cải thiện hiệu quả nguồn lực và tăng cường an ninh công cộng.” 
Trong tương lai, những hệ thống này sẽ thay thế công việc của các nhà phân tích. Tội phạm sẽ “được” theo dõi bởi các thuật toán phức tạp bao gồm quản lý hoạt động internet, GPS, thiết bị hỗ trợ cá nhân, chữ ký sinh học, và tất cả các phương tiện thông tin liên lạc theo thời gian thực. Phương tiện bay không người lái sẽ được sử dụng nhiều hơn để theo dõi các đối tượng tình nghi để dự đoán ý định của họ thông qua cử chỉ cơ thể và các manh mối trực quan khác.
10. Auto-Tune
Cuối cùng trong danh sách, chương trình auto-tune cũng hoạt động nhờ vào thuật toán. Những thiết bị này xử lý một chuỗi luật lệ để có thể uốn cong cao độ, có thể xử lý giọng hát hoặc hay các loại nhạc cụ tới âm giai gần nhất. Điều thú vị là nó được phát triển bởi Andy Hildebrand ,lúc đầu ông sử dụng công nghệ để diễn giải dữ liệu địa chấn.
Bài "Believe" của Cher được cho là bản nhạc pop đầu tiên sử dụng auto-tuning:



(Tuy nhiên việc sử dụng Auto - Tune cũng là con dao 2 lưỡi, tham khảo thêm tại đây)

#vinasystem
www.vinasystem.com

0 comments:

Post a Comment