Chuyển đến nội dung

14. Làm Điều Đúng Đắn

Nuôi dưỡng các hệ thống AI bằng vẻ đẹp, sự xấu xí và sự tàn nhẫn của thế giới, rồi kỳ vọng chúng chỉ phản chiếu vẻ đẹp - đó là ảo tưởng.

Vinay Uday Prabhu and Abeba Birhane, Large Datasets: A Pyrrhic Win for Computer Vision? (2020)

Trong chương cuối cùng của cuốn sách này, hãy cùng lùi lại một bước. Xuyên suốt cuốn sách, chúng ta đã xem xét nhiều kiến trúc khác nhau cho các hệ thống dữ liệu, đánh giá ưu và nhược điểm của chúng, và khám phá các kỹ thuật để xây dựng những ứng dụng đáng tin cậy, có khả năng mở rộng và dễ bảo trì. Tuy nhiên, chúng ta đã bỏ qua một phần quan trọng và căn bản của cuộc thảo luận - phần mà chúng ta cần bổ sung ngay bây giờ.

Mỗi hệ thống được xây dựng vì một mục đích; mỗi hành động chúng ta thực hiện đều có cả hậu quả có chủ đích lẫn ngoài ý muốn. Mục đích có thể đơn giản như kiếm tiền, nhưng hậu quả đối với thế giới có thể vươn xa hơn nhiều so với mục đích ban đầu đó. Chúng ta - những kỹ sư đang xây dựng các hệ thống này - có trách nhiệm cân nhắc kỹ lưỡng những hậu quả đó và quyết định một cách có ý thức về loại thế giới chúng ta muốn sống.

Chúng ta nói về dữ liệu như một thứ trừu tượng, nhưng hãy nhớ rằng nhiều tập dữ liệu liên quan đến con người: hành vi, sở thích và danh tính của họ. Chúng ta phải đối xử với dữ liệu như vậy bằng sự nhân văn và tôn trọng. Người dùng cũng là con người, và phẩm giá con người là điều tối thượng 1.

Phát triển phần mềm ngày càng liên quan đến việc đưa ra các lựa chọn đạo đức quan trọng. Có những hướng dẫn để giúp các kỹ sư phần mềm điều hướng những vấn đề này, chẳng hạn như ACM Code of Ethics and Professional Conduct 2, nhưng chúng hiếm khi được thảo luận, áp dụng và thực thi trong thực tế. Kết quả là, các kỹ sư và quản lý sản phẩm đôi khi có thái độ rất coi thường đối với quyền riêng tư và những hậu quả tiêu cực tiềm ẩn của sản phẩm họ tạo ra 3, 4.

Một công nghệ tự nó không tốt hay xấu - điều quan trọng là cách nó được sử dụng và cách nó ảnh hưởng đến con người. Điều này đúng với một hệ thống phần mềm như công cụ tìm kiếm cũng theo cách tương tự như với một vũ khí như súng. Các kỹ sư phần mềm không thể chỉ tập trung vào công nghệ mà bỏ qua hậu quả của nó: trách nhiệm đạo đức cũng thuộc về chúng ta. Lý luận về đạo đức là khó khăn, nhưng nó quá quan trọng để bỏ qua.

Tuy nhiên, điều gì làm cho một thứ “tốt” hay “xấu” không được xác định rõ ràng, và hầu hết mọi người trong ngành điện toán thậm chí không thảo luận câu hỏi đó 5. Ngược lại với phần lớn lĩnh vực điện toán, các khái niệm cốt lõi của đạo đức không cố định hay xác định trong ý nghĩa chính xác của chúng, và chúng đòi hỏi sự diễn giải, vốn có thể mang tính chủ quan 6. Đạo đức không phải là đi qua một danh sách kiểm tra để xác nhận bạn tuân thủ; đó là một quá trình tham gia và lặp đi lặp lại của sự phản ánh, trong đối thoại với những người liên quan, với trách nhiệm giải trình về kết quả 7.

Phân tích Dự đoán (Predictive Analytics)

Ví dụ, phân tích dự đoán là một phần lớn lý do tại sao mọi người hào hứng với big data và AI. Sử dụng phân tích dữ liệu để dự đoán thời tiết, hay sự lây lan của dịch bệnh, là một chuyện 8; nhưng dự đoán liệu một phạm nhân có khả năng tái phạm, liệu người xin vay có khả năng vỡ nợ, hay liệu khách hàng bảo hiểm có khả năng đưa ra những yêu cầu bồi thường tốn kém 9 lại là chuyện khác. Những trường hợp sau có ảnh hưởng trực tiếp đến cuộc sống của từng cá nhân.

Tất nhiên, các mạng lưới thanh toán muốn ngăn chặn giao dịch gian lận, ngân hàng muốn tránh các khoản vay xấu, hãng hàng không muốn tránh cướp máy bay, và các công ty muốn tránh tuyển dụng những người kém hiệu quả hay không đáng tin cậy. Từ góc nhìn của họ, chi phí của một cơ hội kinh doanh bị bỏ lỡ là thấp, nhưng chi phí của một khoản vay xấu hay một nhân viên có vấn đề lại cao hơn nhiều, vì vậy việc các tổ chức muốn thận trọng là điều tự nhiên. Nếu nghi ngờ, họ tốt hơn nên nói không.

Tuy nhiên, khi việc ra quyết định theo thuật toán trở nên phổ biến hơn, người nào đó đã bị gán nhãn là rủi ro (chính xác hay sai) bởi một thuật toán nào đó có thể phải chịu rất nhiều quyết định “không” đó. Bị loại trừ một cách có hệ thống khỏi công việc, đi lại bằng máy bay, bảo hiểm, thuê nhà, dịch vụ tài chính và các khía cạnh quan trọng khác của xã hội là sự hạn chế lớn đến mức tự do cá nhân đến nỗi nó đã được gọi là “nhà tù thuật toán” (algorithmic prison) 10. Ở các quốc gia tôn trọng quyền con người, hệ thống tư pháp hình sự giả định vô tội cho đến khi bị chứng minh là có tội; nhưng ngược lại, các hệ thống tự động có thể loại trừ một cách có hệ thống và tùy tiện một người khỏi việc tham gia xã hội mà không cần bằng chứng nào về tội lỗi, và với rất ít cơ hội kháng cáo.

Định kiến và Phân biệt đối xử (Bias and Discrimination)

Các quyết định được đưa ra bởi một thuật toán không nhất thiết tốt hơn hay tệ hơn những quyết định do con người đưa ra. Mỗi người đều có khả năng có định kiến, ngay cả khi họ tích cực cố gắng chống lại chúng, và các hành vi phân biệt đối xử có thể trở nên được thể chế hóa về mặt văn hóa. Có hy vọng rằng việc dựa vào dữ liệu thay vì các đánh giá chủ quan và bản năng của con người có thể công bằng hơn và tạo cơ hội tốt hơn cho những người thường bị bỏ qua trong hệ thống truyền thống 11.

Khi chúng ta phát triển hệ thống phân tích dự đoán và AI, chúng ta không chỉ đơn thuần là tự động hóa quyết định của con người bằng cách sử dụng phần mềm để chỉ định các quy tắc cho việc khi nào nói có hay không; chúng ta thậm chí còn để bản thân các quy tắc được suy ra từ dữ liệu. Tuy nhiên, các mẫu được học bởi những hệ thống này là mờ đục: ngay cả khi có một số mối tương quan trong dữ liệu, chúng ta có thể không biết tại sao. Nếu có một sự thiên vị có hệ thống trong dữ liệu đầu vào của một thuật toán, hệ thống rất có thể sẽ học và khuếch đại sự thiên vị đó trong kết quả đầu ra của nó 12.

Ở nhiều quốc gia, luật chống phân biệt đối xử cấm đối xử khác nhau với mọi người tùy thuộc vào các đặc điểm được bảo vệ như sắc tộc, tuổi tác, giới tính, tính dục, khuyết tật hoặc tín ngưỡng. Các đặc điểm khác trong dữ liệu của một người có thể được phân tích, nhưng điều gì xảy ra nếu chúng tương quan với các đặc điểm được bảo vệ? Ví dụ, trong các khu vực phân ly chủng tộc, mã bưu chính hay thậm chí địa chỉ IP của một người là yếu tố dự đoán mạnh về chủng tộc. Nói như vậy, có vẻ vô lý khi tin rằng một thuật toán có thể bằng cách nào đó lấy dữ liệu có thiên vị làm đầu vào và tạo ra kết quả đầu ra công bằng và vô tư từ đó 13, 14. Tuy nhiên, niềm tin này thường có vẻ được ngụ ý bởi những người ủng hộ việc ra quyết định dựa trên dữ liệu, một thái độ đã bị châm biếm là “machine learning giống như rửa tiền cho sự thiên vị” 15.

Các hệ thống phân tích dự đoán chỉ đơn thuần ngoại suy từ quá khứ; nếu quá khứ mang tính phân biệt đối xử, chúng pháp điển hóa và khuếch đại sự phân biệt đối xử đó 16. Nếu chúng ta muốn tương lai tốt hơn quá khứ, cần có trí tưởng tượng đạo đức, và đó là điều chỉ con người mới có thể cung cấp 17. Dữ liệu và mô hình nên là công cụ của chúng ta, không phải chủ nhân của chúng ta.

Trách nhiệm và Giải trình (Responsibility and Accountability)

Việc ra quyết định tự động đặt ra câu hỏi về trách nhiệm và giải trình 17. Nếu một người mắc sai lầm, họ có thể bị quy trách nhiệm, và người bị ảnh hưởng bởi quyết định có thể kháng cáo. Thuật toán cũng mắc lỗi, nhưng ai chịu trách nhiệm nếu chúng đi sai 18? Khi xe tự lái gây ra tai nạn, ai chịu trách nhiệm? Nếu thuật toán tính điểm tín dụng tự động phân biệt đối xử một cách có hệ thống chống lại những người thuộc một chủng tộc hay tôn giáo cụ thể, có biện pháp khắc phục nào không? Nếu một quyết định của hệ thống machine learning của bạn bị xem xét tư pháp, bạn có thể giải thích cho thẩm phán cách thuật toán đưa ra quyết định của mình không? Người ta không nên có thể trốn tránh trách nhiệm của mình bằng cách đổ lỗi cho một thuật toán.

Các cơ quan xếp hạng tín dụng là một ví dụ cũ về việc thu thập dữ liệu để đưa ra quyết định về con người. Điểm tín dụng xấu khiến cuộc sống trở nên khó khăn, nhưng ít nhất điểm tín dụng thường dựa trên các sự kiện liên quan đến lịch sử vay mượn thực tế của một người, và bất kỳ lỗi nào trong hồ sơ có thể được sửa chữa (mặc dù các cơ quan thường không tạo điều kiện dễ dàng cho việc này). Tuy nhiên, các thuật toán tính điểm dựa trên machine learning thường sử dụng phạm vi đầu vào rộng hơn nhiều và mờ đục hơn nhiều, khiến việc hiểu cách một quyết định cụ thể được hình thành và liệu ai đó có đang bị đối xử theo cách không công bằng hay phân biệt đối xử trở nên khó khăn hơn 19.

Điểm tín dụng tóm tắt “Bạn đã cư xử như thế nào trong quá khứ?” trong khi phân tích dự đoán thường hoạt động trên cơ sở “Ai giống bạn, và những người như bạn đã cư xử như thế nào trong quá khứ?” Việc rút ra sự song song với hành vi của người khác ngụ ý việc rập khuôn con người, ví dụ dựa trên nơi họ sống (một đại diện gần gũi cho chủng tộc và tầng lớp kinh tế xã hội). Còn những người bị xếp vào nhóm sai thì sao? Hơn nữa, nếu một quyết định không chính xác do dữ liệu sai, biện pháp khắc phục gần như không thể 17.

Phần lớn dữ liệu có bản chất thống kê, có nghĩa là ngay cả khi phân phối xác suất tổng thể là đúng, các trường hợp riêng lẻ hoàn toàn có thể sai. Ví dụ, nếu tuổi thọ trung bình ở quốc gia của bạn là 80 tuổi, điều đó không có nghĩa là bạn được kỳ vọng sẽ chết vào ngày sinh nhật thứ 80. Từ giá trị trung bình và phân phối xác suất, bạn không thể nói nhiều về tuổi thọ của một người cụ thể. Tương tự, kết quả đầu ra của một hệ thống dự đoán là xác suất và có thể sai trong các trường hợp riêng lẻ.

Niềm tin mù quáng vào sự ưu việt của dữ liệu trong việc ra quyết định không chỉ là ảo tưởng, mà còn thực sự nguy hiểm. Khi việc ra quyết định dựa trên dữ liệu trở nên phổ biến hơn, chúng ta sẽ cần tìm ra cách làm cho các thuật toán có trách nhiệm giải trình và minh bạch, cách tránh củng cố các thiên vị hiện có, và cách khắc phục chúng khi chúng không thể tránh khỏi mắc lỗi.

Chúng ta cũng sẽ cần tìm ra cách ngăn chặn dữ liệu bị sử dụng để gây hại cho con người, và thay vào đó hiện thực hóa tiềm năng tích cực của nó. Ví dụ, phân tích có thể tiết lộ các đặc điểm tài chính và xã hội trong cuộc sống của mọi người. Một mặt, sức mạnh này có thể được sử dụng để tập trung viện trợ và hỗ trợ để giúp những người cần nó nhất. Mặt khác, đôi khi nó được sử dụng bởi các doanh nghiệp săn mồi tìm cách xác định những người dễ bị tổn thương và bán cho họ các sản phẩm rủi ro như khoản vay lãi suất cao và bằng cấp đại học vô giá trị 17, 20.

Vòng phản hồi (Feedback Loops)

Ngay cả với các ứng dụng dự đoán có ít tác động tức thì và rộng lớn đến con người hơn, chẳng hạn như hệ thống gợi ý, vẫn có những vấn đề khó khăn mà chúng ta phải đối mặt. Khi các dịch vụ trở nên giỏi dự đoán nội dung mà người dùng muốn xem, họ có thể chỉ hiển thị cho mọi người những ý kiến mà họ đã đồng ý, dẫn đến buồng vang (echo chambers) trong đó các khuôn mẫu, thông tin sai lệch và sự phân cực có thể sinh sôi. Chúng ta đã thấy tác động của các buồng vang mạng xã hội đối với các chiến dịch bầu cử.

Khi phân tích dự đoán ảnh hưởng đến cuộc sống của mọi người, các vấn đề đặc biệt độc hại phát sinh do vòng phản hồi tự củng cố. Ví dụ, hãy xem xét trường hợp các nhà tuyển dụng sử dụng điểm tín dụng để đánh giá những ứng viên tiềm năng. Bạn có thể là một người làm việc tốt với điểm tín dụng tốt, nhưng đột nhiên thấy mình gặp khó khăn tài chính do một bất hạnh ngoài tầm kiểm soát của bạn. Khi bạn trễ thanh toán hóa đơn, điểm tín dụng của bạn giảm sút, và bạn sẽ ít có khả năng tìm được việc làm hơn. Thất nghiệp đẩy bạn đến nghèo đói, điều này càng làm xấu thêm điểm số của bạn, khiến việc tìm việc làm càng khó hơn 17. Đó là vòng xoáy đi xuống do những giả định độc hại, ẩn sau lớp ngụy trang của sự nghiêm ngặt toán học và dữ liệu.

Là một ví dụ khác về vòng phản hồi, các nhà kinh tế học phát hiện rằng khi các trạm xăng ở Đức áp dụng giá theo thuật toán, cạnh tranh giảm và giá cho người tiêu dùng tăng lên bởi vì các thuật toán đã học cách thông đồng 21.

Chúng ta không thể luôn dự đoán khi nào những vòng phản hồi như vậy xảy ra. Tuy nhiên, nhiều hậu quả có thể được dự đoán bằng cách suy nghĩ về toàn bộ hệ thống (không chỉ các phần vi tính hóa, mà còn những người tương tác với nó) - một cách tiếp cận được gọi là tư duy hệ thống (systems thinking) 22. Chúng ta có thể cố gắng hiểu cách một hệ thống phân tích dữ liệu phản ứng với các hành vi, cấu trúc hoặc đặc điểm khác nhau. Hệ thống có củng cố và khuếch đại những khác biệt hiện có giữa mọi người không (ví dụ: làm người giàu giàu hơn hay người nghèo nghèo hơn), hay nó cố gắng chống lại bất công? Và ngay cả với những ý định tốt nhất, chúng ta phải cẩn thận với những hậu quả ngoài ý muốn.

Quyền riêng tư và Theo dõi (Privacy and Tracking)

Ngoài các vấn đề của phân tích dự đoán - tức là, sử dụng dữ liệu để đưa ra quyết định tự động về con người - còn có các vấn đề đạo đức với việc thu thập dữ liệu tự nó. Mối quan hệ giữa các tổ chức thu thập dữ liệu và những người có dữ liệu đang được thu thập là gì?

Khi một hệ thống chỉ lưu trữ dữ liệu mà người dùng đã nhập một cách rõ ràng, vì họ muốn hệ thống lưu trữ và xử lý nó theo một cách nhất định, hệ thống đang thực hiện dịch vụ cho người dùng: người dùng là khách hàng. Nhưng khi hoạt động của người dùng được theo dõi và ghi lại như một tác dụng phụ của những thứ khác họ đang làm, mối quan hệ trở nên ít rõ ràng hơn. Dịch vụ không còn chỉ làm những gì người dùng yêu cầu nó làm, mà nó còn có những lợi ích riêng của mình, có thể xung đột với lợi ích của người dùng.

Theo dõi dữ liệu hành vi đã trở nên ngày càng quan trọng đối với các tính năng hướng đến người dùng của nhiều dịch vụ trực tuyến: theo dõi kết quả tìm kiếm nào được nhấp vào giúp cải thiện xếp hạng kết quả tìm kiếm; gợi ý “những người thích X cũng thích Y” giúp người dùng khám phá những thứ thú vị và hữu ích; A/B test và phân tích luồng người dùng có thể giúp chỉ ra cách giao diện người dùng có thể được cải thiện. Những tính năng đó đòi hỏi một số lượng theo dõi hành vi người dùng, và người dùng được hưởng lợi từ chúng.

Tuy nhiên, tùy thuộc vào mô hình kinh doanh của một công ty, việc theo dõi thường không dừng lại ở đó. Nếu dịch vụ được tài trợ thông qua quảng cáo, các nhà quảng cáo là khách hàng thực sự, và lợi ích của người dùng đứng ở vị trí thứ hai. Dữ liệu theo dõi trở nên chi tiết hơn, các phân tích trở nên có tầm với xa hơn, và dữ liệu được giữ lại trong thời gian dài để xây dựng hồ sơ chi tiết về từng người cho mục đích tiếp thị.

Bây giờ mối quan hệ giữa công ty và người dùng có dữ liệu đang được thu thập bắt đầu trông khá khác. Người dùng được cung cấp dịch vụ miễn phí và bị thuyết phục tương tác với nó nhiều nhất có thể. Việc theo dõi người dùng không phục vụ chủ yếu cho cá nhân đó, mà thay vào đó là nhu cầu của các nhà quảng cáo đang tài trợ cho dịch vụ. Mối quan hệ này có thể được mô tả một cách thích hợp bằng một từ có nghĩa hơn: giám sát (surveillance).

Giám sát (Surveillance)

Như một thí nghiệm tư duy, hãy thử thay thế từ dữ liệu bằng giám sát, và quan sát xem các cụm từ phổ biến còn nghe hay không 23. Hãy thử: “Trong tổ chức định hướng giám sát của chúng tôi, chúng tôi thu thập các luồng giám sát thời gian thực và lưu trữ chúng trong kho giám sát của chúng tôi. Các nhà khoa học giám sát của chúng tôi sử dụng phân tích nâng cao và xử lý giám sát để rút ra những hiểu biết mới.”

Thí nghiệm tư duy này khá tranh luận hơn so với phần còn lại của cuốn sách này, Thiết kế Ứng dụng Chuyên sâu về Giám sát, nhưng những từ mạnh mẽ là cần thiết để nhấn mạnh điểm này. Trong những nỗ lực làm cho phần mềm “ăn thế giới” 24, chúng ta đã xây dựng cơ sở hạ tầng giám sát đại trà lớn nhất mà thế giới từng thấy. Chúng ta đang nhanh chóng tiến đến một thế giới trong đó mỗi không gian có người ở đều chứa ít nhất một micrô kết nối internet, dưới dạng điện thoại thông minh, TV thông minh, thiết bị trợ lý điều khiển bằng giọng nói, máy theo dõi em bé, và thậm chí đồ chơi của trẻ em sử dụng nhận dạng giọng nói dựa trên đám mây. Nhiều thiết bị trong số này có hồ sơ bảo mật rất tệ 25.

Điều mới so với quá khứ là số hóa đã làm cho việc thu thập lượng lớn dữ liệu về con người trở nên dễ dàng. Giám sát vị trí và chuyển động của chúng ta, các mối quan hệ xã hội và giao tiếp, mua sắm và thanh toán, và dữ liệu về sức khỏe của chúng ta gần như không thể tránh khỏi. Một tổ chức giám sát có thể biết nhiều hơn về một người so với chính người đó biết về bản thân - ví dụ, xác định các bệnh tật hay vấn đề kinh tế trước khi bản thân người đó nhận ra.

Ngay cả những chế độ độc tài và đàn áp nhất trong quá khứ cũng chỉ có thể mơ về việc đặt micrô vào mọi phòng và buộc mỗi người phải liên tục mang theo một thiết bị có khả năng theo dõi vị trí và chuyển động của họ. Tuy nhiên, những lợi ích mà chúng ta có được từ công nghệ số lại lớn đến mức chúng ta giờ đây tự nguyện chấp nhận thế giới giám sát toàn diện này. Sự khác biệt chỉ là dữ liệu đang được thu thập bởi các tập đoàn để cung cấp dịch vụ cho chúng ta, thay vì các cơ quan chính phủ tìm kiếm quyền kiểm soát 26.

Không phải tất cả việc thu thập dữ liệu đều nhất thiết đủ tiêu chuẩn là giám sát, nhưng xem xét nó như vậy có thể giúp chúng ta hiểu mối quan hệ của mình với người thu thập dữ liệu. Tại sao chúng ta có vẻ sẵn sàng chấp nhận giám sát bởi các tập đoàn? Có lẽ bạn cảm thấy mình không có gì để giấu - nói cách khác, bạn hoàn toàn phù hợp với các cấu trúc quyền lực hiện có, bạn không phải là thiểu số bị gạt ra ngoài lề, và bạn không cần sợ bị truy đuổi 27. Không phải ai cũng may mắn như vậy. Hoặc có lẽ vì mục đích có vẻ lành mạnh - không phải là sự ép buộc và tuân thủ công khai, mà chỉ là gợi ý tốt hơn và tiếp thị cá nhân hóa hơn. Tuy nhiên, kết hợp với cuộc thảo luận về phân tích dự đoán từ phần trước, sự phân biệt đó trở nên ít rõ ràng hơn.

Chúng ta đã thấy dữ liệu hành vi lái xe, được theo dõi bởi xe mà không có sự đồng ý của lái xe, ảnh hưởng đến phí bảo hiểm của họ 28, và bảo hiểm sức khỏe phụ thuộc vào việc mọi người đeo thiết bị theo dõi thể dục. Khi giám sát được sử dụng để xác định những thứ có ảnh hưởng đến các khía cạnh quan trọng của cuộc sống, chẳng hạn như bảo hiểm hay việc làm, nó bắt đầu có vẻ ít lành mạnh hơn. Hơn nữa, phân tích dữ liệu có thể tiết lộ những thứ đáng ngạc nhiên mang tính xâm phạm: ví dụ, cảm biến chuyển động trong đồng hồ thông minh hay thiết bị theo dõi thể dục có thể được sử dụng để tìm ra những gì bạn đang gõ (ví dụ: mật khẩu) với độ chính xác khá tốt 29. Độ chính xác của cảm biến và thuật toán phân tích chỉ sẽ ngày càng tốt hơn.

Sự đồng thuận và Tự do lựa chọn (Consent and Freedom of Choice)

Chúng ta có thể khẳng định rằng người dùng tự nguyện chọn sử dụng dịch vụ theo dõi hoạt động của họ, và họ đã đồng ý với các điều khoản dịch vụ và chính sách quyền riêng tư, vì vậy họ đồng ý với việc thu thập dữ liệu. Chúng ta thậm chí có thể tuyên bố rằng người dùng đang nhận được dịch vụ có giá trị đổi lại cho dữ liệu họ cung cấp, và rằng việc theo dõi là cần thiết để cung cấp dịch vụ. Chắc chắn, mạng xã hội, công cụ tìm kiếm và các dịch vụ trực tuyến miễn phí khác có giá trị đối với người dùng - nhưng có những vấn đề với lập luận này.

Thứ nhất, chúng ta nên hỏi theo cách nào thì việc theo dõi là cần thiết. Một số hình thức theo dõi trực tiếp đóng góp vào việc cải thiện tính năng cho người dùng: ví dụ, theo dõi tỷ lệ nhấp vào kết quả tìm kiếm có thể giúp cải thiện xếp hạng và mức độ liên quan của kết quả tìm kiếm, và theo dõi sản phẩm nào khách hàng có xu hướng mua cùng nhau có thể giúp cửa hàng trực tuyến gợi ý sản phẩm liên quan. Tuy nhiên, khi theo dõi tương tác người dùng để gợi ý nội dung, hoặc để xây dựng hồ sơ người dùng cho mục đích quảng cáo, không rõ liệu điều này có thực sự vì lợi ích của người dùng hay không - hay chỉ là cần thiết vì quảng cáo trả tiền cho dịch vụ?

Thứ hai, người dùng có rất ít kiến thức về dữ liệu nào họ đang đưa vào cơ sở dữ liệu của chúng ta, hoặc cách nó được lưu giữ và xử lý - và hầu hết các chính sách quyền riêng tư làm nhiều hơn để che khuất hơn là làm sáng tỏ. Không hiểu điều gì xảy ra với dữ liệu của họ, người dùng không thể đưa ra bất kỳ sự đồng thuận có ý nghĩa nào. Thường xuyên, dữ liệu từ một người dùng cũng nói về những người khác không phải là người dùng của dịch vụ và chưa đồng ý với bất kỳ điều khoản nào. Các tập dữ liệu dẫn xuất mà chúng ta đã thảo luận trong phần này của cuốn sách - trong đó dữ liệu từ toàn bộ cơ sở người dùng có thể đã được kết hợp với theo dõi hành vi và nguồn dữ liệu bên ngoài - chính xác là loại dữ liệu mà người dùng không thể có bất kỳ sự hiểu biết có ý nghĩa nào.

Hơn nữa, dữ liệu được trích xuất từ người dùng thông qua một quá trình một chiều, không phải là mối quan hệ có sự có qua có lại thực sự, và không phải là trao đổi giá trị công bằng. Không có đối thoại, không có tùy chọn cho người dùng thương lượng về lượng dữ liệu họ cung cấp và dịch vụ họ nhận lại: mối quan hệ giữa dịch vụ và người dùng rất bất đối xứng và một chiều. Các điều khoản được đặt ra bởi dịch vụ, không phải bởi người dùng 30, 31.

Tại Liên minh Châu Âu, Quy định Bảo vệ Dữ liệu Chung (General Data Protection Regulation - GDPR) yêu cầu sự đồng thuận phải “được trao tự do, cụ thể, có thông tin và không mơ hồ”, và người dùng phải có thể “từ chối hoặc rút lại sự đồng thuận mà không bị thiệt hại” - nếu không thì không được coi là “trao tự do”. Bất kỳ yêu cầu đồng thuận nào phải được viết “dưới dạng dễ hiểu và dễ tiếp cận, sử dụng ngôn ngữ rõ ràng và đơn giản”. Hơn nữa, “im lặng, các hộp được đánh dấu sẵn hoặc không hành động không cấu thành sự đồng thuận” 32. Có các cơ sở khác cho việc xử lý dữ liệu cá nhân hợp pháp bên cạnh sự đồng thuận, chẳng hạn như lợi ích chính đáng (legitimate interest), cho phép một số sử dụng dữ liệu nhất định như phòng chống gian lận 33.

Bạn có thể lập luận rằng người dùng không đồng ý với việc giám sát có thể chỉ đơn giản là chọn không sử dụng dịch vụ. Nhưng sự lựa chọn này cũng không tự do: nếu một dịch vụ quá phổ biến đến mức nó “được hầu hết mọi người coi là thiết yếu cho sự tham gia xã hội cơ bản” 30, thì không hợp lý khi kỳ vọng mọi người từ chối dịch vụ này - sử dụng nó là bắt buộc trên thực tế. Ví dụ, ở hầu hết các cộng đồng xã hội phương Tây, mang theo điện thoại thông minh, sử dụng mạng xã hội để giao lưu, và sử dụng Google để tìm kiếm thông tin đã trở thành chuẩn mực. Đặc biệt khi một dịch vụ có hiệu ứng mạng, có chi phí xã hội cho những người chọn không sử dụng nó.

Từ chối sử dụng dịch vụ do chính sách theo dõi người dùng của nó dễ nói hơn làm. Các nền tảng này được thiết kế đặc biệt để thu hút người dùng. Nhiều nền tảng sử dụng cơ chế trò chơi và chiến thuật phổ biến trong cờ bạc để giữ người dùng quay lại 34. Ngay cả khi người dùng vượt qua được điều này, từ chối tham gia chỉ là một lựa chọn cho số ít người có đặc quyền đủ thời gian và kiến thức để hiểu chính sách quyền riêng tư của nó, và có thể chấp nhận tiềm năng bỏ lỡ sự tham gia xã hội hay cơ hội nghề nghiệp có thể đã phát sinh nếu họ đã tham gia dịch vụ. Đối với những người ở vị thế ít đặc quyền hơn, không có sự tự do lựa chọn có ý nghĩa: giám sát trở nên không thể thoát khỏi.

Quyền riêng tư và Sử dụng Dữ liệu (Privacy and Use of Data)

Đôi khi mọi người tuyên bố rằng “quyền riêng tư đã chết” với lý do một số người dùng sẵn sàng đăng đủ loại thứ về cuộc sống của họ lên mạng xã hội, đôi khi là bình thường và đôi khi là sâu sắc cá nhân. Tuy nhiên, tuyên bố này là sai và dựa trên sự hiểu lầm về từ quyền riêng tư.

Có quyền riêng tư không có nghĩa là giữ mọi thứ bí mật; nó có nghĩa là có tự do lựa chọn những gì tiết lộ cho ai, những gì công khai, và những gì giữ bí mật. Quyền đối với quyền riêng tư là quyền quyết định: nó cho phép mỗi người quyết định họ muốn ở đâu trên phổ giữa bí mật và minh bạch trong mỗi tình huống 30. Đó là một khía cạnh quan trọng của tự do và quyền tự chủ của một người.

Ví dụ, ai đó mắc một bệnh hiếm gặp có thể rất vui lòng cung cấp dữ liệu y tế cá nhân của họ cho các nhà nghiên cứu nếu có cơ hội giúp phát triển các phương pháp điều trị cho tình trạng của họ. Tuy nhiên, điều quan trọng là người này có quyền lựa chọn ai có thể truy cập dữ liệu này và vì mục đích gì. Nếu có rủi ro rằng thông tin về tình trạng y tế của họ sẽ gây hại cho quyền tiếp cận bảo hiểm y tế hay việc làm hay những thứ quan trọng khác, người này có thể sẽ thận trọng hơn nhiều khi chia sẻ dữ liệu của họ.

Khi dữ liệu được trích xuất từ người thông qua cơ sở hạ tầng giám sát, quyền riêng tư không nhất thiết bị xói mòn, mà được chuyển cho người thu thập dữ liệu. Các công ty thu thập dữ liệu về cơ bản nói “hãy tin tưởng chúng tôi để làm điều đúng đắn với dữ liệu của bạn”, có nghĩa là quyền quyết định những gì tiết lộ và những gì giữ bí mật được chuyển từ cá nhân sang công ty.

Các công ty lần lượt chọn giữ phần lớn kết quả của việc giám sát này bí mật, vì tiết lộ nó sẽ bị coi là đáng sợ và sẽ gây hại cho mô hình kinh doanh của họ (vốn dựa vào việc biết nhiều hơn về mọi người so với các công ty khác). Thông tin thân mật về người dùng chỉ được tiết lộ gián tiếp, ví dụ dưới dạng công cụ nhắm mục tiêu quảng cáo đến các nhóm người cụ thể (chẳng hạn như những người mắc một bệnh cụ thể).

Ngay cả khi người dùng cụ thể không thể được nhận dạng lại từ nhóm người được nhắm mục tiêu bởi một quảng cáo cụ thể, họ đã mất quyền tự chủ về việc tiết lộ một số thông tin thân mật. Không phải người dùng quyết định những gì được tiết lộ cho ai dựa trên sở thích cá nhân của họ - mà là công ty thực hiện quyền riêng tư với mục tiêu tối đa hóa lợi nhuận của mình.

Nhiều công ty có mục tiêu không bị coi là đáng sợ - tránh câu hỏi về mức độ xâm phạm thực sự của việc thu thập dữ liệu của họ, và thay vào đó tập trung vào quản lý nhận thức của người dùng. Và ngay cả những nhận thức này thường được quản lý kém: ví dụ, điều gì đó có thể đúng về mặt thực tế, nhưng nếu nó gợi lên những ký ức đau đớn, người dùng có thể không muốn được nhắc nhở về nó 35. Với bất kỳ loại dữ liệu nào, chúng ta nên kỳ vọng khả năng nó sai, không mong muốn, hoặc không phù hợp theo một cách nào đó, và chúng ta cần xây dựng các cơ chế để xử lý những thất bại đó. Liệu điều gì đó có “không mong muốn” hay “không phù hợp” tất nhiên phụ thuộc vào phán đoán của con người; các thuật toán không biết về những khái niệm như vậy trừ khi chúng ta rõ ràng lập trình chúng để tôn trọng nhu cầu của con người. Là các kỹ sư của những hệ thống này, chúng ta phải khiêm tốn, chấp nhận và lên kế hoạch cho những thất bại như vậy.

Cài đặt quyền riêng tư cho phép người dùng dịch vụ trực tuyến kiểm soát khía cạnh nào trong dữ liệu của họ mà người dùng khác có thể thấy là điểm khởi đầu để trao lại một số quyền kiểm soát cho người dùng. Tuy nhiên, bất kể cài đặt là gì, bản thân dịch vụ vẫn có quyền truy cập không hạn chế vào dữ liệu, và được tự do sử dụng nó theo bất kỳ cách nào được cho phép bởi chính sách quyền riêng tư. Ngay cả khi dịch vụ hứa không bán dữ liệu cho bên thứ ba, nó thường tự cấp quyền không hạn chế để xử lý và phân tích dữ liệu nội bộ, thường đi xa hơn nhiều so với những gì được hiển thị công khai cho người dùng.

Loại chuyển giao quyền riêng tư quy mô lớn từ cá nhân sang tập đoàn như thế này là chưa từng có trong lịch sử 30. Giám sát luôn tồn tại, nhưng trước đây nó đắt tiền và thủ công, không thể mở rộng và tự động. Các mối quan hệ tin cậy luôn tồn tại, ví dụ giữa bệnh nhân và bác sĩ của họ, hoặc giữa bị cáo và luật sư của họ - nhưng trong những trường hợp này, việc sử dụng dữ liệu đã được quản lý chặt chẽ bởi các ràng buộc đạo đức, pháp lý và quy định. Các dịch vụ internet đã làm cho việc tích lũy lượng lớn thông tin nhạy cảm mà không có sự đồng thuận có ý nghĩa trở nên dễ dàng hơn nhiều, và sử dụng nó ở quy mô lớn mà người dùng không hiểu điều gì đang xảy ra với dữ liệu cá nhân của họ.

Dữ liệu như Tài sản và Quyền lực (Data as Assets and Power)

Vì dữ liệu hành vi là sản phẩm phụ của người dùng tương tác với dịch vụ, đôi khi nó được gọi là “khí thải dữ liệu” (data exhaust) - gợi ý rằng dữ liệu là chất thải không có giá trị. Nhìn theo cách này, phân tích hành vi và dự đoán có thể được coi là một hình thức tái chế trích xuất giá trị từ dữ liệu mà lẽ ra đã bị loại bỏ.

Chính xác hơn là nhìn theo chiều ngược lại: từ góc độ kinh tế, nếu quảng cáo có mục tiêu là thứ trả tiền cho một dịch vụ, thì hoạt động của người dùng tạo ra dữ liệu hành vi có thể được coi là một hình thức lao động 36. Có thể đi xa hơn và lập luận rằng ứng dụng mà người dùng tương tác chỉ là phương tiện để dụ người dùng đưa ngày càng nhiều thông tin cá nhân hơn vào cơ sở hạ tầng giám sát 30. Sự sáng tạo và các mối quan hệ xã hội thú vị của con người thường được biểu hiện trong các dịch vụ trực tuyến bị máy thu thập dữ liệu khai thác một cách đạo đức giả.

Dữ liệu cá nhân là một tài sản có giá trị, như được chứng minh bởi sự tồn tại của các nhà môi giới dữ liệu (data brokers), một ngành công nghiệp mờ ám hoạt động trong bí mật, mua, tổng hợp, phân tích, suy luận và bán lại dữ liệu cá nhân xâm phạm về mọi người, chủ yếu cho mục đích tiếp thị 20. Các công ty khởi nghiệp được định giá theo số lượng người dùng của họ, theo “nhãn cầu” - tức là theo khả năng giám sát của họ.

Vì dữ liệu có giá trị, nhiều người muốn có nó. Tất nhiên các công ty muốn nó - đó là lý do tại sao họ thu thập nó ngay từ đầu. Nhưng các chính phủ cũng muốn có được nó: bằng cách thỏa thuận bí mật, ép buộc, bắt buộc pháp lý, hoặc đơn giản là đánh cắp nó 37. Khi một công ty phá sản, dữ liệu cá nhân mà công ty đã thu thập là một trong những tài sản được bán. Hơn nữa, dữ liệu khó bảo mật, vì vậy các vi phạm xảy ra thường xuyên đến mức đáng lo ngại.

Những quan sát này đã khiến các nhà phê bình nói rằng dữ liệu không chỉ là tài sản, mà là “tài sản độc hại” (toxic asset) 37, hoặc ít nhất là “vật liệu nguy hiểm” (hazardous material) 38. Có lẽ dữ liệu không phải là vàng mới, cũng không phải là dầu mới, mà là uranium mới 39. Ngay cả khi chúng ta nghĩ rằng mình có khả năng ngăn chặn việc lạm dụng dữ liệu, bất cứ khi nào chúng ta thu thập dữ liệu, chúng ta cần cân bằng lợi ích với rủi ro bị rơi vào tay sai: hệ thống máy tính có thể bị xâm phạm bởi tội phạm hay các cơ quan tình báo nước ngoài thù địch, dữ liệu có thể bị rò rỉ bởi người bên trong, công ty có thể rơi vào tay ban quản lý vô đạo đức không chia sẻ giá trị của chúng ta, hoặc đất nước có thể bị chiếm bởi một chế độ không có vấn đề gì khi ép buộc chúng ta giao nộp dữ liệu.

Khi thu thập dữ liệu, chúng ta cần xem xét không chỉ môi trường chính trị ngày nay, mà tất cả các chính phủ tương lai có thể có. Không có gì đảm bảo rằng mọi chính phủ được bầu trong tương lai sẽ tôn trọng quyền con người và tự do dân sự, vì vậy “việc cài đặt các công nghệ có thể một ngày nào đó tạo điều kiện cho nhà nước cảnh sát là vệ sinh công dân kém” 40.

“Kiến thức là quyền lực,” như câu ngạn ngữ cũ nói. Và hơn nữa, “kiểm soát người khác trong khi tránh bị kiểm soát bản thân là một trong những hình thức quyền lực quan trọng nhất” 41. Đó là lý do tại sao các chính phủ độc tài muốn giám sát: nó cho họ quyền lực kiểm soát dân số. Mặc dù các công ty công nghệ ngày nay không công khai tìm kiếm quyền lực chính trị, dữ liệu và kiến thức họ đã tích lũy vẫn cho họ rất nhiều quyền lực đối với cuộc sống của chúng ta, phần lớn là bí mật, ngoài tầm giám sát công khai 42.

Nhớ lại Cách mạng Công nghiệp (Remembering the Industrial Revolution)

Dữ liệu là đặc trưng xác định của thời đại thông tin. Internet, lưu trữ dữ liệu, xử lý và tự động hóa dựa trên phần mềm đang có tác động lớn đến nền kinh tế toàn cầu và xã hội loài người. Khi cuộc sống hàng ngày và tổ chức xã hội của chúng ta đã bị thay đổi bởi công nghệ thông tin, và có thể sẽ tiếp tục thay đổi căn bản trong những thập kỷ tới, sự so sánh với Cách mạng Công nghiệp hiện ra trong tâm trí 17, 26.

Cách mạng Công nghiệp nảy sinh từ những tiến bộ công nghệ và nông nghiệp lớn, và nó mang lại tăng trưởng kinh tế bền vững và cải thiện đáng kể mức sống về lâu dài. Tuy nhiên, nó cũng đi kèm với những vấn đề lớn: ô nhiễm không khí (do khói và các quy trình hóa học) và nước (từ chất thải công nghiệp và con người) rất tệ hại. Chủ nhà máy sống trong xa hoa, trong khi người lao động đô thị thường sống trong nhà ở rất tồi tàn và làm việc nhiều giờ trong điều kiện khắc nghiệt. Lao động trẻ em phổ biến, bao gồm công việc nguy hiểm và trả lương thấp trong các mỏ.

Phải mất một thời gian dài trước khi các biện pháp bảo vệ được thiết lập, chẳng hạn như các quy định bảo vệ môi trường, quy trình an toàn cho nơi làm việc, cấm lao động trẻ em, và kiểm tra vệ sinh thực phẩm. Chắc chắn chi phí kinh doanh tăng lên khi các nhà máy không còn được phép đổ chất thải vào sông, bán thực phẩm nhiễm độc, hay bóc lột người lao động. Nhưng xã hội nói chung đã được hưởng lợi rất lớn từ những quy định này, và ít ai trong chúng ta muốn quay trở lại thời trước đó 17.

Cũng như Cách mạng Công nghiệp có mặt tối cần được quản lý, quá trình chuyển đổi của chúng ta sang thời đại thông tin có những vấn đề lớn mà chúng ta cần đối mặt và giải quyết 43, 44. Việc thu thập và sử dụng dữ liệu là một trong những vấn đề đó. Theo lời của Bruce Schneier 26:

Dữ liệu là vấn đề ô nhiễm của thời đại thông tin, và bảo vệ quyền riêng tư là thách thức môi trường. Hầu hết tất cả các máy tính đều tạo ra thông tin. Nó vẫn còn đó, thối rữa. Cách chúng ta xử lý nó - cách chúng ta ngăn chặn nó và cách chúng ta loại bỏ nó - là trung tâm của sức khỏe nền kinh tế thông tin của chúng ta. Cũng như ngày nay chúng ta nhìn lại những thập kỷ đầu của thời đại công nghiệp và tự hỏi tổ tiên của chúng ta đã có thể bỏ qua ô nhiễm trong cuộc chạy đua xây dựng thế giới công nghiệp như thế nào, cháu của chúng ta sẽ nhìn lại chúng ta trong những thập kỷ đầu của thời đại thông tin này và đánh giá chúng ta về cách chúng ta đối phó với thách thức thu thập và lạm dụng dữ liệu.

Chúng ta nên cố gắng làm cho họ tự hào.

Luật pháp và Tự điều tiết (Legislation and Self-Regulation)

Các luật bảo vệ dữ liệu có thể giúp bảo vệ quyền của cá nhân. Ví dụ, GDPR châu Âu quy định rằng dữ liệu cá nhân phải được “thu thập cho các mục đích được chỉ định, rõ ràng và hợp pháp và không được xử lý thêm theo cách không tương thích với các mục đích đó”, và hơn nữa dữ liệu phải “đầy đủ, phù hợp và giới hạn ở những gì cần thiết liên quan đến các mục đích mà chúng được xử lý” 32.

Tuy nhiên, nguyên tắc tối giản hóa dữ liệu (data minimization) này đi ngược trực tiếp với triết lý của Big Data, vốn là tối đa hóa việc thu thập dữ liệu, kết hợp nó với các tập dữ liệu khác, thử nghiệm và khám phá để tạo ra những hiểu biết mới. Khám phá có nghĩa là sử dụng dữ liệu cho các mục đích chưa được dự kiến, đây là điều ngược lại với các mục đích “được chỉ định và rõ ràng” mà dữ liệu phải được thu thập. Mặc dù GDPR đã có một số tác động đối với ngành quảng cáo trực tuyến 45, quy định đã được thực thi yếu 46, và nó dường như chưa dẫn đến nhiều thay đổi trong văn hóa và thực hành trên toàn ngành công nghệ rộng hơn.

Các công ty thu thập nhiều dữ liệu về mọi người phản đối việc điều tiết như một gánh nặng và trở ngại cho đổi mới. Đến một mức độ nào đó, sự phản đối đó là chính đáng. Ví dụ, khi chia sẻ dữ liệu y tế, có những rủi ro rõ ràng đối với quyền riêng tư, nhưng cũng có những cơ hội tiềm năng: có bao nhiêu cái chết có thể được ngăn chặn nếu phân tích dữ liệu có thể giúp chúng ta đạt được chẩn đoán tốt hơn hay tìm ra phương pháp điều trị tốt hơn 47? Quy định quá mức có thể ngăn chặn những đột phá như vậy. Việc cân bằng những cơ hội tiềm năng như vậy với các rủi ro là khó khăn 41.

Về cơ bản, chúng ta cần một sự thay đổi văn hóa trong ngành công nghệ liên quan đến dữ liệu cá nhân. Chúng ta nên ngừng coi người dùng là các chỉ số cần tối ưu hóa, và nhớ rằng họ là con người xứng đáng được tôn trọng, phẩm giá và quyền tự chủ. Chúng ta nên tự điều tiết các hoạt động thu thập và xử lý dữ liệu của mình để thiết lập và duy trì sự tin tưởng của những người phụ thuộc vào phần mềm của chúng ta 48. Và chúng ta nên tự đảm nhận việc giáo dục người dùng cuối về cách dữ liệu của họ được sử dụng, thay vì giữ họ trong bóng tối.

Chúng ta nên cho phép mỗi cá nhân duy trì quyền riêng tư của họ - tức là quyền kiểm soát dữ liệu của bản thân - và không đánh cắp quyền kiểm soát đó từ họ thông qua giám sát. Quyền cá nhân của chúng ta để kiểm soát dữ liệu của mình giống như môi trường tự nhiên của một công viên quốc gia: nếu chúng ta không rõ ràng bảo vệ và chăm sóc nó, nó sẽ bị phá hủy. Đó sẽ là bi kịch của những điều chung, và tất cả chúng ta sẽ tệ hơn vì điều đó. Giám sát toàn diện không phải là không thể tránh khỏi - chúng ta vẫn có thể ngăn chặn nó.

Như bước đầu tiên, chúng ta không nên lưu giữ dữ liệu mãi mãi, mà hủy nó ngay khi không còn cần thiết, và tối giản những gì chúng ta thu thập ngay từ đầu 48, 49. Dữ liệu bạn không có là dữ liệu không thể bị rò rỉ, đánh cắp, hay bị chính phủ buộc phải giao nộp. Nhìn chung, những thay đổi văn hóa và thái độ sẽ là cần thiết. Là những người làm việc trong công nghệ, nếu chúng ta không xem xét tác động xã hội của công việc của mình, chúng ta không đang làm tốt công việc của mình 50.

Tóm tắt

Điều này đưa chúng ta đến cuối cuốn sách. Chúng ta đã bao quát rất nhiều nội dung:

  • Trong Chương 1 chúng ta đối chiếu các hệ thống phân tích và vận hành, so sánh đám mây với tự lưu trữ, cân nhắc các hệ thống phân tán và đơn nút, và thảo luận về cân bằng nhu cầu kinh doanh với nhu cầu của người dùng.

  • Trong Chương 2 chúng ta đã thấy cách xác định một số yêu cầu phi chức năng (nonfunctional requirements) như hiệu suất, độ tin cậy, khả năng mở rộng và khả năng bảo trì.

  • Trong Chương 3 chúng ta khám phá một phổ mô hình dữ liệu, bao gồm các mô hình quan hệ, tài liệu và đồ thị, event sourcing và DataFrames. Chúng ta cũng xem xét các ví dụ về nhiều ngôn ngữ truy vấn, bao gồm SQL, Cypher, SPARQL, Datalog và GraphQL.

  • Trong Chương 4 chúng ta thảo luận về storage engines cho OLTP (LSM-trees và B-trees), cho phân tích (column-oriented storage), và các chỉ mục để truy xuất thông tin (full-text và vector search).

  • Trong Chương 5 chúng ta xem xét các cách khác nhau để mã hóa các đối tượng dữ liệu thành byte, và cách hỗ trợ phát triển khi các yêu cầu thay đổi. Chúng ta cũng so sánh một số cách dữ liệu lưu chuyển giữa các tiến trình: qua cơ sở dữ liệu, lời gọi dịch vụ, công cụ quy trình làm việc, hoặc kiến trúc hướng sự kiện.

  • Trong Chương 6 chúng ta nghiên cứu sự đánh đổi giữa single-leader, multi-leader và leaderless replication. Chúng ta cũng xem xét các mô hình nhất quán như read-after-write consistency, và các sync engine cho phép client làm việc offline.

  • Trong Chương 7 chúng ta đi sâu vào sharding, bao gồm các chiến lược để cân bằng lại, định tuyến yêu cầu và lập chỉ mục thứ cấp.

  • Trong Chương 8 chúng ta đề cập đến các giao dịch: độ bền, cách đạt được các mức cô lập khác nhau (read committed, snapshot isolation và serializable), và cách đảm bảo tính nguyên tử trong các giao dịch phân tán.

  • Trong Chương 9 chúng ta khảo sát các vấn đề cơ bản xảy ra trong các hệ thống phân tán (lỗi mạng và độ trễ, lỗi đồng hồ, tạm dừng tiến trình, sự cố), và thấy chúng khiến việc triển khai đúng cách ngay cả những thứ có vẻ đơn giản như khóa trở nên khó khăn như thế nào.

  • Trong Chương 10 chúng ta đi sâu vào các hình thức đồng thuận khác nhau và mô hình nhất quán (linearizability) mà nó cho phép.

  • Trong Chương 11 chúng ta đào sâu vào xử lý hàng loạt, xây dựng từ các chuỗi công cụ Unix đơn giản đến các bộ xử lý hàng loạt phân tán quy mô lớn sử dụng hệ thống tệp phân tán hoặc object stores.

  • Trong Chương 12 chúng ta tổng quát hóa xử lý hàng loạt thành xử lý luồng, thảo luận về các message brokers cơ bản, change data capture, khả năng chịu lỗi và các mẫu xử lý như streaming joins.

  • Trong Chương 13 chúng ta khám phá triết lý của các hệ thống luồng cho phép các hệ thống dữ liệu khác nhau được tích hợp, các hệ thống được phát triển và các ứng dụng được mở rộng dễ dàng hơn.

Cuối cùng, trong chương cuối này, chúng ta lùi lại một bước và xem xét một số khía cạnh đạo đức của việc xây dựng các ứng dụng chuyên sâu về dữ liệu. Chúng ta thấy rằng mặc dù dữ liệu có thể được sử dụng để làm điều tốt, nó cũng có thể gây ra tác hại đáng kể: đưa ra các quyết định ảnh hưởng nghiêm trọng đến cuộc sống của mọi người và khó kháng cáo, dẫn đến phân biệt đối xử và bóc lột, bình thường hóa việc giám sát, và tiết lộ thông tin thân mật. Chúng ta cũng có rủi ro về vi phạm dữ liệu, và chúng ta có thể thấy rằng một cách sử dụng dữ liệu có chủ đích tốt có những hậu quả ngoài ý muốn.

Vì phần mềm và dữ liệu đang có tác động lớn như vậy đối với thế giới, chúng ta với tư cách là kỹ sư phải nhớ rằng chúng ta có trách nhiệm hướng tới loại thế giới mà chúng ta muốn sống: một thế giới đối xử với con người bằng sự nhân văn và tôn trọng. Hãy cùng nhau hướng tới mục tiêu đó.

Footnotes

References


  1. David Schmudde. What If Data Is a Bad Idea?. schmud.de, August 2024. Archived at perma.cc/ZXU5-XMCT ↩︎

  2. ACM Code of Ethics and Professional Conduct. Association for Computing Machinery, acm.org, 2018. Archived at perma.cc/SEA8-CMB8 ↩︎

  3. Igor Perisic. Making Hard Choices: The Quest for Ethics in Machine Learning. linkedin.com, November 2016. Archived at perma.cc/DGF8-KNT7 ↩︎

  4. John Naughton. Algorithm Writers Need a Code of Conduct. theguardian.com, December 2015. Archived at perma.cc/TBG2-3NG6 ↩︎

  5. Ben Green. “Good” isn’t good enough. At NeurIPS Joint Workshop on AI for Social Good, December 2019. Archived at perma.cc/H4LN-7VY3 ↩︎

  6. Deborah G. Johnson and Mario Verdicchio. Ethical AI is Not about AI. Communications of the ACM, volume 66, issue 2, pages 32–34, January 2023. doi:10.1145/3576932 ↩︎

  7. Marc Steen. Ethics as a Participatory and Iterative Process. Communications of the ACM, volume 66, issue 5, pages 27–29, April 2023. doi:10.1145/3550069 ↩︎

  8. Logan Kugler. What Happens When Big Data Blunders? Communications of the ACM, volume 59, issue 6, pages 15–16, June 2016. doi:10.1145/2911975 ↩︎

  9. Miri Zilka. Algorithms and the criminal justice system: promises and challenges in deployment and research. At University of Cambridge Security Seminar Series, March 2023. ↩︎

  10. Bill Davidow. Welcome to Algorithmic Prison. theatlantic.com, February 2014. Archived at archive.org ↩︎

  11. Don Peck. They’re Watching You at Work. theatlantic.com, December 2013. Archived at perma.cc/YR9T-6M38 ↩︎

  12. Leigh Alexander. Is an Algorithm Any Less Racist Than a Human? theguardian.com, August 2016. Archived at perma.cc/XP93-DSVX ↩︎

  13. Jesse Emspak. How a Machine Learns Prejudice. scientificamerican.com, December 2016. perma.cc/R3L5-55E6 ↩︎

  14. Rohit Chopra, Kristen Clarke, Charlotte A. Burrows, and Lina M. Khan. Joint Statement on Enforcement Efforts Against Discrimination and Bias in Automated Systems. ftc.gov, April 2023. Archived at perma.cc/YY4Y-RCCA ↩︎

  15. Maciej Cegłowski. The Moral Economy of Tech. idlewords.com, June 2016. Archived at perma.cc/L8XV-BKTD ↩︎

  16. Greg Nichols. Artificial Intelligence in healthcare is racist. zdnet.com, November 2020. Archived at perma.cc/3MKW-YKRS ↩︎

  17. Cathy O’Neil. Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown Publishing, 2016. ISBN: 978-0-553-41881-1 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  18. Julia Angwin. Make Algorithms Accountable. nytimes.com, August 2016. Archived at archive.org ↩︎

  19. Bryce Goodman and Seth Flaxman. European Union Regulations on Algorithmic Decision-Making and a ‘Right to Explanation’. At ICML Workshop on Human Interpretability in Machine Learning, June 2016. Archived at arxiv.org/abs/1606.08813 ↩︎

  20. A Review of the Data Broker Industry: Collection, Use, and Sale of Consumer Data for Marketing Purposes. Staff Report, United States Senate Committee on Commerce, Science, and Transportation, commerce.senate.gov, December 2013. Archived at perma.cc/32NV-YWLQ ↩︎ ↩︎

  21. Stephanie Assad, Robert Clark, Daniel Ershov, and Lei Xu. Algorithmic Pricing and Competition: Empirical Evidence from the German Retail Gasoline Market. Journal of Political Economy, volume 132, issue 3, pages 723-771, March 2024. doi:10.1086/726906 ↩︎

  22. Donella H. Meadows and Diana Wright. Thinking in Systems: A Primer. Chelsea Green Publishing, 2008. ISBN: 978-1-603-58055-7 ↩︎

  23. Daniel J. Bernstein. Listening to a “big data”/“data science” talk. Mentally translating “data” to “surveillance”: “...everything starts with surveillance...” x.com, May 2015. Archived at perma.cc/EY3D-WBBJ ↩︎

  24. Marc Andreessen. Why Software Is Eating the World. a16z.com, August 2011. Archived at perma.cc/3DCC-W3G6 ↩︎

  25. J. M. Porup. ‘Internet of Things’ Security Is Hilariously Broken and Getting Worse. arstechnica.com, January 2016. Archived at archive.org ↩︎

  26. Bruce Schneier. Data and Goliath: The Hidden Battles to Collect Your Data and Control Your World. W. W. Norton, 2015. ISBN: 978-0-393-35217-7 ↩︎ ↩︎ ↩︎

  27. The Grugq. Nothing to Hide. grugq.tumblr.com, April 2016. Archived at perma.cc/BL95-8W5M ↩︎

  28. Federal Trade Commission. FTC Takes Action Against General Motors for Sharing Drivers’ Precise Location and Driving Behavior Data Without Consent. ftc.gov, January 2025. Archived at perma.cc/3XGV-3HRD ↩︎

  29. Tony Beltramelli. Deep-Spying: Spying Using Smartwatch and Deep Learning. Masters Thesis, IT University of Copenhagen, December 2015. Archived at arxiv.org/abs/1512.05616 ↩︎

  30. Shoshana Zuboff. Big Other: Surveillance Capitalism and the Prospects of an Information Civilization. Journal of Information Technology, volume 30, issue 1, pages 75–89, April 2015. doi:10.1057/jit.2015.5 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  31. Michiel Rhoen. Beyond Consent: Improving Data Protection Through Consumer Protection Law. Internet Policy Review, volume 5, issue 1, March 2016. doi:10.14763/2016.1.404 ↩︎

  32. Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016. Official Journal of the European Union, L 119/1, May 2016. ↩︎ ↩︎

  33. UK Information Commissioner’s Office. What is the ’legitimate interests’ basis? ico.org.uk. Archived at perma.cc/W8XR-F7ML ↩︎

  34. Tristan Harris. How a handful of tech companies control billions of minds every day. At TED2017, April 2017. ↩︎

  35. Carina C. Zona. Consequences of an Insightful Algorithm. At GOTO Berlin, November 2016. ↩︎

  36. Imanol Arrieta Ibarra, Leonard Goff, Diego Jiménez Hernández, Jaron Lanier, and E. Glen Weyl. Should We Treat Data as Labor? Moving Beyond ‘Free’. American Economic Association Papers Proceedings, volume 1, issue 1, December 2017. ↩︎

  37. Bruce Schneier. Data Is a Toxic Asset, So Why Not Throw It Out? schneier.com, March 2016. Archived at perma.cc/4GZH-WR3D ↩︎ ↩︎

  38. Cory Scott. Data is not toxic - which implies no benefit - but rather hazardous material, where we must balance need vs. want. x.com, March 2016. Archived at perma.cc/CLV7-JF2E ↩︎

  39. Mark Pesce. Data is the new uranium – incredibly powerful and amazingly dangerous. theregister.com, November 2024. Archived at perma.cc/NV8B-GYGV ↩︎

  40. Bruce Schneier. Mission Creep: When Everything Is Terrorism. schneier.com, July 2013. Archived at perma.cc/QB2C-5RCE ↩︎

  41. Lena Ulbricht and Maximilian von Grafenstein. Big Data: Big Power Shifts? Internet Policy Review, volume 5, issue 1, March 2016. doi:10.14763/2016.1.406 ↩︎ ↩︎

  42. Ellen P. Goodman and Julia Powles. Facebook and Google: Most Powerful and Secretive Empires We’ve Ever Known. theguardian.com, September 2016. Archived at perma.cc/8UJA-43G6 ↩︎

  43. Judy Estrin and Sam Gill. The World Is Choking on Digital Pollution. washingtonmonthly.com, January 2019. Archived at perma.cc/3VHF-C6UC ↩︎

  44. A. Michael Froomkin. Regulating Mass Surveillance as Privacy Pollution: Learning from Environmental Impact Statements. University of Illinois Law Review, volume 2015, issue 5, August 2015. Archived at perma.cc/24ZL-VK2T ↩︎

  45. Pengyuan Wang, Li Jiang, and Jian Yang. The Early Impact of GDPR Compliance on Display Advertising: The Case of an Ad Publisher. Journal of Marketing Research, volume 61, issue 1, April 2023. doi:10.1177/00222437231171848 ↩︎

  46. Johnny Ryan. Don’t be fooled by Meta’s fine for data breaches. The Economist, May 2023. Archived at perma.cc/VCR6-55HR ↩︎

  47. Jessica Leber. Your Data Footprint Is Affecting Your Life in Ways You Can’t Even Imagine. fastcompany.com, March 2016. Archived at archive.org ↩︎

  48. Maciej Cegłowski. Haunted by Data. idlewords.com, October 2015. Archived at archive.org ↩︎ ↩︎

  49. Sam Thielman. You Are Not What You Read: Librarians Purge User Data to Protect Privacy. theguardian.com, January 2016. Archived at archive.org ↩︎

  50. Jez Humble. It’s a cliché that people get into tech to “change the world”. So then, you have to actually consider what the impact of your work is on the world. The idea that you can or should exclude societal and political discussions in tech is idiotic. It means you’re not doing your job. x.com, April 2021. Archived at perma.cc/3NYS-MHLC ↩︎