Cuối tháng 5, lần đầu tiên có cơ hội review cuốn sách tớ thích nhất trong nửa đầu 2018 (nếu không có gì thay đổi): Everybody lies: Big data, new data and what the Internet can tell us about who we really are – Seth Stephens-Davidowitz, tạm dịch là: “Ai cũng nói dối: ngành thống kê trong thời đại Big Data và những gì Internet nói về bản ngã chúng ta”. (Tớ thích đến mức từng gửi một cái email dài ngoằng cho anh tác giả và được anh ý rep hẳn súc tích là: “Thanks” =))))))

Một chút fact về cuốn này: Everybody Lies được bình chọn là New York Times bestseller và là cuốn sách Kinh tế của năm 2017. Tin tớ đi tớ là một đứa cực kỳ ghét đọc sách chuyên môn khô khan nhưng lại đổ đứ đừ vì cuốn này, không chỉ nói về cách mà Big Data đã thay đổi thu hướng thống kê như nào, thì Everybody lies đề cập đến những mảng trần trụi, đầy tranh cãi của thế giới hiện đại. Trong post này, tớ sẽ dịch vài đoạn mang đúng tinh thần của cuốn sách này nhất, và nếu có cơ hội, tớ muốn dịch hẳn cả cuốn này sang tiếng Việt cho mọi người cùng đọc với tớ ạ😃.

Lời mở đầu: Tất cả mọi người đều nói dối về một điều gì đó.

Người thì lấp liếm về lượng đồ uống có cồn họ đã nốc trên đường về nhà, kẻ khoác lác về việc mình tới phòng gym bao nhiêu lần mỗi tuần, về giá đôi giày họ mới tậu và rằng họ có đọc sách hay không. Người báo ốm để trốn làm. Kẻ bảo rằng nhất định sẽ liên lạc lại rồi lặn không sủi tăm. Người bảo rằng: không, không phải do em mà tình chúng ta tan vỡ. Kẻ nói lời yêu khi chẳng thực lòng. Người cố gượng cười khi thâm tâm đang ngập tràn u sầu. Kẻ không dám come out khẳng định chắc nịch mình thích người khác giới.

Họ nói dối với bạn bè, với sếp, với bác sĩ của mình. Họ không thật lòng với con cái, cha mẹ, người mà họ yêu, thậm chí, họ không dám sống thật với cả bản thân.

Và đương nhiên, nói dối trong khi trả lời một cái khảo sát nào đó nào có nhằm nhò gì đối với con người. Chính vì thế mà thống kê xã hội, kể cả dạng truyền thống hay Online Survey đều không đáng tin.

Thống kê, hay là Big Data chắc là 2 từ rất quen thuộc đối với nhiều người, nhưng để biết Big Data và data “kiểu mới” có sức mạnh thế nào để thay đổi thế nào đến thống kê, mà hôm nay tớ sẽ giới thiệu hai trong số bốn sức mạnh được Stephen nhắc tới trong cuốn sách này.

Sức mạnh thứ nhất: Định hình lại khái niệm Data

Khi mà trước đây, dữ liệu thường đi kèm với phiếu điều tra, với con số, thì giờ đây, dữ liệu được khai thác từ vô số nguồn khác nhau, chỉ giới hạn bởi trí tưởng tượng của nhà thống kê, từ Google search, Mạng xã hội, thậm chí là từ các trang web đen. Không chỉ còn là những con số, dữ liệu hiện nay có thể là bộ phận cơ thể, là hình ảnh, là từ ngữ.

Chap này khá dài nên tớ chỉ mang ra một số phát hiện khá thú vị mà Stephen đã chỉ ra trong một số nghiên cứu từ các Facebook post.

Sự khác biệt giữa ngôn ngữ theo giới:

Sự khác biệt giữa ngôn ngữ giữa các độ tuổi:


“Cách nói chuyện khác nhau không phải chỉ giữa giới này và giới kia, mà còn giữa các độ tuổi. Nhìn vào đây chúng ta có thể hiểu đôi chút về quá trình trưởng thành của con người. Tôi gọi đây là đồ hoạ: “Drink. Work. Pray”. Thanh niên tuổi mười chín đôi mươi thì chuyên tâm ăn nhậu. Người tuổi hăm thì chuyên tâm làm việc. Kẻ tuổi băm trở đi thì chuyên tâm cầu nguyện.”

Thanh niên tuổi mười chín đôi mươi thì chuyên tâm ăn nhậu. Người tuổi hăm thì chuyên tâm làm việc. Kẻ tuổi băm trở đi thì chuyên tâm cầu nguyện.”

Sức mạnh thứ hai: Cung cấp nguồn Data “đáng tin cậy”

Trước thời đại kỹ thuật số, con người kìm nén những suy nghĩ thầm kín của mình. Trong thời đại hiện nay, họ vẫn giấu giếm trước người khác, nhưng lại thật lòng khi ngồi trước máy tính, đăng nhập chế độ ẩn danh, đặc biệt thật lòng với những trang như: Google hay là PornHub.

Mệnh đề thứ nhất: Dữ liệu tìm kiếm từ Google là Serum sự thật

Một cô gái thấy chán đời vào một chiều thứ năm nhàn rỗi. Cô ta Google với từ khoá: “chuyện hài vui trong sáng”. Rồi cô chếch email, đăng nhập vào Twitter rồi lại gõ “chuyện hài da đen” với từ nigger (nigger là một từ mang nghĩa miệt thị người da đen)
Một chàng trai buồn bã, Google với từ khoá: “triệu chứng trầm cảm” và “những câu chuyện về chứng trầm cảm”. Rồi chàng ta lại một mình chơi vài ván bài Solitaire.
Một cô gái chưa chồng thấy dòng thông báo đính hôn của mộg cô bạn khác trên Facebook. Cô ta ngay lập tức block tài khoản của người bạn kia.
Một anh chàng thích nhạc rap tranh thủ gõ dòng chữ: “Mơ thấy hôn một người cùng giới là có bình thường không?” trong giờ giải lao một trận bóng bầu dục ở NFL.
Một cô gái click vào story có tựa đề “15 chú mèo đáng yêu nhất” của BuzzFeed
Một chàng trai khác lờ đi dòng story y hệt, chỉ với tựa đề khác là: “15 chú mèo dễ thương nhất”.
Một người phụ nữ tìm kiếm trên Google: “Con trai tôi có phải là thần đồng?”
Một người đàn ông Google: “Làm cách nào để con gái tôi giảm cân?”
Một người phụ nữ khác đang du lịch cùng với 6 nàng bạn thân. Trong khi ai ai cũng thao thao bất tuyệt về việc họ đang tận hưởng như thế nào, cô lẩn vào 1 góc Google: “Cô đơn khi vắng chồng”.
Chồng của cô ta, đang du lịch cùng với 6 chàng bạn thân của mình, lại lẩn đi để Google: “Những dấu hiệu chứng tỏ vợ đang ngoại tình”.

Dẫn chứng: Chuyện ấy và những cái bao cao su

Disclaimer: Trong cuốn sách này, Stephens viết rất nhiều vấn đề mà người Á Châu coi là “tế nhị” như Tình dục, Giới tính, Phim xx, Nạo phá thai… thế nên tớ muốn mang câu chuyện này ra cho mọi người đọc thử, để có thể biết được nội dung, vì sự thật thì khá là trần trụi. Nếu thế giới các bạn vẫn mang màu hồng, có khi không đọc lại tốt hơn.

“Khi tôi phân tích dữ liệu lấy được từ General Social Survey của trường Đại học Chicago, nơi được coi là kho dữ liệu có tầm ảnh hưởng và quyền lực nhất về hành vi của dân cư Mỹ. Theo một khảo sát về số lần làm chuyện ấy đối với những người dị tính, một người phụ nữ trung bình thổ lộ làm chuyện ấy khoảng 55 lần mỗi năm, 16% trong số đấy là sử dụng BCS. Tính ra là mỗi năm sẽ có 1.1 tỉ BCS được sử dụng tại Mỹ. Tuy nhiên, cánh đàn ông dị tính lại nói rằng họ sử dụng 1.6 tỉ BCS mỗi năm. Với logic tự nhiên, hai con số đó phải bằng nhau. Vậy ai trong số họ đang nói thật? Đàn ông hay đàn bà?

Kết quả là chả phái nào trong số hai phái nói thật. Theo số liệu của Nielsen, một công ty toàn cầu về nghiên cứu hành vi người tiêu dùng, thì tại Mĩ, chưa tới 600 triệu BCS được bán mỗi năm. Vậy là ai cũng nói dối, chỉ khác nhau là nói dối ở mức nào.

Trên thực tế, việc nói dối về chuyện ấy rất phổ biến. Khi mà các anh chàng độc thân chưa một đời vợ tuyên bố rằng mỗi năm họ dùng trung bình 29 cái BCS. Chỉ riêng con số này cũng đã lớn hơn số lượng BCS được bán tai Mỹ mỗi năm cho cả người độc thân và lập gia đình. Tôi cá rằng những người lập gia đình cũng nói dối về chuyện này. Theo số liệu khảo sát, trung bình, mỗi một người đàn ông đã kết hôn dưới 65 tuổi khai rằng mình làm chuyện đó 1 lần/1 tuần. Chỉ có 1% nhận rằng họ đã không làm chuyện đó trong suốt năm vừa rồi. Trong khi đó, số lần làm chuyện ấy theo khảo sát từ cánh phụ nữ đã kết hôn thì thấp hơn, nhưng cũng không thấp hơn là mấy.

Google searches, nguồn dữ liệu chính của tôi, thì đưa lại bức tranh về chuyện ấy ảm đạm hơn, nhưng cũng chân thật hơn nhiều. Số lượng tìm kiếm với từ khoá: “hôn nhân không tình dục” – “sexless marriage” nhiều gấp 3.5 lần số lượng tìm kiếm cho “hôn nhân không hạnh phúc” và cao hơn 8 lần đối với “hôn nhân không tình yêu”. Lượng tìm kiếm trên Google dành cho từ khoá này chỉ đứng thứ 2 sau “lạm dụng” – “abussive relationship”.”

Mệnh đề thứ hai: Facebook là thứ serum về Đây-là-nơi-tao-khoe-mẽ-cuộc-sống-tuyệt-vời-của-tao

“Cuốn sách này là về Big Data nói chung, và phần lớn các chương đều nhấn mạnh về dữ liệu tìm kiếm từ Google. Tuy nhiên, có phải tất cả các kho Big Data khác đều là serum sự thật? Thực tế là, rất nhiều kho Big Data, ví dụ như Facebook, thường lại là thứ trái ngược với những gì được định nghĩa là serum sự thật.

Dẫn chứng: Thói quen đọc tạp chí và những cái like ảo

Trên mạng xã hội, cũng như trong các cuộc khảo sát, con người thường chẳng có động cơ gì để nói sự thật. Trên mạng xã hội, ngược lại, bạn lại càng có động cơ để xây dựng một hình ảnh hoàn hảo của mình. Trên mạng xã hội, bạn hiện diện chứ không ẩn thân. Trên Facebook, bạn biết khán giả của mình là ai và bạn cố gắng định vị thương hiệu của bản thân trong lòng bạn bè, người thân, đồng nghiệp, người quen xã giao và cả người lạ.

Để biết được dữ liệu từ mạng xã hội méo mó ra làm sao, thử nhìn vào sự phổ biến của Atlantic, tạp chí hàng tháng mang tính chính thống, trí thức; đem so sánh với sự phổ biến của national Enquirer, một tạp chí lá cải có tính nhạy cảm. (Ở Việt Nam mặc dù hơi khập khiễng nhưng mình lấy ví dụ như Cafebiz và mương 14). Cả hai tạp chí đều có số ấn phẩm trung bình như nhau, bán ra vài nghìn bản mỗi tháng. Số lượng tìm kiếm trên Google cũng tương đương nhau với tỉ lệ gần như 1:1.

Tuy nhiên, điều này lại có vẻ hoàn toàn khác trên Facebook trong khi có tới 1.5 triệu tài khoản nhấn theo dõi Atlantic hoặc chia sẻ bài viết từ trang này thì chỉ tầm 50,000 tài khoản theo dõi hoặc trao đổi về những bài viết trên Enquirer. Facebook, là kho dữ liệu không đáng tin nhất khi tìm hiểu về cái mà con người ta thực sự thích. Điều này đúng với thói quen đọc, cũng đúng khi nhìn vào cuộc sống được dựng lên từ Facebook.

Trên Facebook, chúng ta chỉ cho người khác xem những gì chúng ta muốn họ thấy, cái bản thể không phải của chúng ta.

Trên Facebook, hầu như ai cũng có một đời sống hôn nhân mĩ mãn, du lịch ở vùng Caribe, đọc tạp chí Atlantic hàng tháng. Ngoài đời thực, hàng tá người đang cau có xếp hàng ở quầy thanh toán của siêu thị, liếc trộm tờ National Enquirer, phớt lờ cuộc gọi của người còn lại trong cuộc hôn nhân không tình dục của họ. Trên Facebook, gia đình ai ai trông cũng thật đáng ngưỡng mộ. Ngoài đời thực, hôn nhân hỗn loạn một bãi chiến trường. Hỗn loạn tới mức mà một số ít lâu lâu lại tự mình hối hận vì đã sinh con.

Trên Facebook, thanh niên trai tráng ai cũng tiệc tùng thật cool tối thứ bảy. Ngoài đời thực, hầu như chúng ta đều co gối ở nhà, một mình, xem hết show này tới show khác trên Netflix.

Trên Facebook, cô bạn gái post 7749 tấm ảnh về chuyến getaway độc thân của cổ. Trên thực tế, trong khi ngồi đếm like, cô Google ngay: “Tại sao bạn trai tôi lại từ chối làm chuyện ấy?”. Và, có lẽ cũng trong cùng thời gian đó, anh chàng bạn trai cô lại đang ngồi xem xxx ở một góc nào khác của thế giới.

Trên đây là một trong những thứ mình thấy tiêu biểu nhất cho cuốn sách, chứ chưa phải là những thứ hay nhất. Vì Stephen còn nói về những việc mang tính nghiêm túc hơn rất nhiều, như là bầu cử, phân biệt màu da, phân biệt giới tính, tình trạng nạo phá thai và nhiều hơn nữa.

Nếu bạn muốn nhìn vào những vấn đề vẫn còn nhức nhối của cuộc sống qua một giọng kể hóm hỉnh và những thống kê sắc nét, thì hãy đọc Everybody Lies nhé.

4 Replies to “Everybody Lies: thống kê trong thời đại Big Data và những gì Internet nói về bản ngã chúng ta

  1. Đọc qua thấy khá đúng. Thấy khá vui vì mình vẫn sống khá trần trụi trên facebook lẫn ngoài đời thực 🙂
    Đọc để lấy niềm tin là cuộc sống không phải là màu hồng, và ta không cần phải thất vọng khi ta chưa thành công, miễn là ta còn cố gắng.

    1. Cám ơn comment của bạn nhé. Tớ đọc xong cũng thấy tương tự như vậy đó. Sách có nhiều phần truyền cảm hứng hơn, nhưng vì chưa biết nên diễn đạt như thế nào nên tớ chưa dịch tiếp. Đón đọc các phần sau nhé!

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *