Các “lò” sản xuất bài báo: Công cụ đối phó ?

Để đối phó với các “lò sản xuất bài báo” - các nhà xuất bản đang sử dụng một số công cụ soát bài báo cũng như xiết chặt các quy định về đạo đức công bố. Nhưng liệu có đủ để xóa bỏ hay thu hẹp “mô hình kinh doanh” mới xuất hiện trong công nghiệp xuất bản?

Sàng lọc bài báo: Công cụ tự động kết hợp “thủ công”

Khi nhà tâm lý học thần kinh Bernhard Sabel, tổng biên tập của Tạp chí Restorative Neurology and Neuroscience sử dụng công cụ soát các công bố giả, ông đã bị sốc. Sau khi sàng lọc khoảng 5.000 bài báo, ước tính có tới 34% bài báo về khoa học thần kinh xuất bản vào năm 2020 có khả năng là bịa đặt hoặc đạo văn; với các công bố về y học, con số này là 24%. Cả hai con số mà ông và các đồng nghiệp báo cáo trong bản thảo trên cơ sở dữ liệu medRxiv, đăng vào ngày 8/5, đều cao hơn nhiều so với mức họ tính toán cho năm 2010- và hơn nhiều so với mức cơ sở 2% được ước tính trong báo cáo của nhóm các nhà xuất bản năm 2022.

Giống như “ai đó nói với bạn rằng 30% những gì bạn ăn là độc hại”, Sabel nói.

Phát hiện này đã xác nhận điều vẫn còn nghi ngờ lâu nay: Các tạp chí đang tràn ngập các bản thảo khoa học từ các “lò sản xuất bài báo” – nơi các nhà nghiên cứu trả tiền để mua các bài báo rởm hoặc có sự đáng ngờ về tác giả. Dorothy Bishop, nhà tâm lý học ở Đại học Oxford, người nghiên cứu các hành vi xuất bản gian lận cho biết: “Các “lò” kiểu này đã kiếm bộn tiền bằng cách tấn công vào một hệ thống không biết cách đối phó với vấn đề này”. Một thông báo ngày 2/5 từ nhà xuất bản Hindawi đã nhấn mạnh mối đe dọa này: Họ đóng cửa bốn tạp chí mà họ phát hiện đã “bị xâm phạm nặng nề” bởi các bài báo từ các lò xuất bản.

Công cụ của Sabel chỉ dựa vào hai chỉ số – tác giả sử dụng địa chỉ email cá nhân, không phải email của cơ quan và những người liệt kê địa chỉ liên kết. Dù đây cũng không phải là giải pháp hoàn hảo vì tỷ lệ sai xót có thể vẫn cao. Các công cụ phân loại bài báo khác cũng gặp phải các vấn đề tương tự.

Tuy nhiên, người ta vẫn nuôi hy vọng sử dụng các bộ lọc như thế để phát hiện các bài báo rởm có nguy cơ làm hỏng dữ liệu khoa học, gây hiểu lầm cho người đọc và làm méo mó các đánh giá khoa học. Sự ra đời gần đây của các công cụ trí tuệ nhân tạo như ChatGPT càng làm gia tăng thêm mối lo ngại này.

Để chống lại nguy cơ đó, Hiệp hội Quốc tế các Nhà xuất bản Khoa học, Kỹ thuật và Y tế (STM), đại diện cho 120 nhà xuất bản, đang khởi xướng một Trung tâm Liêm chính (Integrity Hub) để phát triển các công cụ mới. STM không tiết lộ nhiều về các phương pháp phát hiện để tránh làm lọt thông tin về các lò xuất bản.

Hai mươi nhà xuất bản – bao gồm cả những nhà xuất bản lớn nhất như Elsevier, Springer Nature và Wiley – đang cùng phát triển các công cụ cho Integrity Hub và 10 nhà xuất bản dự kiến sẽ sử dụng các công cụ soát bài báo. STM cũng dự kiến sẽ thí điểm một công cụ riêng trong năm nay để phát hiện các bản thảo được gửi đồng thời đến nhiều tạp chí, hành vi được đánh giá là phi đạo đức và là dấu hiệu cho thấy các bài báo đó có thể xuất phát từ các “lò xuất bản”. Van Rossum, Giám đốc của Integrity Hub cho biết, hợp tác quy mô lớn như vậy nhằm cải thiện những hạn chế khi các nhà xuất bản rà soát riêng lẻ, cũng như để chia sẻ các công cụ trong toàn ngành xuất bản.

Và đây cũng không phải là “một quy trình hoàn toàn tự động,” ông nói. Đúng hơn, các công cụ này giống như “bộ lọc thư rác…và bạn vẫn muốn xem qua bộ lọc thư rác của mình hàng tuần” để kiểm tra xem có nội dung nào bị phân loại và gắn thẻ sai không.

STM chưa đưa ra số liệu về độ chính xác hoặc tỷ lệ phân loại sai vì dự án còn quá mới. Nhưng việc cố gắng “tóm” được càng nhiều hàng giả càng tốt thường sẽ dẫn tới hiệu ứng không mong muốn là phân loại sai nhiều hơn. Trong một lần thử nghiệm, công cụ của Sabel đã phân loại chính xác gần 90% số bài báo có dấu hiệu gian lận hoặc bị rút lại. Tuy nhiên, công cụ cũng phân loại và đánh dấu tới 44% bài báo thật là “giả” nên kết quả cuối cùng vẫn cần những người đánh giá giàu chuyên môn xem xét lại.

Việc đánh giá kỹ lưỡng các công bố có dấu hiệu đáng ngờ có thể sẽ ngốn rất nhiều thời gian và công sức: Vào năm 2021, để đánh giá khoảng 3.000 công bố có dấu hiệu đáng ngờ, Springer Nature cần tới 10 nhân viên cả bán thời gian và toàn thời gian (Springer Nature xuất bản khoảng 400.000 bài báo hằng năm.)

Ủy ban phi lợi nhuận về Đạo đức Xuất bản, cho biết các nhà xuất bản có thể quyết định từ chối hoặc rút lại những bài báo bị nghi ngờ đến từ các lò sản xuất công bố.

Có thực sự hiệu quả?

Nhưng có những ý kiến thắc mắc, liệu rằng các tạp chí có thể rà soát và đưa ra giải pháp xiết chặt thật sự hiệu quả để chống lại “mô hình kinh doanh” của các “lò sản xuất” hay không. Vì hiện nay có một thực tế là chính các mô hình xuất bản truy cập mở vàng – nghĩa là thu phí từ tác giả đăng bài để mở quyền đọc miễn phí ngay lập tức khi được xuất bản – thì lại có động cơ tài chính để xuất bản nhiều bài báo hơn, chứ không phải để xiết lại. Jennifer Byrne, ở Đại học Sydney, người đã nghiên cứu cách các lò sản xuất bài báo chỉnh sửa dữ liệu di truyền ung thư, cho biết có “xung đột lợi ích lớn” liên quan đến các lò sản xuất bài báo.

Mặt khác, áp lực “công bố hay là chết” mà các cơ quan nghiên cứu đặt lên vai các nhà khoa học cũng là một nhân tố tác động. Van Rossum nói: “Chúng tôi nghĩ đến việc hợp tác với các cơ quan nghiên cứu để tìm cách bỏ một số ưu đãi có thể gây ra những tác động bất lợi này”. Những áp lực công bố như vậy có thể đẩy nhiều người không có kinh nghiệm nghiên cứu tìm tới các “lò sản xuất”, đó là lý do tại sao việc ghi tên tác giả có địa chỉ liên kết có thể là một dấu hiệu để dò soát.

Byrne cho biết, các nhà xuất bản cũng nên tìm thêm sự hỗ trợ từ bên ngoài để cải thiện công cụ soát bài báo. Bà nói: “Khi các công cụ được phát triển sau cánh cửa đóng kín, không ai có thể phân tích hay điều tra cách thức các công cụ ấy hoạt động”. Bà cho biết thêm, việc hợp tác công khai, cởi mở rộng rãi hơn có thể sẽ củng cố các công cụ soát bài báo nhanh hơn mức mà các lò sản xuất bài báo có thể theo kịp.

Nhưng chúng ta cũng có thể hy vọng vào một số tiền lệ: Việc dán nhãn các tạp chí bị nghi ngờ là mục tiêu tiềm năng của các lò sản xuất bài báo cũng sẽ mang lại hiệu quả. Đây là cách Viện Hàn lâm Khoa học Trung Quốc (CAS) đã làm – đưa danh sách công khai các tạp chí bị nghi ngờ là nơi đăng tải các bài báo từ các lò sản xuất. Công ty của Adam Day phát triển và sử dụng công cụ Papermill Alarm để soát bài báo và đã nhận thấy rằng trước khi CAS đưa ra danh sách, các bài báo đáng ngờ chiếm phần lớn nội dung của một số tạp chí; nhưng từ khi CAS công khai danh sách, tỷ lệ này giảm xuống gần bằng 0 trong vòng vài tháng. (Papermill Alarm đánh dấu các bài báo có khả năng gian lận dựa trên các mô hình nhận biết dấu hiệu các bài báo được nộp từ lò sản xuất; tuy nhiên công ty không tiết lộ cụ thể những dấu hiệu này là gì.)

Tuy nhiên, cũng có những ý kiến lo ngại các bài báo đến từ các lò sản xuất sẽ chỉ chuyển hướng sang các tạp chí có tác động thấp hơn, và các tạp chí này thì ít nguồn lực hơn để phát hiện bài báo giả. Nhưng cũng vẫn còn hy vọng – nếu nhiều tạp chí cùng hành động, khả năng tồn tại của toàn bộ các lò sản xuất này có thể bị thu hẹp lại.

Nguồn: Tạp chí Tia Sáng