Chuyển tới nội dung

Cách chúng tôi lướt qua 900 trang tài liệu Cohen trong vòng dưới 10 phút


Thời báo nội bộ giải thích chúng ta là ai và chúng ta làm gì, và đưa ra những hiểu biết sâu sắc về hậu trường về cách làm báo của chúng ta kết hợp với nhau.

Các phóng viên thường dành hàng giờ sàng lọc thông qua các tài liệu.

Benjamin WeiserWilliam K. Rashbaum là một trong những người giỏi nhất trong ngành kinh doanh trong việc trêu chọc những khách hàng tiềm năng hiệu quả từ đống trang và sau đó tập hợp lại chúng trong một câu chuyện.

Một tài liệu tòa án dài là nơi bắt đầu khi Willy và một số phóng viên khác của Times đuổi theo Cuối cùng, khách hàng 9 bị điều tra mại dâm xác định Eliot Spitzer, thống đốc New York vào thời điểm đó, là khách hàng đề cập đến trong đơn khiếu nại hình sự.

Ben bao gồm các tòa án liên bang ở Manhattan cho The Times, thường xuyên tiêu hóa các hồ sơ tòa án dài, thường là đúng hạn. Gần đây anh ta đã đào qua các giấy tờ và bản cáo trạng của tòa án chưa được khám phá để ghép lại câu chuyện về một trung tâm điều trị nội trú của tiểu bang New York, nơi cư dân tuổi teen có nguy cơ bị buộc vào một đường dây buôn bán tình dục. Mười chín người đã bị buộc tội trong một vụ án dẫn đến việc đóng cửa trung tâm.

Vì vậy, khi một thẩm phán tuần trước đã tiết lộ gần 900 trang tìm kiếm các ứng dụng và bản khai có tuyên thệ được chuẩn bị bởi nhà chức trách liên bang điều tra Michael D. Cohen, Tổng thống Trump, cựu luật sư và người sửa chữa, họ lập tức lao vào các tài liệu, tìm kiếm tin tức.

Trong những tình huống này, các phóng viên có hiểu biết sâu sắc về vụ án cần lướt qua bằng con mắt phê phán, tìm kiếm những chi tiết quan trọng. Một cách tôn trọng thời gian để xem xét các tài liệu liên quan đến việc in chúng ra và chú thích chúng bằng tay. Some phóng viên tìm thấy điều này là vẫn là cách hiệu quả nhất để tiêu hóa và xem xét một số lượng lớn các trang, khi có nhiều thời gian.

Nhưng khi thời hạn sắp hết và hàng trăm trang đang chờ, nó sẽ giúp có một công cụ có thể tăng tốc quá trình. Tại The Times, các nhà công nghệ như tôi trong nhóm Tin tức tương tác làm việc để xác định các mẫu báo cáo xuất hiện rất nhiều và phát triển các công cụ giúp phóng viên xử lý các tác vụ này hiệu quả hơn.

Phối hợp chặt chẽ với các nhân viên phòng tin tức, gần đây tôi đã lãnh đạo sự phát triển của một công cụ có tên là DocumentHelper. Công cụ này được sử dụng nội bộ tại The Times để nhanh chóng nhập số lượng lớn tài liệu và khiến chúng có thể tìm kiếm được. Các bước mà các phóng viên trước đây đã làm theo một vài khác nhau mộtcác ứng dụng có thể được kết hợp thành tương đương với một cửa hàng một cửa.

Tài liệu isn lồng một công cụ đặc biệt. Sức mạnh của nó đến từ việc may nó thành The Thời báo từ vựng và dòng chảy công việc. Nó sử dụng các công nghệ nổi tiếng với những người số hóa tài liệu, cụ thể là nhận dạng ký tự quang học, thường được viết tắt là OCR. Giống như các nhà báo, các chuyên gia pháp lý dựa vào OCR để giúp quản lý các bộ tài liệu khổng lồ. Tương tự như vậy, các nhà lưu trữ và thư viện sử dụng các giàn quét chuyên dụng để số hóa các bộ sưu tập tài liệu văn bản của họ.

Nhưng công nghệ OCR được tìm thấy trong tất cả các loại nhiệm vụ hàng ngày, như ngân hàng trực tuyến và quét biển số đường bộ, cũng như trong bảo mật trang web Captchas và thậm chí các ứng dụng dịch thuật ngôn ngữ di động mà Dịch dịch các bức ảnh được chụp bởi khách du lịch. Nó biến ký hiệu in của tất cả các hình dạng và kiểu trở lại thành nội dung kỹ thuật số, vì vậy văn bản có thể được sao chép / dán hoặc lưu ở dạng kỹ thuật số.

OCR hoạt động bằng cách cô lập từng chữ cái riêng lẻ, sau đó so sánh hình dạng được trích xuất của nó với ánh xạ của các mẫu chữ trên hàng chục hệ thống ký hiệu viết, như ngôn ngữ hoặc âm nhạc. Nó thực hiện điều này cho mọi dạng chữ trên một trang, cũng như cho dấu câu, định dạng như chữ nghiêng và thậm chí khoảng trắng có ý nghĩa. Bằng cách duy trì thứ tự của các trận đấu, nó tạo ra một phiên bản kỹ thuật số.

Nhưng quá trình này không phải là hoàn hảo. Các mẫu chữ bị bóp méo – cho dù từ các trang bị sai lệch, giấy cũ, kiểu chữ cũ hoặc thậm chí là mơ hồ của chữ viết tay – đôi khi khiến phần mềm tạo ra các kết hợp không hoàn hảo, như nhầm lẫn một dạng chữ như cách viết cho thay thế Con chó, chữ cái hay chữ cổ như một s dài đối với chữ cái và chữ. Vì vậy, chúng ta cần phải cởi mở về cách tìm kiếm trong các tài liệu đã được OCR hèd.

(Lỗi dài cung cấp đọc thú vị trong thời đại nhất định của các tác phẩm số hóa. Các tác giả cuối thế kỷ 18 người sói đặc biệt hôi miệng – phần mềm hiện đại chỉ phải vật lộn để đọc chúng đúng.)

Khi các bản khai chứng từ tìm kiếm Cohen chưa được tiết lộ vào tuần trước, DocumentHelper đã đến giải cứu.

Sau khi Ben và tôi gặp sự cố, chúng tôi đã lướt qua gần 900 trang với ít thời gian rảnh rỗi Willy Rashbaum kể lại, Hồi nó phục vụ như là máy khoan công suất, đèn rọi, kính hiển vi và búa khoan.

Gần giống như tìm kim châm ngôn trong đống cỏ khô, nó giúp chúng tôi tìm ra những thông tin hữu ích và có khả năng đáng tin cậy trong một bộ sưu tập lớn các tài liệu tòa án, đó sẽ là một nhiệm vụ khó khăn trong thời gian giới hạn mà chúng tôi phải xem xét.

Công cụ này giúp họ tập trung vào các chi tiết cụ thể từ cuộc điều tra Cohen trong vòng mười phút sau khi các tài liệu có sẵn và được tải lên. Khi nào cuộc điều tra thực sự được chuyển từ luật sư đặc biệt đến các công tố viên liên bang ở Manhattan? Pop trong từ giới thiệu giới thiệu và tìm kiếm. (Trả lời: Tháng 2 năm 2018.) Các chứng quyền khác nhau nói gì về tài sản và nợ phải trả của ông Cohen? Tìm kiếm báo cáo tài chính của Nhật Bản. Các chi phí cụ thể đang được xem xét? Tìm kiếm dịch vụ rửa tiền trên mạng và lừa đảo trên mạng.

Và đâu là liên quan đến Viktor Vekselberg, tỷ phú người Nga có mối quan hệ rõ ràng với Kremlin? Công cụ nhanh chóng gọi lên bảy trang với tên của mình. Và thực sự, trong Tài liệu 43-1, một mình chạy 269 trang, ở đó, tài liệu tham khảo đầu tiên, trên Trang 25.

The Times may mắn có thể đầu tư và kết hợp các nhà phát triển phòng tin tức, những người có thể tạo ra phần mềm tập trung vào công việc cho các phóng viên và nhân viên. Công việc là huấn luyện viên một phần và lập trình viên bộ phận, lắng nghe các điểm đau và đánh giá các giải pháp có thể, cho dù các bản sửa lỗi đó có hình dạng điều chỉnh dòng công việc hoặc phần mềm tùy chỉnh. Trong trường hợp này, chúng tôi có một công cụ chuyên dụng sẽ tiếp tục phát triển và giúp phòng tin tức xóa bỏ tất cả những tài liệu vào phút cuối.

Agustin ArmWikiiz đóng góp báo cáo.

Theo @ReadCenter trên Twitter để được bảo hiểm nhiều hơn làm nổi bật quan điểm và kinh nghiệm của bạn và để hiểu rõ hơn về cách chúng tôi làm việc.



Nguồn The NewYork Times