Thảo luận Thành viên:Plantaest/Termbox

Bình luận mới nhất: 19 giờ trước bởi Plantaest trong đề tài Tương đồng với Terminology

Công cụ hợp lý

sửa

Công cụ này rất hay, tựa như cuốn "từ điển" riêng của Wikipedia, có thể tra tại chỗ, dựa trên các thuật ngữ sẵn có để tránh mất thời gian tra cứu hoặc copy/paste. Tuy vậy sẽ đặt ra câu hỏi về liệu rằng những kẻ phá hoại cố tình sáng tạo ra những thuật ngữ mà không có bằng chứng xác đáng (như một thành viên nào đó đã bị cấm chỉ) thì liệu có cách nào tăng tính "bảo mật", song vẫn giữ tính "mở" của công cụ. — dʁ. ʃħuɳtﮩ٨ـﮩﮩ٨ـ 💬 đã phản hồi vào 19:23, ngày 11 tháng 10 năm 2024 (UTC)Trả lời

Theo tôi termbox chỉ dùng để quét những từ khoá khó, mang tính chuyên ngành, từ điển word-by-word vô tác dụng và phụ thuộc vào nhu cầu người sử dụng. Thay vì xổ hết ra một tràng khi người dùng nhấn (+ dịch đoạn văn), tôi nghĩ công cụ hoạt động khi người dùng bôi đen thuật ngữ gốc, hoặc có tùy chọn: Lọc thuật ngữ. Còn ai muốn bổ sung thuật ngữ thì phải kiểm cs – — dʁ. ʃħuɳtﮩ٨ـﮩﮩ٨ـ 💬 đã phản hồi vào 19:42, ngày 11 tháng 10 năm 2024 (UTC)Trả lời
@Mongrangvebet: Xem bên dưới. Dang (thảo luận) 04:58, ngày 12 tháng 10 năm 2024 (UTC)Trả lời

Vấn đề nguồn thuật ngữ

sửa

Termbox dự kiến có cấu trúc dữ liệu như là một tập hợp các "từ điển". Mỗi từ điển là một tập hợp các "ánh xạ" (mapping). Vậy lấy đâu ra những "từ điển" này?

Nguồn từ điển có thể đến từ 2 nguồn: chính thốngtự xuất bản. Từ điển chính thống là những từ điển đã được các pháp nhân uy tín xuất bản. Từ điển tự xuất bản là những từ điển mà bên xuất bản có thể là bất cứ ai, như thành viên Wikipedia có thể tạo một từ điển riêng trên hệ thống Termbox qua một giao diện.

Khi sử dụng Termbox trên CAT-like, thì công cụ mặc định chỉ tìm kiếm dựa trên nguồn từ điển chính thống, còn từ điển tự xuất bản phải tự cấu hình riêng. Ví dụ, thành viên Mongrangvebet có tài khoản trên Termbox, tự tạo một từ điển như "Thuật ngữ y học", thì chính Mongrangvebet và có thể là các thành viên khác có thể đánh dấu từ điển này vào cấu hình để Termbox lập vùng tìm kiếm. Từ đó, Termbox vừa có thể tìm theo từ điển chính thống, vừa có thể tìm theo từ điển tự xuất bản (mặc định là tắt, chỉ được kích hoạt khi có mong muốn, được lựa chọn những từ điển mà người khác làm sẵn).

Từ điển tự xuất bản sẽ có phần ghi chú cho từng ánh xạ, cho biết người tạo từ điển đã lấy ánh xạ này từ đâu, nguồn nào, hay tự suy nghĩ ra, hay từ cuộc tranh luận nào. Dang (thảo luận) 04:48, ngày 12 tháng 10 năm 2024 (UTC)Trả lời

Về vấn đề bản quyền, đây cũng là chuyện cần lưu tâm. Tôi nghĩ khả năng là không có vấn đề, nếu tuân thủ các nguyên tắc fair use. Vì Termbox đạt một số tiêu chí quan trọng cho fair use:
  • (1) Mục đích của công cụ là phi thương mại, hướng đến hỗ trợ giáo dục, nghiên cứu.
  • (2) Tính chất đại chúng, tổng hợp của các xuất bản từ điển (không chặt chẽ về bản quyền so với các tác phẩm sáng tạo như tiểu thuyết, tranh).
  • (3) Người dùng chỉ thấy được phần trích của tác phẩm, không dẫn toàn bộ cùng một lúc (giống cơ chế fair use hiện nay của Google Books).
  • (4) Ghi nhận quyền tác giả và không có hành vi bôi xấu, ảnh hưởng tiêu cực tác phẩm gốc.
Dang (thảo luận) 05:03, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
Cái này có phải một dạng khai thác data kiểu tập trung như tiền bối @Mxn từng đề cập bên wikt:Wiktionary:Thảo_luận#Dữ_liệu_từ_điển_học_từ_Wikidata nhưng gói gọi theo thuật ngữ chuyên ngành phải không? – Lcsnes (thảo luận) 06:09, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
@Lcsnes: Hình như là Termbox sẽ không có thu thập data, mà gom data từ những nơi khác (từ điển đã xuất bản, từ điển tự xuất bản) nhằm phục vụ quá trình quá trình dịch thuật trên các phần mềm CAT-like. Chắc là không liên quan lắm với vụ của Mxn. Dang (thảo luận) 06:13, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
Wiktionary cũng có thể là một nguồn từ điển cho Termbox. Dang (thảo luận) 06:13, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
Việc người dùng Termbox có thể đóng góp một cách gián tiếp cho Lexicographical data của Wikidata là có thể xảy ra, tôi sẽ nghiên cứu thử hướng này. Thanks Lcsnes. Dang (thảo luận) 06:16, ngày 12 tháng 10 năm 2024 (UTC)Trả lời

Phạm vi của dự án

sửa

Ngay từ tên dự án đã thể hiện đây là công cụ tập trung vào các "thuật ngữ" hơn là các từ thông thường. Ví dụ một câu tiếng Anh: "The chloroplast is an organelle." Những từ nên được Termbox quan tâm là "chloroplast", "organelle", hơn là "the", "is", "an". Việc này tùy thuộc vào dữ liệu của từ điển, khả năng cao từ điển thuật ngữ sẽ không có mấy từ như "the", "is", "an".

Bôi đen cũng hợp lý. Termbox có thể hoạt động theo 2 kiểu song song:

  • (1) Mặc định là quét toàn bộ đoạn.
  • (2) Nếu người dùng bôi đen một câu hay một từ của đoạn thì nó chỉ quét câu hay từ đó thôi. Nếu bỏ bôi đen thì nó trở về (1).

Dang (thảo luận) 04:58, ngày 12 tháng 10 năm 2024 (UTC)Trả lời

Hợp lý. Vậy là công cụ này chỉ dành cho công cụ Biên dịch xuất hiện Wikipedia tiếng Việt, tự mình thêm vào được, hay là phải đề đạt với Meta để họ cho thêm công cụ? Trước hết dự án chỉ dừng lại ở việc dịch thuật ngữ tiếng Anh thôi nhỉ. – — dʁ. ʃħuɳtﮩ٨ـﮩﮩ٨ـ 💬 đã phản hồi vào 05:41, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
@Mongrangvebet: Termbox dùng cho những phần mềm CAT-like, tức là sau này nó có thể dùng cho những công cụ ngoài Content Translation cũng được, vì tôi dự kiến làm một phần mềm tương tự Content Translation trong năm sau, nhưng là dành để dịch thuần wikitext, nguyên nhân là vì Content Translation không thể dịch được thoải mái mấy thứ như tài liệu bản mẫu, tài liệu mô đun; bởi nó bị dính với VisualEditor, mà tài liệu bản mẫu hay mô đun bị dính mã tùm lum nên không thể dùng VisualEditor được.
Công cụ sẽ được triển khai trên hệ thống Toolforge của WMF. Toolforge thì thêm tool nào cũng được, miễn mã nguồn mở, phi lợi nhuận là được.
Công cụ sẽ được xây dựng một cách tổng quát, tức là wiki nào muốn dùng thì đề xuất để tôi tạo một phiên bản cho họ dùng.
Ở cộng đồng viwiki thì tập trung vào tiếng Anh là đủ, lâu lâu thì có thể là tiếng Trung, tiếng Nhật. Dang (thảo luận) 05:49, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
Tuyệt vời, chứ CT lỗi tùm lum, dùng ít ít nhưng có lúc cũng cay cay – Lcsnes (thảo luận) 06:10, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
Siêu quá. Nếu có công cụ này thì đỡ tốn công sức và tiết kiệm thời gian hơn hẳn, không phải bật nhiều tab lên tra thuật ngữ nữa, đặc biệt là tránh rủi ro đóng một loạt tab, đóng luôn cả bản dịch, mất công gõ và tra lại :D – — dʁ. ʃħuɳtﮩ٨ـﮩﮩ٨ـ 💬 đã phản hồi vào 06:25, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
Hi vọng là ổn :v Có gì góp ý thêm nhé, chứ khi làm rồi thì sửa lại cũng mệt :P Dang (thảo luận) 06:29, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
Dù gì công cụ cũng chỉ có chức năng "hỗ trợ" quá trình soạn thảo, nếu tối ưu hóa được thì càng tốt, nhưng có là tốt lắm rồi, giải phóng trí óc, giải phóng RAM máy tính khi viết bài :)). – — dʁ. ʃħuɳtﮩ٨ـﮩﮩ٨ـ 💬 đã phản hồi vào 12:37, ngày 12 tháng 10 năm 2024 (UTC)Trả lời

Mục tiêu trước mắt

sửa

Thông qua thảo luận thì phạm vi của dự án khá rộng, và nhìn chung sẽ khó có đủ nguồn lực để làm những công việc đã nêu, nhất là việc nhập các từ điển chính thống vào công cụ. Vì vậy, hướng đi trước mắt của Termbox sẽ giống các công cụ Termbase khác hiện nay của những phần mềm CAT. Nghĩa là nó chỉ đóng vai trò lưu trữ thông tin mà người dùng cung cấp (từ điển, ánh xạ) để phục vụ nhu cầu cho riêng người dùng, hoặc một nhóm, cộng đồng (tái sử dụng lại từ điển mà người đó làm ra, hoặc thậm chí là đóng góp chung một từ điển tự xuất bản). Việc người dùng Termbox tạo ra từ điển cho riêng mình có thể gián tiếp đóng góp cho dự án Lexicographical data của Wikidata, hoặc thậm chí là Wiktionary. Tôi nghĩ cứ dịch bài dần dần thì số lượng mục từ trong Termbox cũng nhiều dần, khó ở thời điểm đầu, sau thì sẽ khỏe.

Việc nhập dữ liệu từ các từ điển chính thống sẽ chỉ được thực hiện một cách hạn chế, vì không đủ nguồn lực để kiểm tra chất lượng bản nhập, không phải tệp scan nào cũng dễ trích được dữ liệu, hay nguồn trực tuyến nào cũng dễ cào, và những vấn đề khác như hậu kiểm, bản quyền. Dang (thảo luận) 16:52, ngày 12 tháng 10 năm 2024 (UTC)Trả lời

Có thể tạm chia dự án thành 2 phần:
  • Termbox Core: Tập trung vào các chức năng quan trọng của một termbase, cho phép tạo từ điển tự xuất bản cho cá nhân hoặc cộng đồng, liên kết với Wikidata để hỗ trợ đóng góp danh mục Lexeme. Vì không liên hệ tới vấn đề bản quyền, cào dữ liệu nên có thể cho phép triển khai trên nhiều wiki nếu các cộng đồng wiki đó có nhu cầu.
  • Termbox Extensions: Mở rộng Termbox để sử dụng các nguồn tài nguyên bên ngoài, có thể dính líu đến vấn đề bản quyền, vì vậy cần phải được xử lý một cách hợp lý.
    • Collections: Người dùng Termbox có thể dùng extension này để nhập các từ điển đã có trước đó (có bản quyền hoặc không), tạo nên một định dạng có cấu trúc gọi là bộ sưu tập (collection) để Termbox có thể tìm kiếm được. Collection thường là các xuất bản in, nhưng cũng có thể là dữ liệu cào từ Internet. Ví dụ: Tài liệu "Thuật ngữ sinh học Anh – Việt (Mai Đình Yên et al., 2006)" có thể được nhập vào Termbox thông qua extension Collections, và tạo nên một collection trong kho dữ liệu của Termbox. Như vậy, Collections có 2 vai trò: (1) Giúp nhập từ điển đã có vào kho dữ liệu chung, (2) Như là một thư viện để người dùng được lựa chọn collection cho cấu hình Termbox của mình.
    • Extractors: Extension này gồm một tập hợp các phần mềm nhỏ gọi là extractor (bộ trích xuất), có chức năng cào dữ liệu theo nhu cầu. Ví dụ, nếu người dùng kích hoạt extractor của phacdochuabenh, thì người dùng sẽ thấy kết quả tra từ của trang phacdochuabenh ngay trên giao diện Termbox. Web scraping là vấn đề nhạy cảm, chủ yếu có thể bypass bằng việc xoay IP, debounce, cache. Về lâu dài, khuyến khích người dùng đóng góp cho Lexeme của Wikidata thì tốt hơn. Tuy nhiên, một số extractor như Wiktionary sẽ không bị ảnh hưởng bởi vấn đề bản quyền.
Dang (thảo luận) 06:59, ngày 13 tháng 10 năm 2024 (UTC)Trả lời

Gợi ý các từ điển

sửa

Một số từ điển mà Termbox có thể sử dụng, bao gồm từ điển trực tuyến, từ điển giấy (có file scan). Cách thức nhập vào Termbox có thể có nhiều cách: cào (đối với từ điển trực tuyến), OCR (đối với từ điển giấy), gõ tay. Dang (thảo luận) 15:42, ngày 12 tháng 10 năm 2024 (UTC)Trả lời

@Mongrangvebet: Không biết là với kinh nghiệm của bạn, thì mảng của bạn có thể có những từ điển chính thống nào. Nếu được thì hãy liệt kê trong đề mục này, tạo một đề mục con mới "Y học", "Sinh học" chẳng hạn. Dang (thảo luận) 15:44, ngày 12 tháng 10 năm 2024 (UTC)Trả lời
Về từ điển y học, trang [1] có hệ thống thuật ngữ khá ổn về y học, về sơ bộ có thể lấy nội dung từ trang này. Từ điển sinh học thì không rõ. Khi làm từ điển, phiền bạn làm thêm cột REF để có gì check lại nguồn gốc thuật ngữ, xin cảm ơn – — dʁ. ʃħuɳtﮩ٨ـﮩﮩ٨ـ 💬 đã phản hồi vào 01:43, ngày 13 tháng 10 năm 2024 (UTC)Trả lời
@Mongrangvebet: Oke, đã ghi chú bên dưới. Nếu có từ điển trực tuyến hay xuất bản giấy nào, bạn điền thêm nhé. Nếu người dùng tự làm từ điển, thì sẽ có mục References để cho biết nguồn gốc thuật ngữ. Và định hướng mới của tôi là bằng cách nào đó, người dùng Termbox cũng sẽ giúp tạo các dữ liệu cho bên Lexicographical data của Wikidata (xem là một từ điển mở). Ví dụ, mục từ wikidata:Lexeme:L5775 (avoid, tiếng Anh) sẽ có bản dịch đến tiếng Việt là "tránh". Như vậy, người dùng có thể đóng góp cho các Lexeme của Wikidata, như ở ví dụ trên là một bản dịch Anh Việt. Khi bên Wikidata dần có nhiều bản dịch như vậy, chúng ta không cần phải lệ thuộc thư viện ngoài nhiều nữa, chắc phải vài thế hệ :v Dang (thảo luận) 05:23, ngày 13 tháng 10 năm 2024 (UTC)Trả lời
Mà cũng hơi thắc mắc không rõ trang phacdochuabenh này lấy nguồn dữ liệu từ đâu. Không thấy họ ghi công gì hết. Dang (thảo luận) 06:13, ngày 13 tháng 10 năm 2024 (UTC)Trả lời
Thực ra thì danh pháp y học là do các thầy thuốc thế hệ trước dùng, mỗi vị một phách, chưa có sự thống nhất và khá lạc hậu. Thầy nào viết sách được, nhiều trường ĐH sử dụng, nhiều sinh viên, học viên học tài liệu đó thì coi như là danh pháp chấp nhận được. Chứ để ghi công thì cũng không rõ ai là người khởi xướng danh pháp đó. – — dʁ. ʃħuɳtﮩ٨ـﮩﮩ٨ـ 💬 đã phản hồi vào 06:52, ngày 13 tháng 10 năm 2024 (UTC)Trả lời
@Mongrangvebet: Oke, đã hiểu. Thấy mấy từ điển Anh, người ta chỉ rõ từ này từ kia nguồn gốc từ đâu, xuất hiện năm nào; còn bên mình chán thật. Dang (thảo luận) 07:01, ngày 13 tháng 10 năm 2024 (UTC)Trả lời

Tổng quát

sửa

Sinh học

sửa

Y học

sửa

Thú y

sửa

Tương đồng với Terminology

sửa

Termbox có thể tương đồng với Terminology của Translatewiki: translatewiki:Project:Terminology gadget. Xem một từ điển chung: translatewiki:Portal:Vi/terminology.json. Dang (thảo luận) 16:29, ngày 13 tháng 10 năm 2024 (UTC)Trả lời

Như vậy, ngoài Content Translation, thì Termbox có thể tích hợp được với một phần mềm CAT-like khác là Translate Extension. Dang (thảo luận) 16:48, ngày 13 tháng 10 năm 2024 (UTC)Trả lời
Vậy là có cần công cụ mới không, hay là có thể tích hợp luôn vào công cụ này? – — dʁ. ʃħuɳtﮩ٨ـﮩﮩ٨ـ 💬 đã phản hồi vào 06:12, ngày 14 tháng 10 năm 2024 (UTC)Trả lời
@Mongrangvebet: Không thể vì công cụ Terminology bị giới hạn dùng ở Translate Extension (hay dùng để dịch mấy tin bên Meta), chứ nó không có trên Content Translation. Ngoài ra, nó không thể kết nối các tài nguyên ngoài được (chúng ta đang lách luật chỗ này, nên tôi mới chia Termbox thành 2 phần, không là bị soi mói). Nhìn chung, phạm vi của dự án Termbox lớn hơn so với Terminology. Dang (thảo luận) 06:24, ngày 14 tháng 10 năm 2024 (UTC)Trả lời
Quay lại trang của thành viên “Plantaest/Termbox”.