Named entity recognition là gì

NER Abbrev AI

Named Entity Recognition

Nhận dạng thực thể

NER (Named Entity Recognition) còn gọi là nhận dạng thực thể, cũng giống POS tuy nhiên NER lại tách từ loại ra một cách cụ thể. Ví dụ: tên người, địa điểm, tổ chức, tỷ lệ phần trăm và giá trị tiền tệ ... NER là bước rất quan trọng trong chatbot, việc tách chi tiết từ vựng ra giúp ích cho bot có thể hiểu được ý nghĩa, mục đích của câu văn.

Named-Entity Recognition (NER) là Đặt tên-Entity Recognition (NER). Đây là nghĩa tiếng Việt của thuật ngữ Named-Entity Recognition (NER) - một thuật ngữ thuộc nhóm Technology Terms - Công nghệ thông tin.

Độ phổ biến(Factor rating): 5/10

Nhận dạng thực thể có tên (NER) đề cập đến một nhiệm vụ khai thác dữ liệu đó là chịu trách nhiệm cho việc tìm kiếm, lưu trữ và phân loại nội dung văn bản vào các mục mặc định như tên của người, tổ chức, địa điểm, biểu thức của thời đại, số lượng, giá trị tiền tệ và tỷ lệ phần trăm. Nhiệm vụ của NER bao gồm chiết xuất dữ liệu trực tiếp từ câu văn bản tiếng Anh đơn giản.

Thuật ngữ Named-Entity Recognition (NER)

  • Named-Entity Recognition (NER) là gì? Đây là một thuật ngữ Kỹ thuật và công nghệ có nghĩa là Named-Entity Recognition (NER) là Đặt tên-Entity Recognition (NER). Đây là nghĩa tiếng Việt của thuật ngữ Named-Entity Recognition (NER) - một thuật ngữ thuộc nhóm Technology Terms - Công nghệ thông tin.Độ phổ biến(Factor rating): 5/10Nhận dạng thực thể có tên (NER) đề cập đến một nhiệm vụ khai thác dữ liệu đó là chịu trách nhiệm cho việc tìm kiếm, lưu trữ và phân loại nội dung văn bản vào các mục mặc định như tên của người, tổ chức, địa điểm, biểu thức của thời đại, số lượng, giá trị tiền tệ và tỷ lệ phần trăm. Nhiệm vụ của NER bao gồm chiết xuất dữ liệu trực tiếp từ câu văn bản tiếng Anh đơn giản.
  • Đây là thuật ngữ được sử dụng trong lĩnh vực .

Đây là thông tin Thuật ngữ Named-Entity Recognition (NER) theo chủ đề được cập nhập mới nhất năm 2022.

Thuật ngữ Named-Entity Recognition (NER)

Trên đây là thông tin giúp bạn hiểu rõ hơn về Thuật ngữ Named-Entity Recognition (NER). Hãy truy cập tudienso.com để tra cứu thông tin các thuật ngữ chuyên ngành tiếng Anh, Trung, Nhật, Hàn...liên tục được cập nhập.

Named-Entity Recognition (NER)Đặt tên-Entity Recognition (NER). Đây là nghĩa tiếng Việt của thuật ngữ Named-Entity Recognition (NER) - một thuật ngữ thuộc nhóm Technology Terms - Công nghệ thông tin.

Độ phổ biến(Factor rating): 5/10

Nhận dạng thực thể có tên (NER) đề cập đến một nhiệm vụ khai thác dữ liệu đó là chịu trách nhiệm cho việc tìm kiếm, lưu trữ và phân loại nội dung văn bản vào các mục mặc định như tên của người, tổ chức, địa điểm, biểu thức của thời đại, số lượng, giá trị tiền tệ và tỷ lệ phần trăm. Nhiệm vụ của NER bao gồm chiết xuất dữ liệu trực tiếp từ câu văn bản tiếng Anh đơn giản.

Xem thêm: Thuật ngữ công nghệ A-Z

Giải thích ý nghĩa

Nhận dạng thực thể có tên là một hệ thống tình báo nhà nước-of-the-art làm việc với gần như hiệu quả của một bộ não con người. Hệ thống được cấu trúc theo cách như vậy mà nó có khả năng tìm kiếm các yếu tố thực thể từ dữ liệu thô và có thể xác định các loại, trong đó các phần tử thuộc. hệ thống sẽ đọc câu và nêu bật những yếu tố thực thể quan trọng trong văn bản. NER có thể được tổ chức nhạy cảm riêng biệt tùy thuộc vào dự án. Điều này có nghĩa rằng hệ thống NER thiết kế cho một dự án có thể không được tái sử dụng cho công việc khác. Tương tự như vậy, NER phải đối mặt với nhiều thách thức trong đó bao gồm việc khai thác thông tin chính xác cho cụ thể nhưng loại liên quan chặt chẽ.

What is the Named-Entity Recognition (NER)? - Definition

Named-entity recognition (NER) refers to a data extraction task that is responsible for finding, storing and sorting textual content into default categories such as the names of persons, organizations, locations, expressions of times, quantities, monetary values and percentages. Duties of NER includes extraction of data directly from plain English text sentences.

Understanding the Named-Entity Recognition (NER)

Named-entity recognition is a state-of-the-art intelligence system that works with nearly the efficiency of a human brain. The system is structured in such a way that it is capable of finding entity elements from raw data and can determine the category in which the element belongs. The system reads the sentence and highlights the important entity elements in the text. NER might be given separate sensitive entities depending on the project. This means that the NER system designed for one project may not be reused for another task. Similarly, NER faces many challenges which include the extraction of correct information for specific but closely related categories.

Thuật ngữ liên quan

  • Smart Tag
  • Data Extraction
  • Computational Linguistics
  • Entity
  • Entity Data Model (EDM)
  • Dropper
  • Geotagging
  • MIDlet
  • Application Portfolio
  • Composite Applications

Source: Named-Entity Recognition (NER) là gì? Technology Dictionary - Filegi - Techtopedia - Techterm

Chào các bạn,Tiếp theo Seri NLP mình sẽ viết về 1 số task cụ thể được thực hiện. Task đầu tiên sẽ là nhận dạng thực thể. Mình chọn task này vì trong quá trình mình làm mảng NLP thấy task này khá cơ bản và dùng nhiều.Bắt đầu thôi nhỉ.

Bạn đang xem: Ner là gì

Nhận dạng thực thể - Named Entity Recognition (NER)

1. Nhận dạng thực thể là gì

Named Entity Recognition — NER: nhận dạng thực thể, là tác vụ cơ bản trong lĩnh vực Xử lý ngôn ngữ tự nhiên.Vai trò chính của tác vụ này là nhận dạng các cụm từ trong văn bản và phân loại chúng vào trong các nhóm đã được định trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, vân vân và vân vân...Từ kết quả của task vụ NER có thể xử lý cho nhiều bài toán phức tạp hơn như Chatbot, Question Answering, Search,...

Một ví dụ về NER:

2. Có những phương pháp và dataset nào để thực hành

Bài toán nhận dạng thực thể cũng được đặt ra từ lâu nên có khá nhiều phương pháp giải quyết.

Hướng tiếp cận Rule-based

Rule-based trong NER hoạt động như sau: một tập các rule được định nghĩa sẵn hay tự động phát sinh. Mỗi token trong văn bản sẽ được biểu diễn dưới dạng tập các feature. Văn bản đầu vào sẽ đem so sánh với tập rule này, nếu rule match thì sẽ thực hiện rút trích.Một rule như vậy gồm pattern + action. Pattern thường là regular expression định nghĩa trên tập feature của token. Khi pattern này match thì action sẽ được kích hoạt.Bạn có thể tự code rule của mình hoặc sử dụng 1 số thư viện hỗ trợ sẵn. Một trong những framework/thư viện khá nổi tiếng là Duckling của Facebook (Link)

Hướng tiếp cận Statistical learning

NER được chuyển về bài toán sequence labeling. Bài toán được định nghĩa như sau: cho trước tập các chuỗi quan sát ký hiệu x = (x_1, x_2, ...,x_n). Thông thường x_i được biểu diễn dưới dạng vector. Ta mong muốn gán nhãn y_i dựa vào dữ kiện từ các x_i trước đó.Để gán nhãn, ta thường dùng BIO notation. Với mỗi entity kiểu T, ta có hai nhãn B-T và I-T. B-T là begin type T, I-T là inside type T. Ngoài ra, ta còn có nhãn O cho biết outside name entity. Bạn có thể tham khảo ví dụ bên dưới

Công Lý là diễn viên hàiB-PER I-PER O O O OCác phương pháp được sử dụng:

Hidden Markov ModelMaximum EntropyConditional Random Fields – CRFs

Hướng tiếp cận Machine Learning/Deep Learning

Cùng với sự phát triển của Machine Learning/Deep Learning các phương pháp NER mới ra đời.Bạn có thể vào trang PapersWithCode.com để xem các dataset và phương pháp đạt kết quả cao nhất.

Xem thêm: Dép Lào Tiếng Anh Là Gì - Nghĩa Của Từ Đẹp Lão Trong Tiếng Anh

Các phương pháp NER top đầu cho dataset CoNLL 2003 (Link):

Đánh giá thử nghiệm của underthesea trên bộ VLSP 2016 (Link):

Dataset (bộ dữ liệu) thường dùng

Dataset thường được dùng nhất để thử nghiệm đánh giá model là CoNLL 2003 (English) và với tiếng Việt bạn có thể dùng bộ VLSP 2016

3. Thử nghiệm

Do khuôn khổ bài hơi dài nên bài sau mình sẽ giới thiệu và thử nghiệm 2 phương pháp có kết quả tốt nhất hiện tại là Flair và BERT cho 2 bộ dataset CoNLL 2003 (English) và VLSP 2016 (tiếng Việt)

Hi vọng bài này cung cấp cái nhìn tổng quan cho các bạn về bài toán NER và các phương pháp/dataset thường dùng.

Nhận dạng thực thể có tên (tiếng Anh: named-entity recognition, viết tắt NER, còn gọi là nhận dạng thực thể định danh, xác định thực thể hoặc trích xuất thực thể) là một nhiệm vụ con của trích xuất thông tin, trong đó tìm kiếm và phân loại các thành phần nguyên tử trong văn bản vào những loại xác định trước như là tên người, tổ chức, địa điểm, thời gian, số lượng, giá trị tiền tệ, phần trăm và nhiều loại giá trị khác.

Hầu hết các nghiên cứu về hệ thống NER nhận dạng một khối văn bản chưa được chú thích như ví dụ như dưới đây:

Jim bought 300 shares of Acme Corp. in 2006.

và tạo ra một khối văn bản được chú thích như sau:

<ENAMEX TYPE="PERSON">Jim</ENAMEX> bought <NUMEX TYPE="QUANTITY">300</NUMEX> shares of <ENAMEX TYPE="ORGANIZATION">Acme Corp.</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>.

Trong ví dụ này, các chú thích có thẻ ENAMEX được phát triển cho Hội thảo Hiểu Thông điệp (MUC) vào những năm 1990.

Các hệ thống tiên tiến cho tiếng Anh có hiệu năng gần bằng con người. Ví dụ, hệ thống tốt nhất tham gia MUC-7 đạt điểm 93.39% của F-measure trong khi người chú thích được 97.60% và 96.95%.[1][2]

Mục lục

  • 1 Các cách tiếp cận
  • 2 Các phạm vi bài toán
  • 3 Các loại thực thể có tên
  • 4 Xem thêm
  • 5 Tham khảo

Các cách tiếp cậnSửa đổi

Các hệ thống NER được tạo ra bằng kỹ thuật ngữ pháp cũng như thống kê. Các hệ thống dựa trên ngữ pháp xây dựng bằng tay thường đạt độ chính xác cao hơn nhưng lại kém recall và tốn nhiều tháng làm việc của các chuyên gia ngôn ngữ có kinh nghiệm. Các hệ thống NER thống kê thường yêu cầu một lượng lớn dữ liệu huấn luyện được chú thích bằng tay.

Các phạm vi bài toánSửa đổi

Nghiên cứu chỉ ra rằng kể cả các hệ thống tiên tiến nhất cũng giòn, nghĩa là một hệ thống phát triển cho một lĩnh vực thường không làm việc tốt với các lĩnh vực khác.[3] Người ta đang nỗ lực để tinh chỉnh các hệ thống NER để hoạt động tốt với những lĩnh vực mới; kể cả hệ thống dựa ngữ pháp và thống kê.

Các loại thực thể có tênSửa đổi

Trong thuật ngữ thực thể có tên, từ có tên giới hạn nhiệm vụ trong những thực thể mà một hoặc nhiều rigid designator, theo định nghĩa của Kripke, tham chiếu đến. Ví dụ, công ty ô tô sáng lập bởi Henry Ford năm 1903 được đề cập là Ford hoặc công ty ô tô Ford. Rigid designator bao gồm cả tên riêng và các khái niệm tự nhiên nhất định như các loài sinh học hoặc các chất.

Các ngữ biểu thị thời gian và số (tiền tệ, phần trăm,...) được thống nhất đưa vào trong ngữ cảnh của nhiệm vụ NER. Trong khi một số trường hợp của các loại trên là ví dụ tốt cho rigid designator (ví dụ: năm 2011), có rất nhiều các trường hợp không hợp lệ (ví dụ: Tôi đi nghỉ vào tháng Sáu). Trong trường hợp đầu, năm 2001 đề cập đến năm thứ 2001 của Dương lịch. Trong trường hợp sau, tháng Sáu có thể nói đến tháng của một năm không xác định (tháng Sáu năm ngoái, tháng 6 năm tới, tháng Sáu nắm 2020, v.v.). Định nghĩa thực thể có tên có được nới lỏng trong các trường hợp trên để phù hợp với thực tiễn hay không là vấn đề tranh cãi. Do đó định nghĩa của thuật ngữ thực thể có tên không chặt chẽ và thường được cắt nghĩa lại trong ngữ cảnh nó được sử dụng.[4].

Có ít nhất là hai phân cấp phân loại thực thể có tên đã được đề xuất trong các tài liệu. Phân loại BBN, đề xuất năm 2002, được sử dụng cho bài toán trả lời câu hỏi và bao gồm 29 kiểu, 64 kiểu con.[5] Phân cấp mở rộng của Sekine, đề xuất năm 2001, tạo bởi 200 kiểu con.[6]

Xem thêmSửa đổi

  • Coreference
  • Entity linking (aka named entity normalization, entity disambiguation)
  • Information extraction
  • Knowledge extraction
  • Từ vựng được kiểm soát
  • Onomastics
  • Record linkage
  • Smart tag (Microsoft)

Tham khảoSửa đổi

  1. ^ Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", ngày 29 tháng 4 năm 1998 PDF
  2. ^ MUC-07 Proceedings (Named Entity Tasks)
  3. ^ Poibeau, Thierry and Kosseim, L. (2001) Proper Name Extraction from Non-Journalistic Texts. Proc. Computational Linguistics in the Netherlands.
  4. ^ “WebKnox: Blog”. Truy cập 3 tháng 10 năm 2015.
  5. ^ “Bản sao đã lưu trữ”. Bản gốc lưu trữ ngày 9 tháng 11 năm 2011. Truy cập ngày 15 tháng 11 năm 2011.
  6. ^ //nlp.cs.nyu.edu/ene/

Video liên quan

Chủ đề