API NLP – Spell Checking (Sửa lỗi chính tả)
- URL
https://viettelgroup.ai/nlp/api/v1/spell-checking
- Method
POST
- Header Parameters
1. header "Content-Type: application/json"
2. header "token: token_id"
Để có "token id" bạn có thể đăng ký tài khoản tại viettelgroup.ai, sau đó login, rồi vào menu token để tạo
Định dạng data gửi lên: Json (default)
{
"sentence": input text
}
Trong đó: sentence là câu văn cần kiểm tra
Success Response
Code: 200
Content: Json array
Json array, mỗi phần tử là một từ có khả năng bị lỗi, gợi ý sửa lỗi và vị trí của từ này trong câu:
[
{
"startIndex":0,
"endIndex":3,
"originalText":"Hơm",
"suggestion":"Hôm",
"confidence":1
}
]
Mô tả các tham số
API nhận đầu vào là một câu văn, đưa ra danh sách các từ có khả năng bị lỗi (chính tả, teencode, typo, viết tắt…), đưa ra các gợi ý sửa lỗi
Thuộc tính | Value | Description |
---|---|---|
startIndex | int | Vị trí bắt đầu của từ trong câu |
endIndex | int | Vị trí kết thúc của từ trong câu |
originalText | string | Từ bị lỗi |
suggestion | string | Gợi ý sửa lỗi |
confidence | int | Mức độ chắc chắn (mặc định là 1) |
Example Output
Success
{
"code":0,
"message":"OK",
"result":{
"suggestions":[
{
"startIndex":0,
"endIndex":3,
"originalText":"Hơm",
"suggestion":"Hôm",
"confidence":1
},
{
"startIndex":8,
"endIndex":10,
"originalText":"lầ",
"suggestion":"là",
"confidence":1
},
{
"startIndex":11,
"endIndex":14,
"originalText":"mot",
"suggestion":"một",
"confidence":1
},
{
"startIndex":15,
"endIndex":19,
"originalText":"ngay",
"suggestion":"ngày",
"confidence":1
},
{
"startIndex":20,
"endIndex":23,
"originalText":"dẹp",
"suggestion":"đẹp",
"confidence":1
},
{
"startIndex":24,
"endIndex":30,
"originalText":"trowif",
"suggestion":"trời",
"confidence":1
}
]
}
}
Failure
{
"code":3,
"message":"Request format is invalid!"
}
API NLP – Name Entity Recognition (Nhận dạng tên thực thể)
- URL
https://viettelgroup.ai/nlp/api/v1/ner
- Method
POST
- Header Parameters
1. header "Content-Type: application/json"
2. header "token: token_id"
Để có "token id" bạn có thể đăng ký tài khoản tại viettelgroup.ai, sau đó login, rồi vào menu token để tạo
Định dạng data gửi lên: Json (default)
{
"sentence": "input text"
}
Trong đó: sentence là câu văn cần thực hiện nhận dạng thực thể
Success Response
Code: 200
Content: Json array
Mô tả các tham số
API nhận đầu vào là một câu văn, đưa ra danh sách các thực thể và vị trí của thực thể đó trong câu.
Thuộc tính | Value | Description |
---|---|---|
word | string | từ trong câu |
type | Int | kiểu thực thể |
start_index | Int | vị trí bắt đầu tiếng trong câu văn |
end_index | Int | vị trí kết thúc tiếng trong câu |
Example Output
Success
{
"code:":0,
"message":"OK",
"result":[
{
"end_index":7,
"start_index":0,
"type":"ORG_Corporation",
"word":"Viettel"
},
{
"end_index":51,
"start_index":18,
"type":"ORG_Other",
"word":"trực thuộc Bộ Quốc Phòng Việt Nam"
},
{
"end_index":74,
"start_index":68,
"type":"LOC_GPE",
"word":"Hà Nội"
},
{
"end_index":123,
"start_index":89,
"type":"MISC",
"word":"Cộng hòa xã hội chủ nghĩa Việt Nam"
}
]
}
Failure
{
"code":1,
"message":"Invalid json syntax! Cannot parse request!"
}
API NLP – Part-of-Speech Tagging (Gán nhãn từ loại)
- URL
https://viettelgroup.ai/nlp/api/v1/postag
- Method
POST
- Header Parameters
1. header "Content-Type: application/json"
2. header "token: token_id"
Để có "token id" bạn có thể đăng ký tài khoản tại viettelgroup.ai, sau đó login, rồi vào menu token để tạo
Định dạng data gửi lên: Json (default)
{
"sentence": "input text"
}
Trong đó: sentence là câu văn cần kiểm tra
Success Response
Code: 200
Content: Json array
Mô tả các tham số
API nhận đầu vào là một câu văn, đưa ra danh sách các từ cùng nhãn từ loại và vị trí của từ đó trong câu
Thuộc tính | Value | Description |
---|---|---|
word | string | từ trong câu |
type | Int | nhãn từ loại |
start_index | Int | vị trí bắt đầu tiếng trong câu văn |
end_index | Int | vị trí kết thúc tiếng trong câu |
Example Output
Success
{
"code:":0,
"message":"OK",
"result":[
{
"end_index":7,
"start_index":0,
"type":"Np",
"word":"Viettel"
},
{
"end_index":10,
"start_index":8,
"type":"V",
"word":"là"
},
{
"end_index":17,
"start_index":11,
"type":"N",
"word":"đợn vị"
},
{
"end_index":28,
"start_index":18,
"type":"N",
"word":"trực thuộc"
},
{
"end_index":42,
"start_index":29,
"type":"N",
"word":"Bộ Quốc Phòng"
},
{
"end_index":51,
"start_index":43,
"type":"Np",
"word":"Việt Nam"
}
]
}
Failure
{
"code":1,
"message":"Invalid json syntax! Cannot parse request!"
}
Word type list
Stt | Mã từ loại | Description | Ví dụ |
---|---|---|---|
1 | N | danh từ (noun) | bàn, ghế, lợn, gà, ngày, tháng,… |
2 | Np | danh từ riêng (proper noun) | |
3 | Nc | danh từ chỉ loại (loại từ) (classifier noun) | cái, con, chiếc, cục, cây (cột, nến, rơm), lá (gan), quả (tim, cật), tờ, tập, tệp, mẩu, bánh, mảnh, miếng, cuốn, quyển, pho, ngôi, toà, túp, căn, thửa, súc, suất, ngọn (gió), bông, đoá, cái (tình), cái (tát), cái (vỗ vai), (ngã một) cái, (đùng một) cái… |
4 | Nu | danh từ chỉ đơn vị đo lường, tiền tệ (Measure and Monetary Unit) | watt, jun, ha, cm, mm, kg, m², m³, cân, yến, tạ, tấn, lít, độ, hào, đồng, xu, quan, đôla, nhân dân tệ, yên, bảng, ….. [Không gán nhãn Nu cho các từ chỉ dụng cụ đo lường như ca, bò/bơ, đấu, thùng, can…] |
5 | Nux | tổ hợp danh từ chỉ đơn vị mở rộng (Extended Unit Noun) | lần/phút, chu_kỳ/p, độ C, ml/24h |
6 | M | số từ (Numeral) | một, hai, trăm, nghìn, 3, ½, 2018, 20/10, 30/4/1975, … |
7 | Mx | số từ mở rộng (Extended Numeral) | 10h, 12A1, B2345, 29A.1007, 10h30p, 7-9h, 300.000đ, 3cm, 10m2, 2m, 50ml,… |
8 | L | lượng từ (Quantifier) | các, những, vài, đôi, dăm, mọi (người), mỗi (lần), từng (ngày), chút (thời gian), một_vài, một_số, dăm_ba, mỗi. tất_cả, cả, mọi, cái (ba cái con gà này), một (có một người đang)… |
9 | V | động từ (Verb) | muốn, đi, chơi, ăn, uống,…. |
10 | A | tính từ (Adjective) | tốt, xấu, to, nhỏ,… |
11 | P | đại từ (Pronoun) | tôi, tao, mày, nó, ấy, bao_nhiêu, ai, kia, gì, nào, vậy, thế, sao,… |
12 | R | phụ từ (Adverb) | đã, sẽ, đang, rất, lắm, hết_sức, vô_cùng, có_lẽ… |
13 | E | giới từ (Preposition) | của, để, từ, đến… |
14 | C | liên từ (Conjunction) | và, hoặc, nhưng, nếu, thì, vì, nên … |
15 | T | trợ từ (Auxiliary) | à, ư, nhỉ, nhé…; ngay, cả, chính, đích_thị, chỉ, những,… |
16 | I | cảm từ (Interjection) | ái chà, ôi, chao ôi, trời ơi…; haizzz, hihihi |
17 | G | từ tổ (tổ hợp từ) (Group) | là các quán ngữ: lên_lớp, lên_mặt, còn_mệt, nói_tóm_lại, thì_ra, thì_có,… |
18 | MW | ngữ cố định (Multi-word expression) | là các thành ngữ, tục ngữ: lời_ong_tiếng_ve, lời_qua_tiếng_lại, anh_hùng_bàn_phím, bạch_mã_hoàng_tử, … |
19 | D | tổ hợp từ biểu thị ý nghĩa tục tĩu (Dirty word) | đù_má, đù_mẹ, đéo, đếch, vãi_luyện, đcmn, [đ con mẹ nó], f..ck,… |
20 | X | tổ hợp không thể xác định từ loại (Undetermined group) | x² = a, x+y = 36, √A² = │A│, A1 x √A², 9X {người thế hệ những năm 1990}, 2ker {người thế hệ những năm 2000} |
21 | FW | Từ nguyên dạng tiếng nước ngoài (Foreign words) | Nhãn này thường được gán cho những từ ngữ, những cụm từ hay câu tiếng nước ngoài (như tiếng Anh chẳng hạn) được trộn mã hay chuyển mã vào tiếng Việt: made, in, Thailand (made in Thailand), anyway, and, or, but, I, love, you, too (I love you too), how, are, you (how are you)…. |
22 | CH | kí hiệu (Symbol) | – @ # $ % & * ! < > ( ) { } [ ] … |
23 | Nb | Danh từ vay mượn (Borrowed Noun) | Internet, video, shop, (thẻ) Gold, (thẻ) debit,… |
24 | Vb | Động từ vay mượn (Borrowed Verb) | Chat, check, comment, inbox, add,… |
25 | Ab | Tính từ vay mượn (Borrowed Adjective) | Cute, xì tin, sexy,… |
26 | Ny | Danh từ viết tắt (Abbreviation of Noun) | Nv (nhân viên), a (anh), e (em),… |
27 | Vy | Động từ viết tắt (Abbreviation of Verb) | Kt (kiểm tra), nc (nói chuyện),… |
28 | Ay | Tính từ viết tắt (Abbreviation of Adjective) | Dt (dễ thương),… |
29 | Npy | Danh từ riêng viết tắt (Abbreviation of Proper Noun) | VN (Việt Nam), HCM (Hồ Chí Minh), HN (Hà Nội), BIDV, HIV, WTO, NATO, FTU,… |
30 | Cy | Liên từ viết tắt (Abbreviation of Conjunction) | Vs (với), Nh (nhưng),… |
31 | Dy | Tổ hợp từ dung tục viết tắt (Abbreviation of Dirty word) | Đcm, Đm, vl, clgt,… |
32 | My | Số từ viết tắt (Abbreviation of Numeral) | 200k, 50k, 2k1, 2k2 |
33 | Py | Đại từ viết tắt (Abbreviation of Pronoun) | M (mình/mày), t (tôi/tớ/tao), bn (bao nhiêu), tn (thế nào), bg (bao giờ),… |
34 | Ry | Phụ từ viết tắt (Abbreviation of Adverb) | Ko/k (không), đc (được), ms (mới),… |
35 | Gy | Tổ hợp từ viết tắt (Abbreviation of Group) | Ntn (như thế nào),… |
36 | Nby | Danh từ vay mượn viết tắt (Abbreviation of Borrowed Noun) | 3G, mic, ATM,… |
37 | Vby | Động từ vay mượn viết tắt (Abbreviation of Borrowed Verb) | Cmt (comment), ib (inbox) |
38 | Aby | Tính từ vay mượn viết tắt (Abbreviation of Borrowed Adjective) | Onl (online), ok ( hàng của shop dùng khá ok) |
39 | DP | Lỗi tiền xử lý (Pre-processing Error) | Anhem, ĐHBK, TP.HCM,… |
API NLP – Tokenization (Tách từ)
- URL
https://viettelgroup.ai/nlp/api/v1/segment
- Method
POST
- Header Parameters
1. header "Content-Type: application/json"
2. header "token: token_id"
Để có "token id" bạn có thể đăng ký tài khoản tại viettelgroup.ai, sau đó login, rồi vào menu token để tạo
Định dạng data gửi lên: Json (default)
{
"sentence": "input text"
}
Trong đó: sentence là câu văn cần kiểm tra
Success Response
Code: 200
Content: Json array
Mô tả các tham số
API nhận đầu vào là 1 câu văn, đưa ra danh sách các từ và vị trí xuất hiện của chúng
Thuộc tính | Value | Description |
---|---|---|
word | string | từ trong câu |
start_index | Int | vị trí bắt đầu tiếng trong câu văn |
end_index | Int | vị trí kết thúc tiếng trong câu |
Example Output
Success
{
"code:":0,
"message":"OK",
"result":[
{
"end_index":7,
"start_index":0,
"word":"Viettel"
},
{
"end_index":10,
"start_index":8,
"word":"là"
},
{
"end_index":17,
"start_index":11,
"word":"đơn vị"
},
{
"end_index":28,
"start_index":18,
"word":"trực thuộc"
},
{
"end_index":42,
"start_index":29,
"word":"Bộ Quốc Phòng"
},
{
"end_index":51,
"start_index":43,
"word":"Việt Nam"
}
]
}
Failure
{
"code": 1,
"message": "Invalid json syntax! Cannot parse request!"
}