自然语言数据标注方法(脚本)--慧智精品网

⾃然语⾔数据标注⽅法（脚本）

本数据主要⽤于评估⾃然语⾔单词和程序语⾔API之间的相关性。

每⼀个配对中包含⼀个单词和API，如果两者之间相关性判定为相关则标注为1，如果判定为不相关则标注为0。

判断标准：主要根据单词的含义和API包含的功能进⾏判断，如果API包含的功能涉及单词的含义，则可认为单词与API相关。

例如，对于名词“bean”，如果API涉及对于bean的操作或者含有bean的属性等则认为⼆者相关；对于动词“exchange”，如果API的功能中包含对数据进⾏接收和发送的动作等，则认为⼆者相关。

标注数据⽰例

根据word的单词，到对应句⼦API中，是否有意思相近的词，如果有相近意思单词，rel输出1，否则输出0。

案例主要将current意思相近的词，标注1，否则标注0

"current"近义词：["current","present","existing","recent","up-to-date","contemporary","present-day","modern","in progress","up to date","dated"]

import pandas as pd

# 查看api列中是否有word列的近义词

# 安装pandas包将csv⽂件与test.py放在同⼀⽬录下执⾏

data_map = {

# 要标注的词 load, load的近义词 get load read import

# 改改改改成相关要修改的近义词,

"current":["current","present","existing","recent","up-to-date","contemporary","present-day","modern","in progress","up to date","dated"], "agent":["agent","go-between","manager","negotiator","mediator","representative","proxy"],

"cache":["board","store","supply","accumulation","reserve","collection"],

"mode": ["mode", "pattern", "model"],

梦见别人请吃饭"message": ["message", "uri", "url", "trace", "print","get"]

}

# 改改改要标注的⽂件名

src_name = "18.csv"

尹正整容>依山尽# 标注完之后⽣成的⽂件名

你到底爱上谁target_name = "18answer.csv"

def find_rel(arr):

word = arr[0]

api = arr[1].upper()

rel = arr[2]

for word_alike in data_map[word]:

if word_alike.upper() in api:

return 1

return 0

df = pd.read_csv(src_name)

六一将发行葫芦兄弟邮票df["rel"] = df.apply(find_rel, axis=1)

<_csv(target_name, index=False, columns=["word", "API", "rel"])

python脚本要修改的地⽅，已标注成改改改tcl空调怎么调制热

慧智精品网

自然语言数据标注方法(脚本)

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

山西汉代政治,文化名人及作品

唐装的起源和历史演变

中国古代史阶段特征

中国历史上的汉朝文化发展

[汉代历史简介]汉代历史故事

历史汉代全部知识点总结

汉代经济发展对中国经济史的影响

汉代的文学体裁

汉源名字来历

简述汉代艺术的基本特征和美学风格

汉代文学的风格和特征

汉代陶瓷知识点归纳总结

汉代经济发展与中外贸易

中国古代史完整版

汉代的科学技术与数学发展

汉代的录囚名词解释

汉代对中国文化的影响-概述说明以及解释

汉代的思想大一统知识点

汉学与宋学的名词解释

汉唐文化交融研究

最新文章

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

互动训练B—《汉武帝巩固大一统王朝》

汉代耧车的历史价值

红星照耀中国汉代青铜读书笔记

湖南马王堆汉墓的发掘与研究

标签列表