相对各种程序语言或命令语言,指人类日常相互沟通所使用的语言,如中文、英文、日文、德文等。自然语言的规则复杂,规则又经常有例外,而且与情境、社会阶级、地域、甚至性别都密切相关,所以用计算机很难处理。 自然语言是相对于人工语言的一种人类语言,也是最合乎人类交谈行为的沟通方式;自然语言是依循着人类的自然进化而发展,成为人和人之间沟通的最基本工具,如中文、英文、日文等都是自然语言。应用到资讯检索系统时,凡是未采用控制词汇(Controlled Vocabulary)索引法的资讯检索系统称为自然语言系统,也就是利用人类所熟悉的语言下指令来操作电脑。自然语言索引法分为3种:
(一)人工索引法:由索引者自文献中摘取能代表主题意义的词汇,或由索引者自己制定索引用语,以代表文献主题意义。
(二)电脑索引法:利用电脑程序控制,自文献中抓取有意义的关键字以编制索引
(三)完全不编制索引:即资料库中每一个字都可单独检索或与其他字结合检索。
自然语言索引法又称为单字索引法(Word Indexing)或导出索引法(Derivation Indexing),因其索引用语直接取自文献的正文,所以又称为文献择字索引法(Free-Text Indexing)。一般而言,自然语言系统的优点是有弹性、功能强、不需特别学习,但是自然语言系统必须对所处理的事物有充足的知识,并能理解复杂的句子;换言之,自然语言的问题在无法解决语言上有关人类判断的工作,如同义字、近同义字(Near-Synonyms)或半同义字(Quasi Synonyms)等语意以及语法不明确的困扰。采用自然语言的线上查询系统大都采用相近运算子(Proximity Operator)及切截法(Truncation)来解决自然语言在检索上的困难。
--作者:林呈潢