-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
以下部分内容摘自网络,版权归作者所有,放在这里仅供自己学习试验
TFIDF (term frequency–inverse document frequency) 就是个颇为成功的统计量。它计算一个词在当前文章中出现的次数(term frequency),除以这个词在其余海量文章中出现的平均次数的log。
syntax层面 ->semantic语义层面
Semantic Web技术,有后台Ontology。Ontology是一个知识库,包括概念/类,概念之间的上下位关系,以及他们之间其他的属性关系(object/datatype property)。这个东西能很好地解决语义问题,实现推理(说“理解”什么概念,人一般就能用自己的知识推导出一些隐含的知识)。但是这里只是知识,比如“狗喜欢吃肉”,“人可以是傻逼”,但是没有实例,也就是说它不知道“张三是一只狗的名字”,“李四是傻逼”。这些实例的来源,最好的方法当然就是从Web信息抽取,但是挺难的。。。SW最致命的问题是,慢。。。
HPSG是一种语法(CFG那种),现在也有不少HPSG Parser,你拿一段文字丢进去,结果里面既有syntatic信息(分词,词性标准,句子结构)也有一部分语义。
语音语素ASR生成,生成各种语调各种口音各种心情什么的
- 自然语言分析(NLP)
- 人工智能(谓词逻辑模型、机器学习ML、支持向量机SVM、神经网络、贝叶斯逆概网络等)
自然语言分析是将语音和非结构化的文本段落进行转化、分词、进行词性标注、进行实体识别、用Parser构造为语法树,以供计算机可以使用逻辑方法进行识别和认知。
而人工智能部分,则提供了诸多的方法,以自然语言分析的结果作为输入,进行知识概念关系抽取、进行特定领域的问题判别等等。
理论上讲,足够多神经元的正向反馈神经系统,通过训练,可以近似模拟大脑对外界信号的判断。
当然,得到判断结果之后,再如何将这些结果反馈回来让人去理解,与人交互就又是另外一个领域的问题了(HCI)。
目前主要的困难还是集中在自然语言的理解中。目前的方法大致都是这种建立模型,训练模型,利用模型的方法。并没有很好的解决方案,当下最好的自然语言系统也只能做简单的模型式”理解“,并没有真正的理解语言本身。
人工智能程序最终的目标应该是能从很少的公理出发,通过大量的阅读人类已有的知识,然后能够回答基于这些已经阅读过的知识的任何问题。人工智能的终极目标是仿制人类自己,而完成一个真正的自然语言理解系统也几乎相当于建造一个大致相当于人脑功能的理解系统。这也是我个人认为的人类终极问题之一。
机器可以识别人类自然语言的动词体系,它应该有一套对于初始动词的完整定义,然后通过特定的机制(动词体系)来添加新的词汇和定义,就像编写维基百科一样,这是一种还原论的思路,而重点在于确定不可再分的原子,它们会是什么呢?
现在主流的是统计模型, 目前的趋势应该会逐渐脱离基于特征的统计, 而转向结合kernel的半监督统计
Metadata
Metadata
Assignees
Labels
No labels