彝文文本分割软件(beta)
本软件是一次技术尝试的实现,为测试和实验阶段,采用了比较合理的算法和数据结构,可以将汉/彝/英等任意文本按一定的格式分割和输出,并且还有数据自动生成和保存功能。
文本分割是进行词汇分割、分词、智能词汇识别、词汇提取和词汇分析统计等应用的基础,本程序只提供了一个基础和接口,用户可以在此基础上扩展和进一步处理。
目前,彝语的文本分割和词汇分割研究开始起步,但是效果不是很明显和理想。如笔者见过一个案例:没有用主流的面向对象程序语言来编写,只支持yiwin彝文,不能自动识别主流的两种彝文(YiWin彝文和Unicode彝文),不能进行内码转换,更重要的是没有采用合理的算法和数据结构,产生了内存溢出(内存为512MB的电脑)。这说明在彝文信息处理的继续发展中仍然面临资金不足、技术落后、人才缺乏等因素的制约,任重而道远。
在分词(分割)处理时候,程序中任何时候只能有一个实体对象存在,循环的时候不能重复建立新对象,应该是每处理完一条信息就立即释放当前对象,即释放所占用的内存资源,这样循环处理5万条数据始终只有一个对象存在和一块内存区域在使用,否则将会出现内存溢出(泄漏)或系统资源耗尽而崩溃等现象,因为产生了5万个对象和占用了若干内存区域,严重地增加了系统的负担,没有起到提高效率的目的。另外要采用合理和优异的算法、数据结构以及多线程处理,这样才能加快处理速度、减少系统资源占用、优化程序代码和提高效率。当然这属于具体技术细节问题。
本软件的程序部分可以用在互联网信息的采集处理中,比如信息的分检和过滤、IP地址查询、天气预报数据采集、彝文信息采集、股票价格查询等。只要在程序中设定规则,程序就会自动在互联网上采集相关信息,并且自动分割和检索出需要的内容,抛弃不需要的垃圾信息。
文本分割是进行词汇分割、分词、智能词汇识别、词汇提取和词汇分析统计等应用的基础,本程序只提供了一个基础和接口,用户可以在此基础上扩展和进一步处理。
目前,彝语的文本分割和词汇分割研究开始起步,但是效果不是很明显和理想。如笔者见过一个案例:没有用主流的面向对象程序语言来编写,只支持yiwin彝文,不能自动识别主流的两种彝文(YiWin彝文和Unicode彝文),不能进行内码转换,更重要的是没有采用合理的算法和数据结构,产生了内存溢出(内存为512MB的电脑)。这说明在彝文信息处理的继续发展中仍然面临资金不足、技术落后、人才缺乏等因素的制约,任重而道远。
在分词(分割)处理时候,程序中任何时候只能有一个实体对象存在,循环的时候不能重复建立新对象,应该是每处理完一条信息就立即释放当前对象,即释放所占用的内存资源,这样循环处理5万条数据始终只有一个对象存在和一块内存区域在使用,否则将会出现内存溢出(泄漏)或系统资源耗尽而崩溃等现象,因为产生了5万个对象和占用了若干内存区域,严重地增加了系统的负担,没有起到提高效率的目的。另外要采用合理和优异的算法、数据结构以及多线程处理,这样才能加快处理速度、减少系统资源占用、优化程序代码和提高效率。当然这属于具体技术细节问题。
本软件的程序部分可以用在互联网信息的采集处理中,比如信息的分检和过滤、IP地址查询、天气预报数据采集、彝文信息采集、股票价格查询等。只要在程序中设定规则,程序就会自动在互联网上采集相关信息,并且自动分割和检索出需要的内容,抛弃不需要的垃圾信息。
文章编辑:
