彝学研究网

彝文文本分割软件(beta)

作者：李金发发布时间：2006-06-03

   本软件是一次技术尝试的实现，为测试和实验阶段，采用了比较合理的算法和数据结构，可以将汉/彝/英等任意文本按一定的格式分割和输出，并且还有数据自动生成和保存功能。

    文本分割是进行词汇分割、分词、智能词汇识别、词汇提取和词汇分析统计等应用的基础，本程序只提供了一个基础和接口，用户可以在此基础上扩展和进一步处理。

    目前，彝语的文本分割和词汇分割研究开始起步，但是效果不是很明显和理想。如笔者见过一个案例：没有用主流的面向对象程序语言来编写，只支持yiwin彝文，不能自动识别主流的两种彝文（YiWin彝文和Unicode彝文），不能进行内码转换，更重要的是没有采用合理的算法和数据结构，产生了内存溢出（内存为512MB的电脑）。这说明在彝文信息处理的继续发展中仍然面临资金不足、技术落后、人才缺乏等因素的制约，任重而道远。

    在分词（分割）处理时候，程序中任何时候只能有一个实体对象存在，循环的时候不能重复建立新对象，应该是每处理完一条信息就立即释放当前对象，即释放所占用的内存资源，这样循环处理5万条数据始终只有一个对象存在和一块内存区域在使用，否则将会出现内存溢出（泄漏）或系统资源耗尽而崩溃等现象，因为产生了5万个对象和占用了若干内存区域，严重地增加了系统的负担，没有起到提高效率的目的。另外要采用合理和优异的算法、数据结构以及多线程处理，这样才能加快处理速度、减少系统资源占用、优化程序代码和提高效率。当然这属于具体技术细节问题。

   本软件的程序部分可以用在互联网信息的采集处理中，比如信息的分检和过滤、IP地址查询、天气预报数据采集、彝文信息采集、股票价格查询等。只要在程序中设定规则，程序就会自动在互联网上采集相关信息，并且自动分割和检索出需要的内容，抛弃不需要的垃圾信息。

文章编辑：