论坛风格切换切换到宽版
  • 2820阅读
  • 2回复

用电脑编写的《简明广州音字典》如何统计成语 [复制链接]

上一主题 下一主题
离线dengjun
 
发帖
59
金钱
66
经验值
66
只看楼主 倒序阅读 使用道具 楼主  发表于: 2008-06-17

      用电脑编写的《简明广州音字典》如何统计成语

  《简明广州音字典》是用数据库编写的。《字典》中有多少四字成语?我们是怎样统计的?

  在编写数据库文件guangzd.dbf 时,在例释字段,成语前面用"|"作为标志。但是成语的位置是随着该词的词义而出现,因此位置并不固定,用数据库来统计比较麻烦。因此需要把数据库文件转换为文本文件,在DOS状态下用DOS命令find.exe 来统计。
  具体步骤如下:


1.把guangzd.dbf 拷贝成数据库文件 gzzd.dbf
2.删除 gzzd.dbf 文件中 order,py2等字段,只留下hz,yy,ty,py,jie,order六个字段.
  总篇幅减少到702,606 字符.
3.拷贝 gzzd.dbf 成为文本文件 gzzd.txt,篇幅改为712,415字符.
4.用find 命令检索"|"
  find "|" gzzd.txt 就可以查看"|"在文本文件gzzd.txt的出现情况.
5.用命令拷贝成为一个文件chengyu.txt
  find "|" gzzd.txt >chengyu.txt
6.用 wps 调查出文本文件 chengyu.txt
  chengyu.txt 有3118行,也就是3118条以上.
7.把文本文件chengyu.txt 拷贝到联网的计算机上,可以在网上发布.

  chengyu.txt总共有3118行,现在把第一部分(24行)和最后部分(24行)为例发表如下:

   第一部分

一   yad-   壹     yī        一个.一定.一起.一同|一心一意.     2
丁1  ding-  叮     dīng    天干第四位:|甲乙丙丁.丁(姓).      3
丁2  ding-  叮     dīng    人丁.添丁.园丁|人丁兴旺.          4
七   cad-   草一切 qī        七个.七十.七月|七上八下.          7
三   sɑm-   素担1切sān      三个.三十.三月|三三两两.          8
干1  gon-   肝     gān      干涉.干戈.干净.干粮|大动干戈.     9
干3  gon.   高按切 gàn      干部.干事.干练.干将|干劲十足.    11
上1  soeng` 尚     shàng  上下.上海|上下左右|七上八下.     15
上3  soeng" 商"    shǎng  上声|平上去入.                   17
才   coi*   材     cái      才能.人才.刚才.方才|才疏学浅.    18
下1  hɑ`    夏     xià      下来.下面.下边.底下|下不为例.    19
与1  yu"    雨     yǔ        |与世长存(与:和).赠与(赠给).     25
万1  mɑn`   曼     wàn      一万.万一.千万|千军万马.         28
丰   fung-  风     fēng    丰富.丰收.丰足.丰碑|丰功伟绩.    30
井2  jing/  整     jǐng    井然|井井有条|坐井观天.          32
开   hoi-   海-    kāi      开放.开通|开花结果|开诚布公.     33
夫1  fu-    肤     fū        丈夫.夫人.匹夫.渔夫|夫唱妇随.    34
天   tin-   他烟切 tiān    天天.天下.天体|天罗地网.         37
无1  mou*   芜     wú        有无.无论|无家可归|一往无前.     40
专   jun-   之渊切 zhuān  专门.专家.专业|专心致志.         42
五   ng"    伍     wǔ        五个.五星红旗|五湖四海.          46
不   bad-   布乞切 bù        不是.不用.不但.不堪|不置可否.    49
友1  yao"   有     yǒu      朋友.战友.友好.友谊|酒肉朋友.    51
丑3  cao/   差口切 chǒu    丑角.小丑|跳梁小丑.              55

     最后部分

餐   cɑn-   草悭切 cān      聚餐.野餐.餐厅|风餐露宿.       8862
音   yam-   阴     yīn      音乐.声音.音信|音容笑貌.       8866
韵   wan`(/)运     yùn      押韵.韵母.音韵.韵脚|琴韵悠扬.  8867
韶   xiu*   诗摇切 sháo    <书>美:韶光.韶华|仪容韶秀.     8868
髯   yim*   严     rán      两腮的胡子:美髯公|白发苍髯.    8873
髭   ji-    支     zī        嘴上边的胡子:|髭须皆白.        8876
鬓   ban.   摈     bìn      鬓角|两鬓斑白|耳鬓厮磨.        8881
麻1  mɑ*    么霞切 má        麻布.亚麻|心乱如麻.            8885
麻2  mɑ*    么霞切 má        麻烦.麻痹.麻木|麻木不仁.       8886
麽2  mo-    么     mó        幺麽(yāo-)(微小)|幺麽小丑.   8889
靡2  mei"   美     mǐ        顺风倒下:披靡|所向披靡.        8893
靡3  mei"   美     mǐ        靡靡(柔弱颓废):|靡靡之音.      8894
鹿   lug`(/)陆     lù        梅花鹿.鹿茸.鹿角|鹿死谁手.     8896
鏖1  ou-    奥-    áo        鏖战(激烈地战斗)|赤壁鏖兵.     8904
麟   loen*  鳞     lín      麒麟:|凤毛麟角.                8907
黑   hag-   克     hēi      黑板.黑暗|黑白不分|白纸黑字.   8909
墨   mag`   默     mò        墨水.墨汁.笔墨|墨守成规.       8910
默   mag`   墨     mò        默写.沉默.默认|默默无闻.       8911
黔2  kim*   钳     qián    贵州的别称:|黔驴技穷.黔剧.     8913
黩   dug`   读     dú        黩武(滥用武力)|穷兵黩武.       8920
黯   am/    暗/    àn        |黯然无光|黯然泪下.            8924
鼠   xu/    暑     shǔ      老鼠.鼠疫.鼠窜.鼠标|鼠目寸光.  8926
鼻   bei`   避     bí        鼻子.鼻孔.鼻涕.鼻祖|鼻青脸肿.  8933
鼾   hon*   寒     hān      鼾声.打鼾.鼾睡|鼾声如雷.       8935


分享到
离线dengjun
发帖
59
金钱
66
经验值
66
只看该作者 沙发  发表于: 2008-06-18

    以上的办法是大概统计的办法,如果成语有重复,数字不一定准确。
    要做到准确,比较笨的办法,就是把文本文件调入数据库文件,然后把不是四字成语的词语用手工的办法删除(大约3000条以上),只留下四字成语,然后用自编删除重复的程序删除重复的字,这样就可以成立一个成语的数据库。

    我试了一下,用这样种手工删除非成语词语的办法建立起来的成语数据库,半个小时可以完成250条,按照这个速度计算,30小时可以完成3000条成语的数据库,每天工作8小时,大约需要3-4天的时间。

[此帖子已被 dengjun 在 2008-6-20 21:05:15 编辑过]

离线dengjun
发帖
59
金钱
66
经验值
66
只看该作者 板凳  发表于: 2008-06-20
输入数据库以后,用手工删除词语,留下四字词语3669条,删除重复,《简明广州音字典》共有四字词组3234条。
快速回复
限100 字节
批量上传需要先选择文件,再选择上传
 
上一个 下一个