Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1331|回复: 4

开发日志:python word查重

[复制链接]

4

主题

7

帖子

73

积分

注册会员

Rank: 2

积分
73
发表于 2023-9-21 13:13:28 | 显示全部楼层 |阅读模式
本帖最后由 星云游 于 2023-9-22 00:50 编辑

具体步骤
1.遍历所有文件
2.python 打开两个word的内容进行比对
3.1生成重复率标记文件
3.算出重复率,存储到矩阵中
4.导出excel

最终代码
  1. from docx import Document
  2. import os
  3. import os.path
  4. import difflib

  5. path = ".\\files"
  6. text = dict();
  7. for parent,dirnames,filenames in os.walk(path):
  8.     for filename in filenames:        #输出文件信息
  9.         document = Document(path+"\"+filename)  # 读取现有的 word 建立文档对象   
  10.         text[filename] = ""
  11.         tables = document.tables
  12.         for table in tables:
  13.             # 读取表格行
  14.             for row in table.rows:
  15.                  # 读取每行的单元格数据
  16.                 for cell in row.cells:
  17.                      # 打印单元格内容
  18.                      #print(cell.text)
  19.                      text[filename] = text[filename]+ cell.text
  20.                      pass
  21.         text[filename] = text[filename].replace("\n","")
  22.         text[filename] = text[filename].replace(" ","")
  23.         text[filename] = text[filename].replace('\xa0','')
  24.         text[filename] = text[filename].replace( '\u2716','')
  25. for key1 in text.keys():
  26.     for key2 in text.keys():
  27.         if key1 < key2:
  28.             similarity = difflib.SequenceMatcher(None, text[key1], text[key2]).ratio()

  29.             print(key1+key2)
  30.             print(similarity)
  31.             if similarity>0.8:
  32.                 print("重复率过高,抄袭的同学请主动修改!!!!")
  33.                 differ = difflib.HtmlDiff()
  34.                 html = differ.make_file(text[key1], text[key2]);
  35.                 fid =open(key1+key2+'.html','w')
  36.                 fid.write(html.replace('utf-8','gbk'))
  37.                 fid.close
复制代码


回复

使用道具 举报

4

主题

7

帖子

73

积分

注册会员

Rank: 2

积分
73
 楼主| 发表于 2023-9-21 13:17:19 | 显示全部楼层
本帖最后由 星云游 于 2023-9-21 13:42 编辑

python 操作word

  1. pip install python-docx
复制代码

读取现有文档
  1. from docx import Document
  2. document = Document("word.docx")  # 读取现有的 word 建立文档对象
复制代码

读取文档内容
  1. from docx import Document

  2. document = Document("word.docx")  # 读取现有的 word 建立文档对象
  3. all_paragraphs = document.paragraphs
  4. print(type(all_paragraphs))
  5. for paragraph in all_paragraphs:
  6.     # print(paragraph.paragraph_format)  # 打印出word中每段的样式名称
  7.     # 打印每一个段落的文字
  8.     print(paragraph.text)
  9.     # 循环读取每个段落里的run内容
  10. # 一个run对象是相同样式文本的延续
  11. for paragraph in all_paragraphs:
  12.     for run in paragraph.runs:
  13.         print(run.text)  # 打印run内容
复制代码
查看源xml文件
  1. print(paragraph._p.xml)
复制代码


回复

使用道具 举报

4

主题

7

帖子

73

积分

注册会员

Rank: 2

积分
73
 楼主| 发表于 2023-9-21 13:42:49 | 显示全部楼层
读取表格
  1. tables = document.tables
  2. for table in tables:
  3.     # 读取表格行
  4.     for row in table.rows:
  5.         # 读取每行的单元格数据
  6.         for cell in row.cells:
  7.             # 打印单元格内容
  8.             print(cell.text)
复制代码
回复

使用道具 举报

4

主题

7

帖子

73

积分

注册会员

Rank: 2

积分
73
 楼主| 发表于 2023-9-21 13:50:06 | 显示全部楼层
文字查重
  1. import difflib
  2. text1 = 'Python is a programming language'
  3. text2 = 'Python is a programming language.'
  4. # 计算文本相似度
  5. similarity = difflib.SequenceMatcher(None, text1, text2).ratio()
  6. # 打印相似度
  7. print(similarity)
复制代码
回复

使用道具 举报

391

主题

1222

帖子

3902

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3902
发表于 2024-1-14 02:18:24 | 显示全部楼层
查重并写进csv
  1. from docx import Document
  2. import os
  3. import os.path
  4. import difflib
  5. import csv

  6. path = ".\\files"
  7. text = dict();
  8. for parent,dirnames,filenames in os.walk(path):
  9.     for filename in filenames:        #输出文件信息
  10.         document = Document(path+"\"+ filename)
  11.         print(path+"\"+ filename)
  12.         text[filename] = ""
  13.         tables = document.tables
  14.         for table in tables:
  15.             # 读取表格行
  16.             for row in table.rows:
  17.                  # 读取每行的单元格数据
  18.                 for cell in row.cells:
  19.                      # 打印单元格内容
  20.                      #print(cell.text)
  21.                      text[filename] = text[filename]+ cell.text
  22.                      pass
  23.         text[filename] = text[filename].replace("\n","")
  24.         text[filename] = text[filename].replace(" ","")
  25.         text[filename] = text[filename].replace('\xa0','')
  26.         text[filename] = text[filename].replace( '\u2716','')
  27. file = open('output.csv', mode='w', newline='', encoding='utf-8')
  28. for key1 in text.keys():
  29.     print(key1+"...")
  30.     for key2 in text.keys():
  31.         if key1 < key2:
  32.             similarity = difflib.SequenceMatcher(None, text[key1], text[key2]).ratio()
  33.             writer = csv.writer(file)
  34.             writer.writerow([key1,key2,similarity])
复制代码
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2025-4-5 14:39 , Processed in 0.036464 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表