下面是小编为大家整理的Word文档内容结构分析,供大家参考。
闲来无事把docx文档解压,解压之后得到内容大致如下:
├── [Content_Types].xml // 描述的是整个文档的内容。把各个XML文件组合成一个整体├── _rels // 定义Package(Zip包)和它所直接包含的Part之间的关系。对于一个 Part 来说,如果它依赖其他 Part,那么需要为这个 Part 创建一个目录,并且也有一个 _rels 目录,目录下面会有一个 partname.rels 文件。比如 /word/document.xml 就是很典型的例子├── docProps // 记录docx文档的主要属性信息│ ├── app.xml // 描述文档的文档类型、版本、只读信息、共享、安全属性等信息│ └── core.xml // 描述文档的创建时间、标题、主题和作者等基于Open XML约定文档格式的通用文件属性信息└── word ├── _rels │ └── document.xml.rels ├── charts │ ├── _rels │ │ ├── chart1.xml.rels \\ 映射表存放文件文本框文件的位置 │ ├── chart1.xml │ ├── colors1.xml │ ├── colors2.xml │ ├── style1.xml │ ├── style2.xml ├── document.xml // 文档中所有可见文字的内容和属性及不可见部分的内容和属性 ├── embeddings │ ├── Microsoft_Excel_Worksheet.xlsx │ ├── Microsoft_Excel_Worksheet1.xlsx │ ├── oleObject1.bin // OLE是Object Linking and Embedding的缩写,直译为对象连接与嵌入;
满足用户在一个文档中加入不同格式数据的需要(如文本、图像、声音等),即解决建立复合文档问题。 │ ├── oleObject2.bin │ ├── oleObject3.bin │ ├── oleObject4.bin ├── endnotes.xml ├── fontTable.xml // 文档所使用的字体信息 ├── footer1.xml ├── footer2.xml ├── footnotes.xml // 文档中脚注部分信息 ├── header1.xml ├── header2.xml ├── media // Word中的多媒体文件,如插入的图片、公式对应的wmf文件等 │ ├── image1.emf │ ├── image2.png │ ├── image3.jpeg │ ├── image4.wmf │ ├── image5.emf ├── numbering.xml // Word中的有序列表、无序列表等的信息,定义了列表的样式、序号等信息 ├── settings.xml // 文档的总体设置信息 ├── styles.xml // Word的样式信息,定义样式的展示优先级以及段落、表格等样式 ├── theme // 文档的主题的所有信息,如颜色、字体大小 │ ├── theme1.xml │ ├── themeOverride1.xml │ └── themeOverride2.xml └── webSettings.xml // 文档左右间距等的样式信息
我们只要针对document.xml文件内容进行修操作,然后压缩扩展名改回doc
推荐访问: