EndNote使用方法

Posted by 冰河 at 22:12 3 Responses » 117,751 Views
182010

一、简介
EndNote是一款用于海量文献管理和批量参考文献管理 的工具软件,自问世起就成为科研 界的必备武器。在前EndNote时代,文献复习阶段从各大数据库中搜集到的文献往往千头万绪、或重复或 遗漏,难以管理, 阅读所作的笔记则分散各处,难以高效地进行有机整合。到写论文时,大量的文献引 用往往复杂异常,尤其修改时,牵一发而动全身。这些难题,EndNote可 以凭一己之力,彻底解决。
学校里目前盛行的依然是EndNote 9.0,而功能更为强大的V10.0正版需要$100,显然不宜 在我们中间推广。故本文以V9.0为主要介绍对象。它的安装对大家并不构成问题,只需要注意这类中文 支持功能较弱的软件,安装路径最好纯由英文字母和数字构成。
打开EndNote 9.0,其界面如图1.1所示。“Reference Library”窗口显示文 献的各个条项,单击条项名称(如”Author”)按钮,所有记录就将按该条目顺序/逆序排列。预 览窗口显示被选中文献的简单 信息(图1.1中的预览格式是默认的”Annotated”,在下拉菜单 中还有其他的格式)。“显示/隐藏Preview”按钮则用于切换预览窗口的显 /隐属性。

图1.1 EndNote 9.0 基本界面

下面根据我们的专业特点和需要,结合我使用EndNote的一些心得,介绍这个软件的基本操 作。

二、建立和编辑Enl文献图书馆
EndNote数据库称为Reference Library,以*.enl格式存储,其中的数据存储于同名文件夹 *.Data中。本文所举例子中的Library包括单记录图书馆“acedemic.enl”和数据文件夹 “acedemic.Data”。
(1)新建enl
File–>New,或者单击工具栏第一个按钮”New Library”,都可以新建一个 空白图书馆。
(2)打开既有enl
File–>Open–>Open Libray,或者单击工具栏第二个按钮”Open Library…”,都可以打开一个既有的enl图书馆。
(3)新建记录
Reference–>New Reference,或者在”Reference Library”窗口中右键– >”New Reference”,都可以手动添加新记录。
(4)编辑记录
“Reference Library”窗口中双击选中的记录,或者右键”Edit References”,都可以进行编辑。
编辑记录界面如图2.1所示。一般需要用到的条项包括Author、Year、Title、Journal、 Volume、Issue、Pages、 Keywords、Abstract,读书笔记记录在Note中,如果有全文pdf,可以将其链 接添加到Link to PDF,并将附件链接到Image中,如果文摘是从网上数据库下载的,URL中可记录其出处 。其余条项相对用得不多。


图2.1 EndNote记录编辑窗口

1) Author:每个作者列一行,格式可以是Ziaei, J. E.,Ziaei, J E,J E Ziaei,或者 标准全名等。原则是姓置首,则后面必须跟逗号,若按照西方姓名规范置尾,则不必加逗号。逗号后应 有空格。如果是中文名字,一般不需要添逗 号区分姓和名。在EndNote中,编辑状态下,用红色显示的 人名表示当前Library中该名字是第一次出现,若该人名先前记录中出现过,则黑色表 示。
2) Year,Title,Journal,Volume,Issue,Pages:这些条项照抄引用文献的显示即可。
3) Abstract:同Author,每个关键词列一行。
4) Link to PDF、Image:右键”Link to PDF”、”Image”即可添加 。添加”Image”后,在Reference Library窗口中这条记录前方就会出现一个附件标志。 EndNote 10.0中,可以直接将全文PDF拖放到这个栏位,更为便捷,而且链接永久有效,不会因为相对路 径的变化而失效,而9.0在这一点上依然做得不好,所以使 用这个版本建立参考文献图书馆时,必须做 好合理的规划。
(5)复制记录
将一条记录复制到另一个文献图书馆中,只需要在Reference Library窗口选中目标记录, ^C或右键“Copy”,再打开目标文献图书馆的enl文件,^V或右键“Paste”,即 可将它复制进去。剪切的方法与之相似,^X/“Cut”即可。
(6)删除记录
在Reference Library窗口选中要删除的记录,右键”Delete References”即可 。选中时可以用鼠标拖选多条记录,也可以按住Ctrl间隔点选。直接选中后按Del键无效。

三、批量导入文献
手工编辑enl是很费时费力的。EndNote最重要的功能之一就是把科研人员从繁重的文献手 工编辑工作中解放出来。很多在线数据库都提供了强大的 Citation导出功能。我们专业主要使用的是中 国期刊网、PubMed、Ovid、Elsevier等中英文文摘/全文数据库。下面以它们为例,简要 介绍文献批量 导入的操作。
(一)基本步骤
(1)查找所需文献
这一步不需要多讲,属于文献检索的基本范畴。
(2)选择所需文献
在所要导出的文献条目前打勾选择所需文献。如果检索已经比较精细的话,可以不用打勾 ,即默认全部导出。
(3)导出citation
1)PubMed(直连http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed):结果 预 览窗口中,Display下拉菜单选择“MEDLINE”,Show下拉菜单选择一个合适的数值以确保 能将所需文献全部导出(但一次最多只能导出200条 记录),旁边的下拉菜单可以选择默认的”Send to”或者”Text”。三步操作尽量快速地同时完成,网页自动刷新后即可显示完整格式的 citation。
2)Ovid(通过学校图书馆代理连接Online版):在结果预览窗口下面的面板里,点选 “Full”和”Direct Export”,按确定按钮。
这时EndNote会自动运行,并跳出导入对话框。Filters选择框中选择Medline(Ovid),即可 导入当前处于激活状态的那个Library中。
3)Elsevier(也要通过学校图书馆代理连接Science Direct):基本导入方法和Ovid接近 。关键在于选择正确的导出格式(MEDLINE或FULL),以及自动导入时选择正确的Filter。(编选 Filter 是门很有技巧的学问,有时候需要自己编制,这部分内容需要参考相关手册)
4)中国期刊网:EndNote的中文支持功能较弱, 没有提供任何一种中文数据库的Filter, 这就意味着除非能够自己编制Filter,否则中文数据库将无法批量导入。中国期刊网的Filter有一些民 间版本,但是随着知网改版,类似于哈工大版那样“权威”的普及版Filter目前还没有出现 。
(4)导入citation
1)PubMed:网页显示出完整的Citation以后,全部复制,并粘贴到一个记事本文件中,保 存。打开EndNote,按工具栏第三栏 中”Import…”按钮,即跳出导入对话框,”Import data file”框中打开保存citation的记事本,”Import Option”下拉菜单选择 “PubMed(NLM)”,”Duplicates”下拉菜单可以选择默认的”Import All” ,也可以选择”Discard Duplicates”剔除与Library中重复的记录。

图3.1 Import对话框界面

2)其他:如果由于版本原因,Ovid或Elsevier的citation无法直接自动导入EndNote,那么 与PubMed一样,要先导出到一个文本文件中,再从文本文件中通过Filter导入到EndNote。

(二)简便步骤

直接打开EndNote,Tool–>Connect–>Connect…,在弹出的对话框中选择一个目 标数据库,随后就跳出三栏 的Search窗口,可以在这里进行关键字检索,结果会自动汇入当前处于激活 状态的Library中,并且URL条项中显示每条文摘在数据库中的链接地 址。

图3.2 EndNote检索窗口

这一方法十分简便,但是在EndNote9.0中似乎并不支持代理。必须直接通过公众网和账户/ 密码方式连接数据库,而多数数据库的账户/密码是要付费获得的。所以一般来说,只有PubMed这样的免 费数据库比较适合这样操作。

四、显示格式的初级修改
在预览窗口中,EndNote默认的Annotated格式是citation+abstract模式。除此以外,还 有Author+Date、 Numbered和Show All。这些格式中Annotated提供的信息全面而精简,比较适合筛选和 预览。但是这一显示格式有些弊病,比如citation的姓名输出格式,和条 项排列顺序,都不太符合文献 引用的一般规范。可以做一些修改。

Edit–>Output Sytle–>Edit “Annotated”,打开编辑窗口。
(1)Citations/Author Lists,如图4.1所示。一般引用文献显示前三位作者,因此把默认 数字如图修改。et al是否斜体显示根据实际情况取舍。(注:文本框中填写的逗号后要跟一个半角空格 )

图4.1 Citation/Author Lists

(2)Citations/Author Name,一般文献引用的作者姓名按”姓 名”格式显示,如 图4.2。

图4.2 Citations/Author Name

(3)Bibliography/Templates。Journal Article的格式一般如图4.3所示。将Year选中后 拖动到Volume前,加空格(空格显示为·)。Journal后可以加reference type(如[J]表示期刊 ,等),光标定位在Journal后,按Insert Field按钮,点”Reference Type”即可插入。Book 的格式中,一般可以将Year移到City前,并嵌入Edition。其余几种文献类型的格式根据需要,同法修改 。


图4.3 Bibliography/Templates

在这里,Title前后加了引号,Journal下加了下划线,Volume加了粗,都是为了突出显示 。如果要取消,选中相应条项,按工具栏上相应的字体按钮即可。
(4)Bibliography/Author Lists和Author Name的修改同Citation。
(5)Bibliography/Layout:End each reference with文本框中是预览显示格式。当前的 显示格式已够用,如果需要加入Keywords或者Notes,光标固定在Abstract后,按Insert Field按钮,点 End of paragraph、Tab及Keywords或Notes。个人不推荐这样做,因为预览起来比较乱。
其余可改可不改。修改完后关闭,点保存修改。

Annotated以外的其他显示格式的修改,可以通过Edit–>Output Style–>Open StyleManager实现。一般来说,Amer J Epidemol这类杂志的显示格式都是按杂志引文格式要求编制的, 不需要再做修改。

五、记录的导出
文献图书馆可以导出为各种文本文档。首先,按照上一节所述,将显示格式调到所需的状 态,然后按工具栏”Export…”按钮。在弹出对话框的保存类 型下拉菜单中,有txt、rtf、 htm和xml四种格式。rtf格式可以用word打开,另存为doc格式。如果把显示格式调为某一种杂志,那么 导出的 就是一张完整的citation列表。

六、文献的管理
配合嵌套文件夹的使用,即可进行海量文献的管理。以综述为例,确定范围和题目后,就 可以充分利用EndNote的功能进行文献搜集、整理和阅读了。
(1)充分收集文摘
通过在线数据库查找的文摘都可以导入EndNote文献图书馆中,为了充分收集资料,还有一 些资料可能要通过图书馆复印的途径获得,这些资料一般数量不多,可以手动输入。
我的经验是,尽量细化检索词组合,对每一种检索策略建立一个独立的enl图书馆,并放在 同一级文件夹下。细化检索词是为了让每一个enl库中的记录尽可能少,最好不要超过100。
(2)筛选文摘
通过Annotated模式对每个enl图书馆中的记录进行逐一筛选。多数情况下,都可以筛掉很 大一部分相关度较差的文献。对于要保留的文献,不妨在Notes中随时记录下观感或一些关键词,便于后 面进一步整理。这一步工作比较枯燥,但却是后面所有工作的基础。
(3)合并记录
对检索策略相近的几个文献图书馆筛选完毕后,可以将它们合并成一个库。在这一步,推 荐采用Edit–>Find Duplicates菜单筛去重复的记录。这样,就能形成一个次级库。通过这样的方法 ,在次级库中进行合并,就能获得一到若干个最终库。
形成最终库时,需要对综述的结构有所规划。这些规划体现在Notes中。有些文献要用在 背景部分,Notes中可以标注“backgroud”,有些可 能要用在展望部分,Notes中可以标注 “view”之类。通过Reference–>Search References操作,In “Notes” Search “Certain Keywords”,就可以把它们分别显示,并归入不同的目标库中。
(4)收集全文
在最终库里的文献就是所需要的。接下来尽可能把它们的全文都弄到手,并按二(4)节所述 ,做好Link to PDF和Image。以后写论文需要参考全文时,右键Open PDF即可,十分方便。

七、Word中的文献引用
文献图书馆建完备后,就要着手写论文了。EndNote最杰出的优点之一就是可以自由地插入 和调整citation。这在大文献量的论文写作中十分有用。
安装EndNote后,Word中会相应地生成EndNote插件。在工具栏(如图7.1)和工具菜单中都 有它的选项。假设我们要在论文中插入第一节所示的那篇文献{Ziaei,2004},那么操作如下:


图7.1 Endnote工具栏

(1)光标移至插入位置。
(2)工具–>EndNote 9–>Go to Endnote或EndNote工具栏第二个按钮打开EndNote。
(3)在EndNote的Library窗口选中要插入的记录,来到Word,菜单/工具–>EndNote 9- ->Insert Selected Citation,或EndNote工具栏第一栏第四个按钮,该记录即汇入Word插入点。
(4)如果citation显示格式不对,那么通过工具–>EndNote 9–>Format Bibliograhpy或者EndNote工具栏第一栏第三个按钮,进入格式选择对话框,如图7.2。


图7.2 Bibliography格式修改对话框

在With Output下拉菜单里有备选的Bibliography Style,如果没有所需的,点Browse按钮 ,弹出所有Bibliograhpy的列表,选择一项并确定,所有citation都将被批处理为这一显示格式。如图 7.3所示

图7.3 Bibliography样式表对话框

(5)要移动某条引用的话,只需要光标选中文中citation,拖放到新位置,其文末 reference及序号都将随之自动发生变化。
(6)删除某条引用,与普通文本操作完全一样,文末reference及序号同样自动更新。
(7)一些论文中插入的Note,可以通过工具–>EndNote 9–>Insert Note或EndNote 工具栏第二栏第二个按钮插入。这些插入的Note也将出现在文末reference中。
(8)论文完成后,确认全部引用无误,通过工具–>EndNote 9–>Remove Field Codes或EndNote工具栏第二栏第五个按钮,将所有citation的格式宏移去并另存为一个doc文档,再进行 相应的格式修饰,即可完成 Reference的编辑。

八、中文文献的导入导出
EndNote的中文支持功能比较薄弱,比如我们常用的中文期刊网、万方数据库和维普资讯 网上的资源就缺少相应的Filter和Style文件。随着 EndNote中文用户的增多,许多人开始为这些数据库 制作相应的Filter和Style,以支持中文文摘的导入和导出。这些工作为EndNote的中 文文献管理提供了 技术基础。在这些工作中,哈尔滨工业大学开发的CvtCNKI.exe转换软件可以同时支持中文期刊网、万方 数据库、维普资讯网甚至超星 图书馆与EndNote Library的转换。因此下面将以CvtCNKI.exe转换插件为 基础,分别以中文期刊网、万方数据库和维普资讯网为例,介绍如何将中文文献导入到 EndNote。

图8-1 CvtCNKI界面
(一)中文期刊网
打开中国知网(CNKI)检索界面,键入检索词或复合检索式,搜索出结果后,勾选中意的 文摘,在检索结果页面的导航栏上点击“存盘”按钮。弹出菜单中输 出格式选择“自 定义”,“自定义”复合框中点选全部选项,再点击“预览”。在预览窗口 中全选输出结果,复制到一个文本文档(如CNKI.txt文件)中, 然后保存。
打开CvtCNKI.exe(目前已开发到v2.0.2.B2版),点“文件”按钮,选择保存 有导出结果的文本文档,“选项”框 架中“文献类型”相应地选择“期刊 文章”或“学位论文”,“输出格式”选择“EndNote”。点击 “转换”按钮,即生成同名的enw文件。点“察看转换 结果”,即自动启动 EndNote,在弹出对话框中随便选择一个既有enl文件,或新建一个enl图书馆文件,CvtCNKI即可自动将 转换后的enw文 件中的内容导入打开的enl图书馆。

(二)万方数据库
以学位论文库为例。打开万方检索界面,键 入检索词或复合检索式,搜索出结果后,点击 中意文摘后的“详细摘要信息”。在打开的详细摘要信息页面中,最顶上有“输出模式 ”下拉菜单,选择“详细输出格 式.txt”,弹出菜单询问“是否保存”, 点确定,保存为一个文本文档。注意:如果出现乱码,将文本文档另存一次,保存格式由“UTF- 8”改为 “ANSI”。如果仍然显示为乱码或者不能正确导入,将文本文档中的“ ■”全部改为回车。
接下来用CvtCNKI进行导入,步骤同(1)。

(三)维普资讯网(中文科技期刊数据库)
打开维普资讯的检索页面,键入检索词或复合检索式,搜索出结果后,勾选中意文摘,点 击导航栏上的“打印”,在弹出对话框中选择“全记录显示”。把新页面中显示 的记录全选复制到一个文本文档中。
接下来用CvtCNKI导入,步骤同(1)。

新版本的CvtCNKI可以对许多个中文数据库的检索结果进行转换,并且EndNote、RiS等文 献管理工具的不同格式文件也可以进行相互转换。尽管 这个工具仍有这样那样的bug,作者的更新速度 依然基本可以确保它的转换效率。利用这款工具,EndNote的中文支持功能就能够大大增强。

如果要实现EndNote与RevMan的文献共享,需要在EndNote的Style 和Filters中安装有RevMan的相应插件。EndNote XI已经安装了相应的插件,也可以自己加装。

1. EndNote导入RevMan
(1)EndNote导出,导出对话框中style选择RevMan4或者RevMan Ris Export(EndNote默认)。 导出为txt
(2)RevMan导入此txt,File==>Import==>Reference==>Ris格式,即可导入

2.RevMan导入EndNote
(1)RevMan导出references,导出为txt
(2)EndNote导入,导入Filters选择RevMan4或RevMan Ris(默认),即可导入


最新版的EndNote为X2版。这版较前几版有较大改进,最吸引人的地方是 自动下载文献全文。虽然不能做到每篇都载到,但如果文后有可用全文链接,EN还是可以自动 侦测并进行下载。

校内用户请每次都小批量进行,不要一口气制作太大的自动下载队列。坏处有2:(1)命中率 偏低;(2)大流量下载全文会加重服务器负荷,甚至导致瘫痪;(3)一次性大流量下载会触怒文献供 应商,可能导致惩罚性封禁全校网段。具体请自行摸索。

ENDNOTE 这个工具从网上介绍来看还是不错的,我也下过一个美国某大学的算是OEM版,试用了 一下感觉还可以,单机应有的功能基本都全了,但这类文献管理工具一旦用 过就会发现,这种工具如果 单是利用单机版的功能很多时候还是不够方便的,所以说选择此类工具的时候一定要与自己学校的图书 馆支持联系起来。

一般国内高校图书馆中支持ENDNOTE的我感觉还是比较少,至少我所在学校是用NOTEEXPRESS, 这种情况下用ENDNOTE显然不是首选了

用学校图书馆的定制版最大的好处就是可以连到网上数据库中自动下载题录及论文相关信息, 当然要是有下论文的功能就更好了。这样可以得到自己所收藏论文的详细信息,日后整理起来很方便

对于NOTEEXPRESS的应用,我也只是用在了下载题录,建个人数据库管理论文和管理论文相应笔 记这三个方面,感觉操作还是很简单,而且关键是有中文版存在,所以说详细的教程对于基本功能是没 有太大必要了。

至于一些更为高级的功能,目前还没用到,随用随学吧…..

SCOPUS文献导入endnote的方法

在SCOPUS网站上输出选择的文献到文献管理软件时,有个output选项:

请不要选择complete format

选择complete format就会导致无法正确将文献导入到endnote,因为在scopus里有个

references选项,而endnote里没有对应的项,就会导致导出有错误.

所以大家在从网站输出数据时,output的地方可以选择:

specify fields to be exported

在选择下面需要输出的内容时只要不选择references就可以了,保存为ris文件。

在endnote里import,

选择原文件

import option:reference manager (RIS)

另两个用默认设置即可。

enjoy it!

engnote公司的回复:

Hello,

You can directly export data from Scopus into EndNote as follows:

1. From the Results screen, click on Export.
2. On the Export screen:
a) In the Export Format box, select RIS Format.
b) In the Content Format box, select either ?itations only?or more detailed records.
3. Select your library, and the imported references will display on the screen.

For your reference, these instructions are also available on this page of our website:

http://www.endnote.com/endnote_export.asp

Please contact us if you have further questions.

Thanks for contacting ResearchSoft Customer Technical Support. Please send any replies to isirs@contactual.com, and do not remove the case number (e.g. ~5500) from the Subject line.

We value your input and welcome your comments. For a chance to win a $50 American Express Gift Cheque please complete our brief customer satisfaction survey at http://www.zoomerang.com/survey.zgi?p=WEB225LEL5KV6M

Kayte Stasny
Customer Technical Support, Thomson Scientific ResearchSoft
(408) 987-5609, Mon-Fri, 6am-5pm Pacific time
http://www.researchsoft.com/contact

Thomson Scientific ResearchSoft & its product names & acronyms used herein are trademarks, service marks, & registered trademarks used under license. The information contained in this email message & any files transmitted with it are confidential & intended solely for the use by the individual(s) originally addressed. Please disregard & delete this email if you are not the intended recipient.

162010

我有两年多的LaTeX使用经验,用它排实验报告、毕业论文和书籍(半本);Word的使用时间长一些,但真正用好也不过是近一两年的事。这两个软件我都 用得很熟,我想我可以一边谈谈读《Word排版艺术》的感受,一边把Word和LaTeX这两个排版软件做一对比。(考虑到本文可能会以纯文本方式传播, 我只好把LaTeX写成这样了L,另外,文本所称的LaTeX是指LaTeX+CJK中文宏包)

Word 和 LaTeX 都是排版软件,但在我看来,却都不是专业排版软件——尽管用它们可以排出非常专业的效果。我的观点是,所谓专业排版,是指为专门为别人排版。(好比给别人 开车的叫司机,自己驾车代步的则不算)。例如杂志社的美工用 PageMaker 或者 QuarkXpress 排版杂志或海报,或者电路板厂的排线工人用 PowerPCB 或 Allegro 为客户排布印刷电路板,或者半导体厂的排线工人为客户排布集成电路的内部连线。这种专业工作往往只关心形式(排版效果),不关心内容(半导体厂的排线工作 常常不知道自己排布的芯片是做什么用的J)。而 Word 和 LaTeX 设计来都是给作者用的,作者(特别是技术作者)既要关心内容取舍,也要关心版面安排,以求最好地表达自己的想法,利于读者领会吸收。(注:尽管也有人使用 Word或LaTeX专为别人排版,但这毕竟不是这两款软件的设计初衷。)侯捷先生在不同的场合多次提到“作者应该自己排版”这一观点,我非常赞同。国外 很多著名的技术作家如Knuth、Tanenbaum、Stevens等人的书都是自己排版的。

鉴于Word和LaTeX都能排出专业印刷品(书刊、论文),我习惯把它们称为“半专业”排版软件。

LaTeX是基于TeX的一套宏包(macro packages),而TeX是Knuth教授开发的排版系统。在《The TeX Book》一书的前言中,Knuth用一句话概括了TeX的功能:”(TeX is) a new typesetting system intended for the creation of beautiful books — and especially for books that contain a lot of mathematics.” LaTeX在TeX的基础上大大改善了易用性,也就是说,LaTeX能排成什么样,只用TeX也能排成那样,不过LaTeX用起来方便得多。

或者举一个类比,TeX的排版指令(primitives,原语)有大约300条,这些指令好比汇编语言,直接用汇编语言写程序是很繁琐的。Knuth在设计的时候充分考虑了可扩展性,他自己就示范为TeX写了一套扩展宏包,称为plain TeX,随TeX发布。plain TeX宏包提供了大约600条命令,这些命令都是宏定义(macros)。plain TeX宏包的600条命令加上TeX的300条原语,共有900条左右的控制语句,这可比作“宏汇编”J。我们说Knuth的书用TeX排版,实际上指的是用plain TeX宏包排版。Plain TeX当然比裸的TeX要好用,但用起来还是很繁琐。而LaTeX为TeX指令提供了更高层的封装,易用性大为增强,可比作C++语言J。(实际上,LaTeX不是基于plain TeX宏包而是直接基于裸的TeX。)

在细部(字号、行距、断字、断行、公式)方面,TeX和LaTeX几本无区别,而从全局角度(章、节、交叉引用、索引、参考文献、目录)看,LaTeX的 自动化程度高得多。LaTeX提供有文档模板(article、book、report),以这些模板为基础,很容易做出符合自己排版风格的模板,继而排 出风格相近的一系列书籍。LaTeX的常用控制语句大约有一二十条,不难记,很好用。

Word是一款办公/文字处理软件,非常易用。但“好用”不意味着“用好”,有多少人被本不复杂的版面安排搞得焦头烂额?如果用Word排十来页的文章报 告,是不用看任何Word书籍的,任何问题都可以暴力解决J。不过,如果想充分发挥Word的作用,为文章(书籍)的写作过程带来便利,《Word排版艺 术》是很好(惟一?)的选择。

比较排版软件,一是要看它能做什么,二是看使用是否方便。

从基本的排版功能上看,Word和LaTeX相差不大:页面设置、纸张大小、版心尺寸、字型字号、行距段距、段首缩进、居中对齐、页眉页脚、页码编排、脚 注尾注、多级项目编号、章节自动编号、目录自动生成、交叉引用、生成索引等等这些功能二者都差不多。LaTeX在管理参考文献方面要强一些,另外 LaTeX可以很方便地做“边注(margin note)”。LaTeX和Word都能做图文混排,由于Word是所见即所得,在调整图形的位置及大小时要方便一些。以上这些功能对作者来说是够用了。

用LaTeX排版的感觉就好像用文本编辑器写HTML文件(或者只用文本编辑器写GUI程序),一方面你可以精确地控制每个细节和总体结构,另一方面在排 图形表格较多的文档时明显不如可视化工具方便。而用Word的感觉恰好相反,你不能直接看到数据的底层表示(用VBA可以,《Word排版艺术》一书介绍 了这方面内容),只能通过上层的鼠标键盘操作来控制文档。在Word中把一段文字设成蓝色,又把它设成红色,最后改回黑色,那么据我观察Word多半不会 聪明到去掉这些相互抵消的属性,而会留下类似HTML中<font color=blue><font color=red><font color=black>文字</font></font></font>这样的冗余标记。

LaTeX和Word都不适合处理过于复杂的版面,例如报纸、招贴画、复杂的分栏等等,毕竟那是专业排版软件的生存空间。个人感觉Word和LaTeX适合作者用来排版技术书籍和文章,而LaTeX排的版面总体上看更朴素一些,但细微之处处理得更好。

给Word添加字体不费吹灰之力,只要把字体文件拷贝到WindowsFonts就行了;为LaTeX安装新字体可是件麻烦事,不是几步就能搞定的。

Word在多人协作方面能力更强一些,例如可以追踪修订。另外Word排表格比LaTeX要方便一些。

从排版效果看,Word和LaTeX可谓各有所长。(La)TeX排数学公式的能力天下第一,Word自然是没法比。在处理英文(西文)文献 时,LaTeX知道在单词的音节之间断开分行,排出来的版面显得比Word匀称。在处理中文版面方面,Word比LaTeX体贴一些(特别是中文标点和拼 音的处理),毕竟CJK中文宏包是德国人写的。中科院张林波先生的CCT宏包对中文的支持似乎比CJK要好,不过我没有用过CCT,无法比较。

再好的排版软件也不能阻止人排出难看的版面,LaTeX不是傻瓜软件,不要指望用它就能排出好看的版面,我就见过某些数学系同学用LaTeX排的毕业论文,那叫一个烂:版面支离破碎、段落参差不齐、文字时浓时淡。

排版软件的选择是个见仁见智的问题。我不是LaTeX专家,也不是Word专家,犯不着跟自己较劲说非得用哪个软件不可,哪个顺手就用哪个,不方便就换另 一个呗。工具为人所用,人不要为工具所累。对于一般的技术文档(杂志稿件等)我一般用Word排,长文档(毕业论文)或者有数学公式的文档(某些实验报 告)用LaTeX排。请保持一个开放的心态,不做软件的拥趸。

市面上讲LaTeX的书不多,就我阅读的那几本书来说,都有点只见树木不见森林的感觉。这些书多是介绍LaTeX的功能、讲解LaTeX命令的使用,有的 会提及版面的微调,但少有能从大局着眼,介绍怎样能系统地排出好看的版面,达到“正式出版物”的水平。我自己倒是摸索出一些经验,后面会提到。

市面上大多数Word书籍也一样,举个例子来说,几乎每本Word书都会告诉你怎么设字体字号,行距段距(这是最基本的操作),但往往不会告诉你普通书籍 的正文应该用多大的字,行距应该是多少,段距应该是多少。(或许这些Word书不是作者自己排的,他们自己也不是很清楚?)

侯先生这本《Word排版艺术》告诉你,据他多年排版的经验,正文可用9.5磅字(比五号字略小),字体是华康简宋(简体版,繁体版用华康明细体),行距 16磅(或18磅),段前4磅,段后8磅。这样排出来的正文很均匀美观,没有常见的那种挤成一团的感觉,可直接付印。看这样的书,目的在于吸取专家经验, 迅速提到自己的排版功力。阅读《Word排版艺术》是成为Word高手的捷径。

p.s. 我所谓“正式出版物”,是指要拿给很多人看的那种东西,例如毕业论文、印刷发行的杂志文章、书籍等等。换一种说法是,从用打印机+复印机印十几二十份到用照排机+印刷机印几千上万份,都算“正式出版物”。自己留着看的不算,打印一份交给老师的也不算。

《Word排版艺术》一书着眼于“排版”,先介绍排版基础知识,然后介绍Word的“正规军作业模式”以及侯先生自己的“版面美学观”。这是前两章的内容(这部分内容是这本书独有的),可从www.jjhou.com免费下载阅读。这可看作这本书的第一部分。

第3~8章是这本书的第二部分,具体讲解Word排版大规模文档的的正规方法。第3、4章介绍版面设置(纸张、版心、页眉页脚、页码),一句话:排版也遵循“距离带来美感”原则,设置各种距离(页边距、页眉距、段距、行距、标题距)是排出美观版面的第一步。

第5章是重点,介绍版心之内的文字编排,其中最重要的是“样式/Style”的使用。我觉得看一个人用Word用得好不好,主要就看他会不会用“样式”。 全局样式+局部微调是排出好看版面的不二法门。这一章还介绍了Word的各种自动编号功能,例如脚注的自动编号、题注的自动编号、(多级)项目列表的自动 编号、章节的自动编号等等。有了这些功能,就能不重不漏地为各种条目编号,让手工编号成为历史。

第7章讲目录(普通目录、章目录、图标目录)的自动编排,这些都需以第5章讲的“样式”为基础。第8章讲索引的自动生成,这可是书籍排版的要件。第6章 呢?第6章讲图文混排,这可是Word这种“所见即所得”排版软件的强项。LaTeX的图文混排不如Word方便,调整起来更麻烦。

第9、10两章是本书的“提高”部分,介绍怎样实现Word没有直接提供的自动化功能。个人感觉这两章适合有一点编程经验的人阅读。第11没有讲排版,而 是介绍Word电子文档和多人协作修订的用法。第12章介绍利用Acrobat生成PDF文件。这四部分“起承转合”下来,相信读者对怎样用Word排版 大型文件会有全面的了解。

整本书印刷精美,制作考究,内容丰富,既能当教材学,又能当手册查,是难得的佳作。

由于排版的知识是相通的,我相信LaTeX用户也能从《Word排版艺术》中吸取养料(特别是前5章的知识可直接套用),排出美观的版面(我自己正式如此)。

如果将来有时间,我把自己用LaTeX排书的经验总结一下,让读者在阅读《Word排版艺术》的基础上,更容易地把知识应用到LaTeX排版中去。

作者:陈硕

资料提供:电子工业出版社博文视点公司

162010

第三部分 投稿
一、拟投期刊的选择:

(1)选用SCI收录期刊。目前SCI收录核心刊 3000种,加上增补期刊约 5600种。研究者可事先将SCI中自己感兴趣的期刊找出来备用。

(2)利用SCI收录期刊的影响引子(Impact Factor)来选择期刊。期刊的影响因子是该刊前2年发表的文献在当前的平均被引次数。《科学》、《自然》影响因子很高,SCI收录中国期刊影响因子都在1.00以下。期刊影响因子愈大,有用信息愈多。作者可根据期刊的影响因子排名决定投稿方向。

(3)利用学科带头人的影响或国际学术交流的条件,物色最了解中国学术研究、信任中国学者的那部分期刊投稿。SCI选用的期刊中约 1 / 3为美国期刊,因而要注意选美国期刊。

二、如何准备投稿?

选择适合刊物投稿:从杂志homepage下载Instruction for Author,按投稿要求,如投稿份数、论文体例、长度、图表、参考文献引法、配图说明(Figure legends)等,逐条遵循。Letter to editor-in-chief : ①声明文稿权转让;②未一稿多投,和在稿件未作出决定前不准备一稿多投;③所有列出作者均对文稿有确切贡献;④文稿内容真实,无作伪;⑤所有作者均已阅读文稿,且同意送稿;⑥通信作者地址、电话、Fax、e-mail;⑦通信作者签名。勿一稿多投。

Title page 的式样如下:

Peroxisome Proliferation-Activated Receptor-g Ligands Ameliorate Experimental Autoimmune Myocarditis

Zuyi Yuan, MD, PhD; Yan Liu, MD; Yu Liu, MD; Jijun Zhang, MD; Chiharu Kishimoto, MD, PhD*; Yanni Wang, MD; Aiqun Ma, MD, PhD; Zhiquan Liu, MD.

Department of Cardiovascular Medicine, First Hospital of Xi’an Jiaotong University, Xi’an, Shaanxi 710061, China; *Department of Cardiovascular Medicine, Graduate School of Medicine, Kyoto University, Kyoto 606-8501, Japan

First author’s surname: Yuan

Running head: PPARg ligands ameliorate myocarditis

Supported by Natural Science Foundation of China (30170371)

Address correspondence to:

Zuyi Yuan, MD, PhD

Department of Cardiovascular Medicine, First Hospital of Xi’an Jiaotong University,

No.1 Jiankang Road, Xi’an, Shaanxi 710061, China

Tel: +86-29-532-4021 Fax: +86-29-5263190

E-mail: zuyiyuan@mail.xjtu.edu.cn

三、向国外生物医学期刊投稿需注意

A. 期刊选择:

英文生物医学期刊种类繁多,选择一本恰当的期刊并非一件易事,然而这是论文得以发表的一个重要环节。选择期刊应考虑的因素:论文主题是否在刊物征稿范围 内?论文格式是否符合刊物要求?论文是否符合刊物的一贯口味?关于期刊的声望(prestige)问题:期刊学术水平高其声望就高;反之声望则低。生物医 学工作者都希望科研成果发表在有声望的高质量生物医学期刊上。选择期刊的方法:如果论文主题在一个很窄的分支学科内,那么选择范围只能限制在几种刊物;如 果论文信息交叉了几个研究领域,则可有许多种选择。无论是哪种情况,先列出一个简单拟选期刊表,然后逐一对进行比较筛选,作出最后抉择。

B. 阅读和使用投稿须知:

(1)读刊头(masthead statement,通常放在期刊前面的文题页上),以了解刊名、简单的办刊宗旨、编辑委员会组成、编辑部成员、出版商及其联系地址等。

(2)浏览目录(table of contents),确定该刊物是否发表你研究领域的文章及发表的比例有多大。

(3)注意栏目设置,确定拟投稿件的栏目。

(4)看拟投栏目文章的范例,了解撰写要求及格式。

(5)某些期刊刊登投稿和接收日期(submitted and accepted dates),可据此计算论文发表周期。

广告数量可间接判断期刊质量。因为广告公司都愿意将金钱投到质量高、影响大的期刊上。

(7)通过11或12月份出版的杂志最后几页上的“所有权、管理和发行声明”(statement of ownership,management,and circulation)查找期刊发行量。

核查有无北美和欧洲以外国家作者撰写的文章。

(9)有些期刊还刊登报道计划,作者可依此拟订自己的投稿计划。

C. 投稿注意事项:

当决定了论文主题,确定了读者群,并选定了拟投期刊后,论文文献检索工作即便完成。下一步是确定论文作者、查看期刊的“投稿须知”,并将研究结果的原始资 料收集在一起开始撰写论文。论文撰写是一项艰苦的工作,并非一稿就能完成,往往需要反复易稿(修改)才能使文章达到投稿的要求,即”5C”—正确 (correctness)、清楚(clarity)、简洁(concision)、完整(completion)和一致(consistency)。

D. 投稿:论文的最后一稿准备好后,就可向国外投稿。一般来说,投稿程序分以下三步。

(1)准备投稿信 (covering letter,submission letter):生物医学期刊的编辑往往需要一些有关作者及其论文的信息,而作者也希望给编辑提供一些有助于其全文送审及决策的信息。这些信息都应该包括 在投稿信中。投稿信应包括以下几方面的内容:文题和所有作者的姓名;稿件适宜的栏目;为什么此论文适合于在该刊而不是其它刊物上发表?关于重复或部分发表 或已投它刊的说明;不能转让版权的说明(如美国联邦政府雇员);建议审稿人及因存在竞争关系而不宜做审稿人的名单;通信作者(corresponding author)的姓名、详细地址、电话和传真号码、e-mail地址;能否付出版费(版面费、彩图费)的说明(如果该刊收取版面费和彩图费);希望核校校 样或稿件若不接收退回原稿的要求(有的期刊在“投稿须知”中约定,除非作者在投稿信中提出要求,否则原稿不退还给作者)。投稿信举例:

Dear Dr.:

Enclosed are three copies of a manuscript by Rose N .Dipaola,Donna A.Gallo,and Tom N.Roberts titled ”Hepatitis C Virus Infection in Long-Term Transfusion Patients”. It is submitted to be considered for publication as a ”Original Article” in your journal.This paper is~?Neither the entire paper nor any part of its content has been published or has been accepted elsewhere. It is not being submitted to any other journal.

We believe the paper may be of particular interest to the readers of your journal because the study it reports stated the HCV infection rate among long-term transfusion patients is higher than that of the general population and of short-term transfusion patients.

Correspondence and phone calls about the paper should be directed to Rose N.Dipaola at the following address,phone and fax number,and e-mail address:

Rose N .Dipaola,MD

Institute of Internal Medicine

Cleveland Clinic Foundation

9500 Euclid Ave.

Cleveland,OH44195,USA

Tel:1-216-444-5360

Fax:1-216-444-9580

E-mail:dipao@cesmtp .ccf. Org

Thanks very much for your attention to our paper.

Sincerely yours,

Rose N.Dipaola

(2) 稿件包装:所谓稿件包装是指将稿件及其拟投期刊所需的伴随资料一并装人信封。一般应按以下顺序备齐资料:投稿信;刊物要求的稿件(包括文题页、文摘页、正 文、致谢、参考文献、图注、表及图)拷贝份数,每份图单独装一个信封;版权转让声明;与稿件内容有关资料的拷贝(如学术会议报告论文或已发表的摘要等材 料);通知稿件收到的明信片或有作者地址并贴足邮资的信封(适用于不发收稿回执的期刊);致谢和使用病人照片或引用私人通信的书面同意材料的复印件;有些 期刊要求附稿件对照检查表。以上材料不要用订书钉固定,以免途中因订书钉移动而损坏稿件;但可以用大型曲别针固定,照片可以在信封中夹硬纸片保护。

(3) 稿件邮寄:邮寄稿件应注意:应至少自留一份打印底稿;信封要足够大,并足够结实;正确的投稿地址及收稿人(“投稿须知”中常有说明,多要求直接寄给主编);照片不可过大,最大不超过8.5英寸x11英寸?贴足邮票;航空邮寄;以打印稿(hard copy)投稿。几乎所有的英文生物医学期刊均不接受传真(fax)投稿,某些期刊仅允许一些没有图表的短文或“给编辑的信”通过电子邮件(e- mail)投稿,长篇论著、研究报告等文章决定刊用后方接受软磁盘。以上信息可以从“投稿须知”中获得、有的期刊在“投稿须知”中特别指出投稿地址与订刊或订单行本地址不一样,以免造成时间耽搁 。

一、正确对待审稿意见和退稿:

国际核心刊物的审稿人大多是各领域权威学者,杂志出版社经常征询编委意见,选择最佳审稿队伍。审稿是无报酬的,审稿人的工作态度大多极其认真。因此,对审 稿意见要十分尊重,对每一条批评和建议,都要认真分析,并据此修改论文。自己认为不正确的意见,要极其慎重和认真地回答,有理有据地与审稿人探讨。如何对 待杂志拒文,是作者犯难的问题。这里必须分析被拒绝的理由。第一类拒绝是“完全的拒绝”,主编通常会表达个意见,对这类文章永远不愿再看到,再寄送这类文 章是没有意义的;第二是文章包含某些有用数据和信息,主编拒绝是因数据或分析有严重缺陷,这类文章不妨先放一放,等找到更广泛的证据支持或有了更明晰的结 论后,再将经过修改的“新”文章寄给同一杂志,主编通常会考虑重新受理该文。有审稿人抱怨,个别中国作者在论文被一家杂志拒绝后又原封不动地寄给另外一家 杂志,而他们再次被邀请审稿并对此非常反感,论文理所当然地被拒绝。《宇宙物理学》(The,Astrophysical,Journal)的科学主编 Thomas提出:“论文被一家杂志拒绝后不经修改,又寄给另一个杂志,这是很糟的错误。通常,审稿人做了很认真的工作指出论文的问题,并建议修改;如果 作者忽视这些忠告,是对时间和努力的真正浪费;同时,寄一篇坏的文章,对作者的科学声望是严重的损害。”影响因子不同的刊物接受论文的标准和要求差别很 大。如果被拒论文不是由于文稿中的错误,而是重要性或创新性不够,作者仔细考虑审稿人意见并认真修改文稿后,可以寄给影响因子较低的刊物。值得注意的是, 审稿人由于知识限制和某种成见,甚至学术观点不同,判断错误并建议退稿常会发生。如何处理情况?最近某青年的论文被杂志拒绝,经反复讨论检验,判断审稿人 是错误的;为了论文及时发表,我们建议作者礼貌和认真地回信给主编并指出审稿人的错误,要求主编将意见转给审稿人,然后撤回论文再做必要改进,改寄影响因 子更高的杂志;结果论文立即接受,并得到很好评价。另篇论文在某重要杂志经两年半才得以发表,主要原因是第一位审稿人对我国向量磁场测量的可靠性提出质 疑,不同意发表。通过向权威同事请教和反复思考,我们确认所进行的研究及所采用测量都充分准确可靠;作者花了近两年时间与审稿人讨论,不但论文得以发表, 还与审稿者和主编建立了良好关系,论文发表后得到良好的国际引述。

二、投稿后若干事宜:

(1)稿件追踪(follow-up correspondence)。如果投稿2周仍无任何有关稿件收到的信息,也可打电话、发e-mail或写信给编辑部核实稿件是否收到。

(2) 稿件退修(revised manuscript)。几乎所有的经审查学术水平达到出版要求的自由来稿,在发表前都需要退给作者修改其表述及编辑格式,如压缩文章篇幅、重新设计表 格、改善插图质量、限制不规则缩写词使用等。然而退给作者修改的稿件并不代表文章已经被接受,文章最终接受与否取决于作者对文章关键性重要内容和表述方式 的修改能否达到审稿专家及编辑的要求。

通常退给作者修改的材料包括原稿、审稿专家意见、(reviewers’ comments)和一封编辑的信(covering letter)。当作者收倒退修稿后,首先应该仔细地阅读退修信(modify letter)和审稿专家意见。然后应考虑能否或愿意接受审稿专家或编辑的意见,修改稿件。

(3)如何处理稿件修回?从主编回信和审稿人 (reviewer)修回意见可看出文章录用的可能性。主编的回信会特别提到你文章的科学先进性 (scientific priority);审稿人对文章总的评价中会提到对文章是否感兴趣(interesting)等;修回不要仓促,反复阅读、理解审稿人的问题。对每位审稿人提出的意见要逐条回答(response to reviewer1,2,3);对修回稿中已修改的地方要具体标明(page, lines);给主编回信,感谢给文稿提出的修改意见,并指出按修改建议已作的修改,未作修改的地方要说明理由。

转自:

http://emuch.net/bbs/viewthread.php?tid=1588181

162010

五、撰写论文初稿(writing the first draft):

(1)材料和方法(methods and materials):做了什么和怎样做?材料和方法是文章开始写作的最理想部分,这部分的内容作者最了解。写作要求:用过去时,尽可能按实验的先后顺序描述。

(2)结果(results):发生了什么?基本写作要求:可用图、表或文字表达,三者间尽量减少重复。在正文部分叙述主要结果和意义,用图或表给出较详细的数据,用过去时。

(3) 讨论(discussion):所得结果是否为“前言”提出的关键问题的答案?结果是如何支持答案的、如何证实假说的?基本写作要求:集中讨论与本结果有 关的问题,突出本研究的创新及重要性,;与相关研究结果进行比较分析;给出结果所支持的结论;指出前景、不足和改进。用现在时叙述已知或被证明的事实,用 过去时描述本研究结果。

(4)文献(references):与本研究方法、结果、讨论有关的其它研究有哪些?准确完整规范著录。

(5)前言(introduction)本研究的背景和目的是什么?试图回答的关键问题是什么?基本写作要求:本研究之目的和重要性;简要复习文献。

致谢(acknowledgment):除了作者,谁协助完成了本研究、分析结果并撰写论文?谁提供了基金和物质帮助?写作要求:仅列出对本工作提供特殊的实质性贡献者姓名;须得到被致谢者同意。

(7) 摘要(abstract):论文告诉我们什么(通常<250字)?摘要是论文要点的浓缩,应在文章各主要部分完成后再写,这样有利于文章要点的提 炼。优秀的摘要能有效抓住读者兴趣。写作要求:用含有必要词汇的短的简单句,以使摘要清楚而简洁?避免使用缩写词和晦涩难懂的词句;用小标题叙述研究论文 的各部分;用过去时(但问题的陈述和结论可用现在时);强调研究的创新和重要方面。

文题(title):本文关于什么?最佳文题的标准是用最少的必要术语准确描述论文的内容。写作要求:准确(accuracy)、简洁(brevity)、有效(effectiveness)和吸引人。

(9)作者(author list):谁参与了本研究的设计、工作及论文的撰写?

(10) 准备论文最后一稿(preparing the final manuscript):论文初稿完成以后,必须对内容及格式进行反复推敲和修改,达到“投稿须知”的一切要求。绝大多数有经验的编辑都认为:不认真准备的稿件绝不是高水平科学研究成果的良好载体(A poorly prepared manuscript is,almost without fail,the carrier vehicle of poor science. Day AR.)。如果希望论文发表,在准备投稿时必须做到打字整洁、无错、符合期刊格式、含有期刊要求的所有材料。该过程一般分三步:再次阅读拟投期刊的“投稿须知”;用“投稿须知”中提供的“稿件对照检查表”(manuscript checklist, author’s checklist)与自己论文一一核对;根据期刊要求打印输出,完成最后一稿。

六、英语学术论文写作的几个细节

A. 时态:当提到本文、此图、此表等说明了、表达了什么时要用一般现在时,而不用一般过去时。This paper describes ……The focus of this paper is ……Figure 1 shows ……Most of the common condensation polymers are listed in Table 1-1.

B. 数:在学术论文里,有时很难顾及数的逻辑。但一般不将逻辑上的问题视为语法错误。只须注意在一个句子中的数和谓语动词的统一即可。单、复数的选用有一些非定性、但可供参考的趋向:

◆◆ 当含意上强调复数时建议用复数。The catalyst concentrations for the different reactions are different.Our research focuses on the syntheses and characterizations of a series of polycarbonates with different chemical structures.The physical and chemical properties of this compound have been studied.The chain lengths of the oligomers with different molecular weights are different.

◆◆当含意上不强调复数时可用单数或复数。Our research focuses on the synthesis of polycarbonates.The property of the compounds in group 1 is different from the property of the compounds in group 2.The chain length of the oligomers increases with increasing reaction time.

◆◆在标题、小标题中或描述一类事物、现象等,提到具体物质时常用复数。【Polyesters】 Polymers are macromolecules built up by large numbers of small molecules. The small molecules which combine with each other to form polymer molecules are termed monomers.在标题、小标题或描述一类事物、现象等,提到抽象概念时可用单数、也可用复数。【Step Copolymerization】Newer Types of Step Polymerizations. This chapter will consider the characteristics of step polymerization in detail.

◆◆学术论文、有关学术的科普文章中的名词的可数或不可数特性的划分区别于非学术文章《非学术文章中的可数或不可数特性可从字典查到》。以下是在学术文章中通常视为可数名词的单词:《但在一般字典中它们或它们做某种含义解时可能被划归不可数名词》。

application development consideration

composition concentration distribution

structure length weight

◆◆ 当同时提及几个图、表、方程式时要用复数(分别单个地提及则不用):The reaction rate constant can be calculated from Equations 2 and 3. The reaction rate constant can be calculated from Equation 2 and Equation 3. Figs. 4 and 5 show ……

C. 冠词:

◆◆单数名词前一般要加冠词:a , the等; 但以下情况可不加:表示不特指的、较抽象的概念:

This chapter will consider the characteristics of step polymerization in detail. An understanding of the relative ease of cyclization or linear polymerization comes from a variety of sources.Different polymers are synthesized to yield various mechanical behaviors by the appropriate combinations of crystallinity, crosslinking, Tg, and Tm..但需注意这些单词前加冠词也是经常见到的,这是由它在句中的含义决定的(如有一定的特指意义):Polyisoprene is a typical elastomer – it is amorphous, easily crossed, has a low Tg (-73°C) and a high Tm (14°C).

◆◆目录、标题中通常省略冠词:

1 Introduction

1-1 Types of Polymers and Polymerizations

1-4 Molecular Weight

1-5 Physical State

图、表的题目中有时可省略冠词:Fig. 2-2 Second order plot of the self-catalyzed polyesterification of adipic acid with diethylene glycol at 166 °C.……Fig. 8 Dependence of the ease of cyclization on the size of the ring.化学药品、化学物质前通常不加冠词:The polymerization is catalyzed by protonic or lewis acids although a wide variety of base catalysts such as calcium acetate and antimony trioxide can also be used.图中的横、纵坐标的名称前不加冠词。

D. 大小写:请注意以下结构的大、小写:当提及具体第几章、节;图、表;方程式时,首个字母通常要大写。As discussed in Chapter 2, ……In Section 1.2, we ……As shown in Figure 1, ……The results are listed in Table 3.当不指明是第几章、节;图、表;方程式时,首个字母如在句中通常用小写。In the previous chapter, ……As shown in this figure, ……

E. 缩写:以下全名和缩写在文中通常视为同等,可以互换。

Figure Fig. Figures Figs.

Table Tab.

Chapter Chap.

Section Sec.

Equation Eq. Equations Eqs.

F. 一些常用词汇用法

◆◆research, study, investigate:research可做名词、动词,但通常做名词用,很少见到动词的用法。句中需要动词时常用study或investigate来表达。

◆◆detail/detailed:The properties of this compound were studied in detail.//The detailed properties of this compound were studied.//The details of the properties of this compound were studied.

◆◆follows/following:The results are as follows: ……//We got following results: ……

◆◆increase, decrease:均可做名词和动词,We can observe an increase in the reaction rate.//The reaction rate increases.

◆◆focus, concentrate:focus: n. , v. The focus of this paper is ……This paper focuses on ……Our study focuses on ……We focus our study on ……Our study is focused on ……concentrate: v. We concentrate our study on ……Our study is concentrated on ……

◆◆effect, affect:effect: n. //affect: v.

◆◆compose, consist:A is composed of B and C.//A consists of B and C.

◆◆increase, improve:increase: 主要指数值上的增加。improve: 主要指性质的增加、改善。

G. 名词修饰:在学术文章中,很多时候会用到直接用名词做修饰,而不用’s 或 …… of …… 的形式。常见的这类词有:reaction rate;reaction rate constant;reaction temperature;reaction condition

molecular weight distribution……

H. 分词修饰:the reaction we studied;the temperature used;the nonlinearity observed。所有格:非人的所有格用……of……, 而不用……’s 。

转载自:

http://emuch.net/bbs/viewthread.php?tid=1588181

162010

第二部分 SCI论文写作

一、写作框架和各部分要求

Title: Be short, accurate, and unambiguous; Give your paper a distinct personality; Begin with the subject of the study.

Introduction: What is known; What is unknown; Why we did this study?

Methods: Participants, subjects; Measurements; Outcomes and explanatory variables; Statistical methods.

Results: Sample characteristics; Univariate analyses; Bivariate analyses; Multivariate analyses.

Tables and figures: No more than six tables or figures; Use Table 1 for sample characteristics (no P values); Put most important findings in a figure.

Discussion: State what you found; Outline the strengths and limitations of the study; Discuss the relevance to current literature; Outline your implications with a clear “So what?” and “Where now?”

References: All citations must be accurate; Include only the most important, most rigorous, and most recent literature; Quote only published journal articles or books; Never quote “second hand”; Cite only 20-35 references.

Formatting: Include the title, author, page numbers, etc. in headers and footers; Start each section on a new page; Format titles and subtitles consistently; Comply with “Instructions to authors”.

二、英文写作的语言技巧

1. Introduction:

A. 如何指出当前研究的不足并有目的地引导出自己研究的重要性?在叙述前人成果之后,用However来引导不足,提出一种新方法或新方向。如:However, little information(little attention/little work/little data/little research……)(or few studies/few investigations/few researchers/few attempts……)(or no/none of these studies……)has(have)been done on(focused on/attempted to/conducted/investigated/studied(with respect to))。如:Previous research (studies, records) has (have) failed to consider/ ignored/ misinterpreted/ neglected to/overestimated, underestimated/misleaded. thus, these previous results are inconclisive, misleading, unsatisfactory, questionable, controversial. Uncertainties (discrepancies) still exist……研究方法和方向与前人一样时,可通过以下方式强调自己工作:However, data is still scarce(rare, less accurate),We need to(aim to, have to) provide more documents(data, records, studies, increase the dataset). Further studies are still necessary(essential)……

强调自己研究的重要性,一般还要在However之前介绍与自己研究问题相反或相关的问题。比如:(1)时间问题;(2)研究手段问题;(3)研究区域问 题;(4)不确定性;(5)提出自己的假设来验证。如果你研究的问题在时间上比较新,你可大量提及时间较老问题的研究及重要性,然后(However)表 明“对时间尺度比较新的问题研究不足”;如果你的是一种新的研究手段或研究方向,你可提出当前流行的方法及其物质性质,然后(However)说对你所研 究的方向方法研究甚少;如果研究涉及区域问题,就先总结相邻区域或其它区域的研究,然后(However)强调这一区域的研究不足;虽然前人对某一问题研 究很多,但目前有两种或更多种观点,这种uncertainties或 ambiguities值得进一步澄清;如果自己的研究是全是新的,没有前人的工作可对比,你就可以自信地说“根据假设提出的过程,存在这种可能的结果, 本文就是要证实这种结果”等等。We aim to test the feasibility (reliability) of the……It is hoped that the question will be resolved (fall away) with our proposed method (approach).

B. 提出自己的观点:We aim to//This paper reports on//This paper provides results//This paper extends the method//This paper focus on……The purpose of this paper is to……Furthermore, Moreover, In addition, we will also discuss……

C. 圈定自己的研究范围:introduction的另一个作用就是告诉读者(包括reviewer),你文章的主要研究内容。如果处理不 好,reviewer会提出严厉的建议,比如你没有考虑某种可能性,某种研究手段等。为减少这种争论,在前言的结尾就必须明确提出本文研究的范围:(1) 时间尺度;(2) 研究区域等。如涉及较长的时序,你可明确提出本文只关心某一特定时间范围的问题,We preliminarily focus on the older (younger)……如有两种时间尺度 (long-term and short term),你可说两者都重要,但是本文只涉及其中一种。研究区域的问题,和时间问题一样,也需明确提出你只关心某一特定区域!

D. 最后的圆场:在前言的最后,还可以总结性地提出“这一研究对其它研究有什么帮助”;或者说further studies on……will be summarized in our next study (or elsewhere)。总之,其目的就是让读者把思路集中到你要讨论的问题上来。尽量减少不必要的争论(arguments)。

2. Discussion:

A. 怎样提出观点:在提出自己的观点时,采取什么样的策略很重要,不合适的句子通常会遭到reviewer置疑。(1)如果观点不是这篇文章最新提出的,通常要用We confirm that……(2)对于自己很自信的观点,可用We believe that……(3)通常,由数据推断出一定的结论,用Results indicate, infer, suggest, imply that……(4) 在极其特别时才可用We put forward(discover, observe)……”for the first time”来强调自己的创新……(5) 如果自己对所提出的观点不完全肯定,可用We tentatively put forward (interrprete this to…)Or The results may be due to (caused by) attributed to resulted from……Or This is probably a consequence of……It seems that……can account for (interpret) this……Or It is posible that it stem from……要注意这些结构要合理搭配。如果通篇是类型1)和5),那这篇文章的意义就大打折扣。如果全是2),肯定会遭到置疑。所以要仔细分析自己成果的创新性以及可信度。

B. 连接词与逻辑:写英文论文最常见的毛病是文章的逻辑不清楚,解决方法如下。

(1)注意句子上下连贯,不能让句子独立。常见的连接词有,However, also, in addition, consequently, afterwards, moreover, Furthermore, further, although, unlike, in contrast, Similarly, Unfortunately, alternatively, parallel results, In order to, despite, For example, Compared with, other results, thus, therefore……用好连接词能使文章层次清楚,意思明确。比如,叙述有时间顺序的事件或文献,最早的文献可用AA advocated it for the first time.接下来可用Then BB further demonstrated that. 再接下来,可用Afterwards, CC……如果还有,可用More recent studies by DD……如果叙述两种观点,要把它们截然分开AA put forward that……In contrast, BB believe or Unlike AA, BB suggest or On the contrary (表明前面观点错误),如果只表明两种观点对立,用in contrast BB……如果两种观点相近,可用AA suggest……Similarily, alternatively, BB……Or Also, BB or BB allso does……表示因果或者前后关系可用Consequently, therefore, as a result……表明递进关系可用furthermore, further, moreover, in addition……写完一段英文,最好首先检查是否较好地应用了这些连接词。

(2) 注意段落布局的整体逻辑:经常我们要叙述一个问题的几个方面。这种情况下,一定要注意逻辑结构。第一段要明确告诉读者你要讨论几个部份……Therefore, there are three aspects of this problem have to be addressed. The first question involves……The second problem relates to……The third aspect deals with……清晰地把观点逐层叙述。也可以直接用First, Second, Third, Finally……当然,Furthermore, in addition等可以用来补充说明。

(3) 讨论部份的整体结构:小标题是把问题分为几个片段的好方法。通常第一个片段指出文章最重要的数据或结果;补充说明部份放在最后一个片段。一定要明白,文章 的读者分为多个档次;除了本专业的专业人士读懂以外,一定要想办法能让更多的外专业人读懂。所以可以把讨论部份分为两部份,一部份提出观点,另一部份详细 介绍过程以及论述的依据。这样专业外的人士可以了解文章的主要观点,比较专业的讨论他可以把它当成黑箱子,而这一部份本专业人士可以进一步研究。

C. 讨论部分包括什么内容?(1)主要数据及其特征的总结;(2)主要结论及与前人观点的对比;(3) 本文的不足。对第三点,一般作者看来不可取,但事实上给出文章的不足恰恰是保护自己文章的重要手段。如果刻意隐藏文章的漏洞,觉得别人看不出来,是非常不明智的。所谓不足,包括以下内容:(1)研究的问题有点片面,讨论时一定要说,It should be noted that this study has examined only……We concentrate (focus) on only……We have to point out that we do not……Some limitations of this study are……(2)结论有些不足,The results do not imply……The results can not be used to determine(or be taken as evidence of)……Unfortunately, we can not determine this from this data……Our results are lack of……但指出这些不足之后,一定要马上再次加强本文的重要性以及可能采取的手段来解决这些不足,为别人或者自己的下一步研究打下伏笔。Not withstanding its limitation, this study does suggest……However, these problems could be solved if we consider……Despite its preliminary character, this study can clearly indicate……用中文来说这是左右逢源,把审稿人想到的问题提前给一个交代,同时表明你已经在思考这些问题,但是由于文章长度,试验进度或者试验手段的制约,暂时不能回答这些问题。但通过你的一些建议,这些问题在将来的研究中有可能实现。

3. Others:

A. 为使文章清楚,第一次提出概念时,最好以括弧给出较详细解释。如文章用了很多Abbreviation可用两种方法解决:(1) 在文章最后加上个Appendix,把所有Abbreviation列表;(2)在不同页面上不时地给出Abbreviation的含义,用来提醒读者。

B. 绝对不能全面否定前人的成果,即使在你看来前人的结论完全不对。这是对前人工作最起码的尊重,英文叫做给别人的工作credits.所以文章不要出现非常 negative的评价,比如Their results are wrong, very questionable, have no commensence, etc.遇到这类情况,可以婉转地提出:Their studies may be more reasonable if they had……considered this situation.Their results could be better convinced if they……Or Their conclusion may remain some uncertanties.

三、撰写外刊论文的体会

有人归纳了外刊论文撰写的五个基本要求,即5C:正确(correctness)、清楚(clarity)、简洁(concision)、完整(completion)和一致性(consistency) 。只有满足这5点,才算是一篇合格的外刊文章。

1. Introduction:

Introduction 是外刊文章最难写的部分之一(另外就是Discussion)。中文文章的缺陷就在于Introduction没有内涵,过于简单,没有真正体现论文的研 究起初和创新要素。外刊论文对于Introduction的要求是非常高的,一个好的Introduction相当于文章成功了一半。所以大家应该在 Introduction的撰写上下功夫。要写好Introduction,最重要的是要保持鲜明的层次感和极强的逻辑性,这两点是紧密结的,即在符合逻 辑性的基础上建立层层递进的关系。

A. 阐述自己研究领域的基本内容。要尽量简洁明了,不罗嗦;须知看文章者都是该领域的专家,所以一些显而易见的知识要用概括性的而不是叙述性的语言来描述。

B. 文献总结回顾。是Introduction的重头戏之一,要特别着重笔墨来描写。一方面要把该领域内过去和现在的状况全面概括总结出来,不能有丝毫的遗 漏,特别是最新的进展和过去经典文献的引用(这是两个最容易出问题的地方,要极力避免;一旦审稿人指出这两个毛病,很可能意味着表明你做的不够深入或全 面,负面作用非常明显)。另一方面,文献引用和数据提供一定要准确,切记避免片面摘录部分结果而不反映文献的总体结果;引用的数据也要正确,特别是间接引 用的数据(即不是从原文献中查到,而是从别人文献中发现的另一篇文献的数据);数据出错会导致文章的印象特差!此外,引用文献时注意防止造成抄袭的印象, 即不要原文抄录,要用自己的话进行总结描述。如果审稿人正好是文献的引用者的话,原文照抄的结果一定会很糟糕。

C. 分析过去研究的局限性并阐明自己研究的创新点。这是整个Introduction的高潮,因而要慎之又慎。阐述局限性时,需要客观公正评价别人的工作,不 要把抬高自己研究的价值建立在贬低别人的工作之上(这是中文文章易犯的毛病),外刊论文写作万万不可如此,一定要遵循实事求是的原则来分析。在阐述自己的 创新点时,要紧紧围绕过去研究的缺陷性来描述,完整而清晰地描述自己的解决思路。需要注意文章的摊子不要铺的太大,要抓住一点进行深入的阐述。只要能够很 好的解决一个问题,就是篇好文章;创新性描述的越多越大,越容易被审稿人抓住把柄。中文文章的特点是创新性要多要大,而英文文章的特点恰恰相反,深入系统 的解决一到两个问题就算相当不错。

D. 总结性描述论文的研究内容,可以分为一二三四等几个方面来描述,为Introduction做最后的收尾工作。至此,Introduction的写作算是大功告成。但是写完之后,还是要慎之又慎的仔细修改,琢磨每一个句子是否表达得恰当准确,这对 Introduction的修改完善至关重要。

2. Methods:

Methods 部分描述论文实验过程,这一过程的写作相对较为简单,但是需注意的问题不少,重要的在于完整和科学。完整就是实验当中的每一个环节都要注意到,不要顾此失 彼,遗漏一些重要内容。Methods部分可按实验对象、实验设备、实验材料、实验记录、实验分析方法等来组织行文。只要能在以下4个方面做到完整和科学 的描述,相信写好Methods不是主要问题。

A. 实验对象一般是人、动物或一些组织等,它们的基本信息要描述明确;此外要注意国外刊物大多对牵扯到人或动物的实验都有一些特定要求,有些是不允许在人或动物身上进行的实验操作,这需要认真阅读投稿刊物中关于实验的详细规定;如果违反这一规定,可能会不接受评审或发表。

B. 实验设备,要对仪器型号、生产厂家、实验过程中的用途等作详细说明;实验设备之间的连接要科学正确,不要给人混乱或操作错误的感觉。设备使用时一些必要的 步骤不可或缺,尤其是可能对实验结果造成特定影响的操作更要详细说明。这样做的好处是为了在Discussion中能够进行对应的分析。比如,一些设备在 使用前要校正(calibration),有的要求每阶段实验之后都要重新校正,以保证结果的正确性;一定要详细说明你的操作步骤或校正过程,便于评审人 分析你的结果。

C. 实验材料,不同学科有不同要求。总体上来说要注意说明材料选择的必要性,也就是对为什么要选择这种材料,最好有一定的说明。如果这点描述不清,可能会导致整个实验过程不成立。

D. 实验过程,就是清楚描述实验的整个操作流程,一般要附以实验流程图进行说明。流程图的画法很多,有文字式的,有文字和示意图结合的,不同实验有不同做法。 一般来说,可能后者多一些(实验性学科尤其如此),因为这样能使评审人对实验过程一目了然。如果示意图画得漂亮,还可以增加一些印象分。描述时要有鲜明的 层次感,对每个步骤之间的顺序和关联要描述清楚,不要造成实验过程混乱不堪的印象,因为评审人最终判断你的实验是否合理,是从这个过程描述得来的。

3. Results:

有人把Results和Discussion放在一起写,但是大多数论文都是分开的。这两种做法取决于文章的类型。如果你的结果在分析的同时进行讨论更加 合适,并不适合单独拿出来分析(或者是那样做很困难,导致Discussion成为鸡肋时),合在一起是合适的;反之就应该分开写。

A. Results的要求是翔实准确。准确是结果必须是真实的,不能伪造和篡改。翔实是提供最全面的分析结果,把一切从实验中得到的结果都提供给读者,不要故 意隐瞒或遗漏某些重要结果。从某种意义上来说,结果不够翔实并不导致论文直接被拒,但结果的真实性被怀疑文章就肯定被拒。

B. 结果提供一般是表和图。不同杂志对图表要求不完全一致,应根据杂志要求分别对待。表格能清晰展示论文获得的第一手结果,便于后人在研究时进行引用和对比。 图示能将数据的变化趋势灵活的表现出来,更直接和富于感染力。图表结合,能取长补短,使结果展现更丰富。目前,大家越来越喜欢提供各种各样的图,但杂志却 要尽量限制图的个数;因为会增加排版的困难,版面费和出版社的支出也就会增加。因此,建议大家在提供图时,尽量用最少的图提供最多的信息,最多不超过8 个。图片太多显得罗索和累赘,主编不会欣赏;必要时可用表格替代一些图。图片格式要求每个杂志不同,用tif格式较多,不推荐用bmp(jpg更不能 用)。有人说用矢量图清楚些,其实和tif没什么区别,只要足够清晰就行。黑白图片可免费,彩色图片绝对要收费,而且价格不菲。

C. Results和Discussion分开写时,Results部分尽量不要涉及对结果的评论,最多是总结陈述结果就可以了。否则造成这两部分的内容重 叠,显得累赘,从而对Discussion不利。结果的描述也要注意层次安排,要按照条理性要求分别描述,显得逻辑性较强。不要乱七八糟,降低论文的可读 性。

D. Results中大多要提供统计结果。方差分析的结果形式要根据刊物的格式给出,有的要求对分析值、自由度和概率都要详细的给出,有的只要分析值和概率就 可以了。概率可以用p=0.02或者p<0.03等形式给出,自由度的表达也有特殊要求。这些细节问题虽然关系不大,但是注意格式统一,不要乱七八 糟各自为战。统计分析结果过多时,可用表格给出,具体可参照SPSS软件分析之后的结果。如果论文结果部分通篇都是统计分析的数据,会显得凌乱不堪,表格 可以避免这种情况。

4. Discussion:

Introduction和Discussion是最难写的两部分。Discussion之所以难写,是因为这里面最能够显示一个作者研究问题的深度和广 度。深度就是论文对于提出问题的研究到了一个什么样的程度,广度指是否能够从多个角度来分析解释实验结果。要写好Discussion,大概可以分为下面 两个步骤:

A. 选择要深入讨论的问题。Results中有的结果是重要的,有的则可一笔带过。选择合适的结果在Discussion部分进行深入讨论,是写好该部分首先 要面临的问题。一般来说,可根据如下原则来判断:如果你的结果体现了实验的独特性,是其他研究中没有得到的,那这个结果就是要重点讨论的问题;有些结果和 前人的研究一致,并没有显著性差异,就应该一笔带过而无需深入讨论。Discussion的一个重要作用就是要突出自己研究的创新性,并体现出显著区别于 他人的特点,区别大和小是另外一个问题,重要的是要有区别、区别就是创新。

B. 对选中的问题按一定层次从多个角度进行讨论,说理要有根据、问题要讲清楚、讲透彻。选择的问题有时不只一个(多数情况是2个以上),因此要按一定层次描述 清楚。一般来说,把最重要的放在中间,次之的放开头和末尾。放在中间能将评审人的情绪带至高潮,前面是铺垫,后面是总结。这样的顺序似乎更合适。问题无论 大小,是否重要,都要从多个角度展开深入讨论:(1)首先要有类似结果的对比,说明自己结论的独特性;(2)其次要系统阐述为什么会有这样的结果,方法有 多种(从实验设计角度,从理论原理角度,从分析方法角度,或借鉴别人分析方法等等)。重要的是将这个问题深入阐述清楚,不能让人有意犹未尽之感(要做到这 点的确很困难,因为评审人总会提出新的问题,我们只可能尽量做到这一点罢了)。

C. Discussion部分还要注意保持和Results的一致性!就是结果和讨论要一一对应。千万不要出现按讨论的内容可以推出与实验相反的结论这种情 形,那证明你的讨论思路是彻底的失败或你的实验压根儿就是失败的。所以Discussion的文字描述和语言表达的精确性尤为重要。由于中英文表达的不 同,在投稿之前要尽量避免出现表达上的误解,如果论文因此被拒是很冤枉的。

5. Acknowledge & References:

Acknowledge 主要分为两个:第一是表明研究的基金来源,中国一般都是Nature Science Foundation of China(NSFC,国家自然科学基金),美国大多是National Institute of Health(NIH,美国国家卫生研究院)。写基金时一般要标注清楚基金号码(Grant Number),只有这样才算是该项基金的研究成果,也可以算做实验室的研究成果。须知没有任何一项研究成果是在没有资金资助的情况下完成的,所以这一点 非常必要。第二是对参与人员(没有列在作者中的研究人员)和单位表示感谢,如果通过一审和最终接受发表,还要添上对editor和anonymous reviewers的感谢,这是基本礼貌。

References重要在于格式。不同杂志对参考文献格式要求不一样,具体下来有所区别的可以分为:作者的写法,有的是简写在前,有的简写在后,有的简 写有点,有的简写没有点;文章的名字,有的要加上引号,有的没有引号;期刊的写法,有的要简写,有的要全称,有的要斜体,有的则不需要;年和期卷号的顺 序,有的是年在前,有的是年在后;期刊论文、书、学位论文、会议论文,四种引用的格式各不相同;文献的排列顺序,有的是按照字母的顺序,有的则是按照在论 文中出现的顺序用阿拉伯数字排序。基本上就是这些问题,看来很是琐碎,但是如果你的参考文献排列的乱七八糟,那就会使得评审人对你论文的印象很差,认为你 没有认知组织和撰写论文,造成一定的负面影响。所以,事情虽小,影响却大,还是要认真组织为好。

此外,论文在撰写时要自始至终都用英语写,千万不要先写中文再译成英文。这样写出来的文章肯定是中不中,英不英,而且极大浪费精力。宁可一开始写得语法差 一些,慢慢修改都比这种写法好。如果有同专业英语比较好的人帮助的话,这样写还会更省事。写作时行文时态要注意,中文没有时态问题,英文有,而且要求还相 当严格。一般来说,大多数情况下是过去时态,在Introduction文献回顾,Methods整个部分,Results结果总 结,Discussion中的大部分,都用过去时态陈述。其他情况下可以用一般时态来描述。时态之间的界限是比较严格的,最好是仔细的通读国外的论文,好 好分析一下,或者让有经验的人帮你把把关,这样比较好一些。

四、Writing Skills in English for Research Paper

写 paper注意九个环节:Preparation, Structure, Title, Abstracts, Introduction, Conclusion, Body of Paper, Recision, Acknowledgement。Preparation就是收集资料,找出灵感和方向,主要依靠的是journal in library。Structure是重点,paper的structure应该是两个triangle组成的:上面一个倒三角,下面一个正三角,意思就 是选题要宽(wide),研究方向要窄,然后最后的conclusion又发散开来。在paper的body前后都必须有declarative statement,用最少的字句表达出自己的观点,吸引读者。

Title必须清晰简短(clear,short),表达出自己唯一的topic以提升读者的兴趣(promote the interest of reader),然而title中切记不能出现abbreviation和自己的result。

Abstracts 是paper的一个缩写(miniature of whole paper),一定要简明扼要(less than 200 words,one paragraph),按照paper的顺序介绍主要研究对象(subject)、实验设计(design)、实验步骤(procedures)以及最后结果(results),这种介绍必须让非专业的人员 (non-specialist) 能够看懂。

Introduction同样要保证简短,顺序是一般背景介绍、别人工作成果、自己的研究目的及工作简介,其中介绍别人工作时只需介绍和自己最相关的方面 (very relevant),而对自己的工作介绍不用说明细节,因为这个要放到body中去。不要忘记在介绍自己工作之前要有一个declarative statement。

Body部分可以分为methods、result和discussion三个部分:①Methods,详尽的介绍自己的实验方案以便于他人能够重复自己 的实验过程,对于通用的实验方案可以简略,重点要放到自己的独创方案上面(own procedures),按照实验的先后顺序介绍,为了文章的阅读方便,不要使用过多层次的subheadings,比如 subsubsubsection等等。②Result,使用text、table、figure等手段表达出来,其中table不要使用过多,而 figure必须保证图线清楚、注解明确,必要的时候还要对于自己的result中的一些结论进行解释说明。③Discussion,这个部分是为了以后 的study,在其中提出自己的problem或者是hypothesis,和别人的成果进行比较,暗示自己的主要收获,为后面的conclusion做 准备。

Conclusion中不要包含body以外的information,保持brief、neat和concise,一定要舍得结束自己的paper;如 果自己的paper只是project的一部分,稍做说明。Revison是在写完之后回头看看是否有逻辑上的错误,是否考虑到了读者兴趣,自己的 declarative statement是否令人满意,Brevity is the soul of literary construction。Acknowledgement,不要忘记,这个反应了一个人的个人品质。

152010
一、先想先写最后做:
1. 做研究之前,必须想清楚:结果能不能发表?发表在哪里?
2. 先把文章大框写好,空出数据,等做完实验填完空就可以发了;正所谓心中有沟壑!
3. 在未搞清“写什么、发哪里、自己研究与同类研究有何出色之处”之前,就不要动手做!
4. 继续去看文献,去想;想不清楚就做还不如不做!
5. 要想这样做,就得先看文献!要知道如何把文章架起来、要知道别人是如何讨论的、要知道自己的数据是不是说明了与别人不同的东东或别人没有做过……这个过程就是阅读文献及思考的过程,这些搞清楚了,写就简单了!
6. 要是先做事,做完发现别人做过,或无法用理论来解释,岂不是冤大头?

二、如何科学选题:
1. 课题选择和国际接轨。想在国际核心期刊发表文献,就必须了解国际研究动态,选择与国际学术研究合拍的课题。由于多方面因素的影响,我国科学研究选题与国际 先进水平还有一定距离。我国一家权威科研机构不久前在国内挑选了许多前沿领域的研究课题,准备参与国际合作,但到美国后发现近三分之二的课题已经不属前 沿,在美国很少有人研究。在高校,一些教师治学严谨、基础扎实,但科研成果不突出,重要原因就是不重视有关领域学术动态,不能选得合适的课题。

2. 课题要有可发展性。课题可发展性对高水平论文的持续产出具有极大作用。中国科技大学范洪义另辟蹊径,发展了诺贝尔奖得主狄拉克(Dirac)奠定的量子论 的符号法,系统地建立了“有序算符内的积分理论”,1998年有24篇论文被SCI收录;他对自己论文高产的解释是,研究“具有开创性,突破一点以后就可 以向纵深发展,使研究工作自成系列、成面成片”。我院被SCI收录论文最多的杨新民老师从事凸性理论研究,该理论兴起于 20世纪70年代,90年代进入高峰。作为新兴研究领域,该理论本身有许多尚待研究之处,同时该理论也可用来解决最优化方面的问题。反之,有人由于所接触 的问题已处于该研究分支的末端,即使在该点上有所突破,也难持续发展。

3. 借助工具选题:①查阅有关领域的检索工具,这些工具各高校都有;②了解SCI收录期刊所反映的科技动态,ISI期刊信息可从http://www.isinet.com查获,也可从SCI印刷版每期A、D分册的来源出版物目录(Lists of Source Publications)查找,还可从ISI引用期刊报告 (Journal Citation Reports,简称JCR)了解期刊信息,该文献有印刷版、网络版(JCR on the Web)和光盘版 (JCR on CD-ROM);③利用ISI提供的选题工具帮助,例如,能对正在开展的工作进行量化分析以保证用户科学研究同科学发展趋向一致的(Essential Science Indicators),介绍有关最杰出人物研究状况、有关领域研究热点和发展趋向的(ISI Highly Cited.com);④利用网上数据库了解国际学术研究动态及有关资料。只要有心参与国际学术竞争,选择与国际学术研究接轨的课题并不存在难以克服的障碍。

三、如何获得好的idea

无论是临床还是基础科研,最关键的是idea,idea的出台决定了科研水平和档次。高水平的科学家一听你的科研课题和方向,就能判断你科研水平。因此,获得好的idea是至关重要的。

1. 优秀科学家要具备敏锐的科研嗅觉,而这种敏锐性是经过长期的思考和实践获得的。通过几天或半个月的苦思苦想得到了一个自以为很好的idea,很可能是别人 十几年前就做过的工作。但新手上路时重复一些经典实验以获得经验是很正常的。此外,科研要注重质量,千万不要为单纯地追求数量而令懂行的人嘲笑。如何获得 idea呢?

A. 大量地、仔细地阅读文献,多听学术报告、多与同行探讨,从中获得启示,不能急于求成。

B. 总结感兴趣领域内尚未探讨过但很有意义的课题;

C. 总结争论性很强的问题,反复比较研究方法和结论,从中发现切入点;

D. 善于抓住科研过程中遇到的难以解释的问题,往往会成为思维的闪光点;

E. 细致地拟定方案,论证可行性。

2. 获得idea的两种途径:传统途径就是先阅读大量科研论文,弄清目前的研究现状和要解决的问题等;非传统的途径是自己先冥思苦想一段时间,有了自己的 idea后再去查文献。这样不会让以往的研究限制你的思维,不失为一个很好的方法。别人没作过的东西,也许不是因为别人没想到,而是因为没有意义或者没有可能性。

3. 获得良好idea的基础前提:

A. 在科研前必须弥补基础知识,这是看懂文献的基础。

B. 广泛阅读文献是支撑。硕士至少查阅600篇,粗看300篇,细看100篇,研读50篇。博士至少再多一倍,并始终关注国际动态。

C. 学会阅读文献,读懂文章。建议先review再article,先中后英;看10-20篇review后看研究性论文。拿到一篇研究性论文,先看标题,立 即停住,问自己几个问题:(1)想想别人这文章是怎么做的(可参考材料方法)?会做哪些内容来说明其标题?(2)明白他为什么要做这个吗?(3)如文章是 近半年内发表的,该文章解决了什么问题?引出了什么问题(结合你看的综述)?接下来仔细看摘要,就知道你的想法是否与别人吻合?(4)看完实验结果,再思 考有什么地方不完善?有没有深入或拓展到底?一般来说,SCI-3分以下的文章只可能做了一部分机理,下面肯定有东西可做,关键是你自己要思考,去发现。

4. 长期作战持之以恒。做好上面所述要求肯定会有所谓idea,但过程艰辛,需长时间磨练,需要patience和passion。有天赋的人能考上海中科院 生命科学院,北京中科院那几个所,北大、清华。耐心干5年,这些地方正为中国带来更多本土nature、science文章。

四、博士如何出牛文章?

1. 几点忠告:多看paper没有坏处;多找非老板的其他人,如其他教授,postdoc,前辈师兄等讨论,借鸡下蛋;可以动手的东西容易上手,比如软件等;找机会去开会,认认牛人,不发paper,做做volunteer,或者参加phd symposium之类。五主动参加seminar,自己讲几次看过的paper,最好自己组织一个topic拉几个师兄弟和postdoc参加,注意找几本教科书看看,打好基础。

2. 如何获得IDEA:

A. 需对研究的领域有一个全局性了解,按老板的话说是要有bird eye。

B. 要有bird eye,需比较全面地阅读本领域文章。读文章要其idea,总结成一句话,并用卡片记录好,分类整理。如果把别人文章的idea总结成一句话,就容易理解它的本质,也好作变化。

C. 读了很多文章后,可以写一个special study,将读过的本领域东西系统总结在一起,相当于你的综合理解,也就是bird eye看到的东西了。以后翻阅起来也相当方便。

D. 用心分析别人的idea,任何一个idea都有weakness;想办法解决它,那就成自己idea。最好的办法就是看大牛的paper,无论他有多牛, 他的文章总是在说一个方面,总有其他东西没有包括进去,把他的文章认真精读了,总会发现漏洞和不足或不全面之处,然后你就知道怎么做了。记住:每篇文章几 乎都有没有考虑完全的东西。
E. 时不时阅读更广泛领域的东西,扩大bird eye范围,对领域外的感兴趣的文章进行copy收藏,这个叫walk around a little bit,很多领域外的东西可以借鉴、学科交叉从而产生new idea。

F. 经常跟牛人、博士后或高年级博士等有思想的人(最好不是相同专业,而是相关专业或交叉学科)讨论,也容易出idea。再有就是,关注其他专业的书籍、杂志等信息,从中获取交叉创新idea

转载自:

开源搜索引擎资源列表

Posted by 冰河 at 21:39 No Responses » 5,667 Views
十二 182009

开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音。  
搜索引擎的工作流程主要分为三步从互联网抓取网页→创建抓取网页的索引库→从索引库中进行搜索

首先需要一个能访问网络爬虫器程序,依据URL之间的关联性自动爬行整个互联网,并对爬行过的网页进行抓取收集。当网页被收集回来后,采用索引分析程序进行网页信息的分析,依据一定的相关度算法(如超链接算法)进行大量计算,创建倒排序的索引库。索引库建好后用户就可以通过提供的搜索界面提交关键词进行搜索,依据特定的排序算法返回搜索结果。因此,搜索引擎并不是对互联网进行直接搜索,而是对已抓取网页索引库的搜索,这也是能快速返回搜索结果的原因,索引在其中扮演了最为重要的角色,索引算法的效率直接影响搜索引擎的效率,是评测搜索引擎是否高效的关键因素。

网页爬行器、索引器、查询器共同构成了搜索引擎的重要组成单元,针对特定的语言,如中文、韩文等,还需要分词器进行分,一般情况下,分词器与索引器一起使用创建特定语言的索引库。它们之间的协同关系如图1所示。 seo 搜索引擎工作原理

开放源代码的搜索引擎为用户提供了极大的透明性,开放的源代码、公开的排序算法、随意的可定制性,相比于商业搜索引擎而言,更为用户所需要。目前,开放源代码的搜索引擎项目也有一些,主要集在中搜索引擎开发工具包与架构、Web搜索引擎、文件搜索引擎几个方面,本文概要介绍一下当前比较流行且相对比较成熟的几个搜索引擎项目。

开源搜索引擎工具包

1.Lucene
Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索工具包,能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的Lucene具有天生的跨平台性,但仍被改编为许多其他语言的版本:Perl、Python、C++、.Net等。
同其他开源项目一样,Lucene具有非常好的架构,能够方便地在其基础上进行研究与开发,添加新功能或者开发新系统。Lucene本身只支持文本文件及少量语种的索引,并且不具备爬虫功能,而这正是Lucene的魅力所在,通过Lucene提供的丰富接口,我们可以根据自身的需要在其上添加具体语言的分词器,针对具体文档的文本解析器等,而这些具体的功能实现都可以借助于一些已有的相关开源软件项目、甚至是商业软件来完成,这也保证了Lucene在索引及搜索方面的专注性。目前,通过在Lucene的基础上加入爬行器、文本解析器等也形成了一些新的开源项目,如LIUS、Nutch等。并且Lucene的索引数据结构已经成了一种事实上的标准,为许多搜索引擎所采用。

2.LIUS
LIUS即Lucene Index Update and Search的缩写,它是以Lucene为基础发展起来的一种文本索引框架,和Lucene一样,同样可以看作搜索引擎开发工具包。它在Lucene的基础上作了一些相应的研究及添加了一些新的功能。LIUS借助于许多开源软件,可以直接对各种不同格式/类型的文档进行文本解析与索引,这些文档格式包括MS Word、MS Excel、MS PowerPoing、RTF、PDF、XML、HTML、TXT、Open Office及JavaBeans等,对Java Beans的支持对于进行数据库索引非常有用,在用户进行对象关系映射(如:Hibernate、JDO、TopLink、Torque等)的数据库连接编程时会变得更加精确。LIUS还在Lucene的基础上增加了索引更新功能,使针对索引的维护功能进一步完善。并且支持混和索引,可以把同一目录下与某一条件相关的所有内容整合到一起,这种功能对于需要对多种不同格式的文档同时进行索引时非常有用。

3.Egothor
Egothor是一款开源的高性能全文搜索引擎,适用于基于全文搜索功能的搜索应用,它具有与Luccene类似的核心算法,这个项目已经存在了很多年,并且拥有一些积极的开发人员及用户团体。项目发起者Leo Galambos是捷克布拉格查理大学数学与物理学院的一名高级助理教授,他在博士研究生期间发起了此项目。
更多的时候,我们把Egothor看作一个用于全文搜索引擎的Java库,能够为具体的应用程序添加全文搜索功能。它提供了扩展的Boolean模块,使得它能被作为Boolean模块或者Vector模块使用,并且Egothor具有一些其他搜索引擎所不具有的特有功能:它采用新的动态算法以有效提高索引更新的速度,并且支持平行的查询方式,可有效提高查询效率。在Egothor的发行版中,加入了爬行器、文本解析器等许多增强易用性的应用程序,融入了Golomb、Elias-Gamma等多种高效的压缩方法,支持多种常用文档格式的文本解析,如HTML、PDF、PS、微软Office文档、XLS等,提供了GUI的索引界面及基于Applet或者Web的查询方式。另外,Egothor还能被方便地配置成独立的搜索引擎、元数据搜索器、点对点的HUB等多种且体的应用系统。

4.Xapian
Xapian是基于GPL发布的搜索引擎开发库,它采用C++语言编写,通过其提供绑定程序包可以使Perl、Python、PHP、Java、Tck、C#、Ruby等语言方便地使用它。
Xapian还是一个具有高适应性的工具集,使开发人员能够方便地为他们的应用程序添加高级索引及搜索功能。它支持信息检索的概率模型及丰富的布尔查询操作。Xapian的发布包通常由两部分组成:xapian-core及xapian-bindings,前者是核心主程序,后者是与其他语言进行绑定的程序包。
Xapian为程序开发者提供了丰富的API及文档进行程序的编制,而且还提供了许多编程实例及一个基于Xapian的应用程序Omega,Omega 由索引器及基于CGI的前端搜索组成,能够为HTML、PHP、PDF、PostScript、OpenOffice/StarOffice、RTF等多 种格式的文档编制索引,通过使用Perl DBI模块甚至能为MySQL、PostgreSQL、SQLite、Sybase、MS SQL、LDAP、ODBC等关系数据库编制索引,并能以CSV或XML格式从前端导出搜索结果,程序开发者可以在此基础上进行扩展。

5.Compass
Compass是在Lucene上实现的开源搜索引擎架构,相对比于Lucene而言,提供更加简洁的搜索引擎API。增加了索引事务处理的支持,使其能够更方便地与数据库等事务处理应用进行整合。它更新时无需删除原文档,更加简单更加高效。资源与搜索引擎之间采用映射机制,此种机制使得那些已经使用了Lucene或者不支持对象及XML的应用程序迁移到Compass上进行开发变得非常容易。
Compass还能与Hibernate、Spring等架构进行集成,因此如果想在Hibernate、Spring项目中加入搜索引擎功能,Compass是个极好的选择。

开源Web搜索引擎系统

1.Nutch
Nutch是Lucene的作者Doug Cutting发起的另一个开源项目,它是构建于Lucene基础上的完整的Web搜索引擎系统,虽然诞生时间不长,但却以其优良血统及简洁方便的使用方式而广收欢迎。我们可以使用Nutch搭建类似Google的完整的搜索引擎系统,进行局域网、互联网的搜索。
2.YaCy
YaCy是一款基于P2P(peer-to-peer)的分布式开源Web搜索引擎系统,采用Java语言进行编写,其核心是分布在数百台计算机上的被称为YaCy-peer的计算机程序, 基于P2P网络构成了YaCy网络,整个网络是一个分散的架构,在其中所有的YaCy-peers都处于对等的地位,没有统一的中心服务器,每个 YaCy-peer都能独立的进行互联网的爬行抓取、分析及创建索引库,通过P2P网络与其他YaCy-peers进行共享,并且每个YaCy-peer 又都是一个独立的代理服务器,能够对本机用户使用过的网页进行索引,并且采取多机制来保护用户的隐私,同时用户也通过本机运行的Web服务器进行查询及返 回查询结果。
YaCy搜索引擎主要包括五个部分,除普通搜索引擎所具有的爬行器、索引器、反排序的索引库外,它还包括了一个非常丰富的搜索与管理界面以及用于数据共享的P2P网络。

开源桌面搜索引擎系统

1.Regain
regain是一款与Web搜索引擎类似的桌面搜索引擎系统,其不同之处在于regain不是对Internet内容的搜索,而是针对自己的文档或文件的搜索,使用regain可以轻松地在几秒内完成大量数据(许多个G)的搜索。Regain采用了Lucene的搜索语法,因此支持多种查询方式,支持多索引的搜索及基于文件类型的高级搜索,并且能实现URL重写及文件到HTTP的桥接,并且对中文也提供了较好的支持。
Regain提供了两种版本:桌面搜索及服务器搜索。桌面搜索提供了对普通桌面计算机的文档与局域网环境下的网页的快速搜索。服务器版本主要安装在Web服务器上,为网站及局域网环境下的文件服务器进行搜索。
Regain使用Java编写,因此可以实现跨平台安装,能安装于Windows、Linux、Mac OS及Solaris上。服务器版本需要JSPs环境及标签库(tag library),因此需要安装一个Tomcat容器。而桌面版自带了一个小型的Web服务器,安装非常简单。

2.Zilverline
Zilverline是一款以Lucene为基础的桌面搜索引擎,采用了Spring框架,它主要用于个人本地磁盘及局域网内容的搜索, 支持多种语言。Zilverline提供了丰富的文档格式的索引支持,如微软Office文档、RTF、Java、CHM等,甚至能够为归档文件编制索引 进行搜索,如zip、rar及其他归档文件,在索引过程中,Zilverline从zip、rar、chm等归档文件中抽取文件来编制索引。 Zilverline可以支持增量索引的方式,只对新文件编制索引,同时也支持定期自动索引,其索引库能被存放于Zilverline能够访问到的地方,甚至是DVD中。同时,Zilverline还支持文件路径到URL的映射,这样可以使用户远程搜索本地文件
Zilverline提供了个人及研究、商业应用两种许可方式,其发布形式为一个简单的war包,可以从其官方网站下载(http://www.zilverline.org/)。 Zilverline的运行环境需要Java环境及Servlet容器,一般使用Tomcat即可。在确保正确安装JDK及Tomcat容器后只需将 Zilverline的war包(zilverline-1.5.0.war)拷贝到Tomcat的webapps目录后重启Tomcat容器即可开始使 用Zilverline搜索引擎了。

有些论文的Full text只提供给subscribers,普通用户不能下载。这个时候如果在本校或者其他开放的libraries也下不到的话,只能发邮件索取了。据我 的感受,老外一般都很热情,也很愿意与你沟通交流(国人的话就看RP了)。如果不涉及到商业机密和版权问题,一般都会成功。下面有2篇信件原文,是我从互 联网上找的,大家参考。

第一篇是索要论文

Dear Prof. Carlos Antonio
I am writing to request your assistance. I am a doctor student and study at Northwestern Science and Technology University of Agriculture and Forestry, my research focus on hypoxia stress. I searched one of your papers: “The metabolic response of plants to oxygen deficiency” is published at Brazilian Journal of Plant Physiology. I am very interested in you paper, but I can not read full-text content, would you mind sending your full-text content by E-mail
I am looking forward for your kind reply early. Thank you for your assistance.
With kind regards

Sincerely yours

College of Horticulture, Northwest A & F University
Yangling, shaanxi712100, China

2009-3-26

第二篇是索取某一解答的详细推导和作者最近的其他论文

我的邮件:
Dear Dr. Sagaseta,
I am a Ph.D student of Zhejiang University at China. Recently, I have read one of your articles, titled “Consolidation around stone columns. Influence of column deformation” in “Internation Journal for Numerical and Analytical Methods in Geomechanics”.I got many new ideas from your article. For me, your work is quite innovative. However, there are some jumps in the derivations of the solutions presented in Table 1 of your paper(i.e.,General elastic solution. Stresses and Strains for any load pa and excess pore pressure u) and it is difficult for me to understand these results. I wonder if you would consider sending me the detailed derivation of the solutions presented in Table 1 in a seperate Word file. In addtion, I would be grateful if you can sent me some papers regarding your recently research about the subject of your present paper by Email.

Respectfully yours,
Meng-Meng LU
Institute of Geotechnical Engineering, Zhejiang University, Hangzhou 310058, China

老外的回复:

Dear Mr. Lu,
Thank you very much for your interest in our recent publication. I’m the other author of the paper, which was basically the core of my PhD thesis. In my thesis, the solution is derived in detail, unfortunately, it’s written in Spanish, so please, give me a couple of weeks to translate this part of the thesis and I will gratefully send it to you.

I’ve read also part of your work with Prof. Xie, e.g. a paper in Computer and Geotechnics, in the field of consolidation of composite materials. I’ve got also some ideas, because you apply your consolidation derivation to the Han and Ye’s solution, and I think it could be also applied to the solution that we’ve published in the Int. J. Num. and Analyt. Met. in Geom. So, please, feel free to ask further questions and I am open to any kind of collaboration.

Regarding to other papers, I don’t know now of any other that could be of interest for you. We’ve got another paper in the 2nd IWGSS (www.iwgss.org), but it’s basically a summary ot the journal paper.
We keep in touch.
If I happen not to send you the derivation in a couple of weeks, please remind me it.
With kind regards,

Jorge

Jorge Castro
Group of Geotechnical Engineering
Universidad de Cantabria
ETS. Ing. Caminos, Canales y P.
39005 Santander (Spain)

十二 182009

第一篇

MapReduce: Simplified Data Processing on Large Clusters
Jeffrey Dean and Sanjay Ghemawat

Abstract

MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key. Many real world tasks are expressible in this model, as shown in the paper.

Programs written in this functional style are automatically parallelized and executed on a large cluster of commodity machines. The run-time system takes care of the details of partitioning the input data, scheduling the program's execution across a set of machines, handling machine failures, and managing the required inter-machine communication. This allows programmers without any experience with parallel and distributed systems to easily utilize the resources of a large distributed system.

Our implementation of MapReduce runs on a large cluster of commodity machines and is highly scalable: a typical MapReduce computation processes many terabytes of data on thousands of machines. Programmers find the system easy to use: hundreds of MapReduce programs have been implemented and upwards of one thousand MapReduce jobs are executed on Google's clusters every day.

Appeared in:
OSDI'04: Sixth Symposium on Operating System Design and Implementation,
San Francisco, CA, December, 2004.

Download: PDF Version

Slides: HTML Slides


第二篇

Bigtable: A Distributed Storage System for Structured Data
Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber

Abstract

Bigtable is a distributed storage system for managing structured data that is designed to scale to a very large size: petabytes of data across thousands of commodity servers. Many projects at Google store data in Bigtable, including web indexing, Google Earth, and Google Finance. These applications place very different demands on Bigtable, both in terms of data size (from URLs to web pages to satellite imagery) and latency requirements (from backend bulk processing to real-time data serving). Despite these varied demands, Bigtable has successfully provided a flexible, high-performance solution for all of these Google products. In this paper we describe the simple data model provided by Bigtable, which gives clients dynamic control over data layout and format, and we describe the design and implementation of Bigtable.

Appeared in:
OSDI'06: Seventh Symposium on Operating System Design and Implementation,
Seattle, WA, November, 2006.

Download: PDF Version

第三篇:

The Google File System
Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung

Abstract

We have designed and implemented the Google File System, a scalable distributed file system for large distributed data-intensive applications. It provides fault tolerance while running on inexpensive commodity hardware, and it delivers high aggregate performance to a large number of clients.

While sharing many of the same goals as previous distributed file systems, our design has been driven by observations of our application workloads and technological environment, both current and anticipated, that reflect a marked departure from some earlier file system assumptions. This has led us to reexamine traditional choices and explore radically different design points.

The file system has successfully met our storage needs. It is widely deployed within Google as the storage platform for the generation and processing of data used by our service as well as research and development efforts that require large data sets. The largest cluster to date provides hundreds of terabytes of storage across thousands of disks on over a thousand machines, and it is concurrently accessed by hundreds of clients.

In this paper, we present file system interface extensions designed to support distributed applications, discuss many aspects of our design, and report measurements from both micro-benchmarks and real world use.

Appeared in:
19th ACM Symposium on Operating Systems Principles,
Lake George, NY, October, 2003.

Download: PDF Version

十二 182009

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。

摩尔定律统制下的软件开发时代有一个非常有意思的现象:”Andy giveth, and Bill taketh away.”。不管CPU的主频有多快,我们始终有办法来利用它,而我们也陶醉在机器升级带来的程序性能提高中。

我记着我大二的时候曾经做过一个五子棋的程序,当时的算法就是预先设计一些棋型(有优先级),然后扫描棋盘,对形势进行分析,看看当前走哪部对自己 最重要。当然下棋还要堵别人,这就需要互换双方的棋型再计算。如果只算一步,很可能被狡猾的对手欺骗,所以为了多想几步,还需要递归和回朔。在当时的机器 上,算3步就基本上需要3秒左右的时间了。后来大学毕业收拾东西的时候找到这个程序,试了一下,发现算10步需要的时间也基本上感觉不出来了。

不知道你是否有同样的经历,我们不知不觉的一直在享受着这样的免费午餐。可是,随着摩尔定律的提前终结,免费的午餐终究要还回去。虽然硬件设计师还 在努力:Hyper Threading CPU(多出一套寄存器,相当于一个逻辑CPU)使得Pipeline尽可能满负荷,使多个Thread的操作有可能并行,使得多线程程序的性能有 5%-15%的提升;增加Cache容量也使得包括Single-Thread和Multi-Thread程序都能受益。也许这些还能帮助你一段时间,但 问题是,我们必须做出改变,面对这个即将到来的变革,你准备好了么?

Concurrency Programming != Multi-Thread Programming。很多人都会说MultiThreading谁不会,问题是,你是为什么使用/如何使用多线程的?我从前做过一个类似AcdSee 一样的图像查看/处理程序,我通常用它来处理我的数码照片。我在里面用了大量的多线程,不过主要目的是在图像处理的时候不要Block住UI,所以将 CPU Intensive的计算部分用后台线程进行处理。而并没有把对图像矩阵的运算并行分开。

我觉得Concurrency Programming真正的挑战在于Programming Model的改变,在程序员的脑子里面要对自己的程序怎样并行化有很清楚的认识,更重要的是,如何去实现(包括架构、容错、实时监控等等)这种并行化,如何去调试,如何去测试。

在Google,每天有海量的数据需要在有限的时间内进行处理(其实每个互联网公司都会碰到这样的问题),每个程序员都需要进行分布式的程序开发, 这其中包括如何分布、调度、监控以及容错等等。Google的MapReduce正是把分布式的业务逻辑从这些复杂的细节中抽象出来,使得没有或者很少并 行开发经验的程序员也能进行并行应用程序的开发。

MapReduce中最重要的两个词就是Map(映射)和Reduce(规约)。初看Map/Reduce这两个词,熟悉Function Language的人一定感觉很熟悉。FP把这样的函数称为”higher order function”(”High order function”被成为Function Programming的利器之一哦),也就是说,这些函数是编写来被与其它函数相结合(或者说被其它函数调用的)。如果说硬要比的化,可以把它想象成C 里面的CallBack函数,或者STL里面的Functor。比如你要对一个STL的容器进行查找,需要制定每两个元素相比较的 Functor(Comparator),这个Comparator在遍历容器的时候就会被调用。

拿前面说过图像处理程序来举例,其实大多数的图像处理操作都是对图像矩阵进行某种运算。这里的运算通常有两种,一种是映射,一种是规约。拿两种效果 来说,”老照片”效果通常是强化照片的G/B值,然后对每个象素加一些随机的偏移,这些操作在二维矩阵上的每一个元素都是独立的,是Map操作。而”雕 刻”效果需要提取图像边缘,就需要元素之间的运算了,是一种Reduce操作。再举个简单的例子,一个一维矩阵(数组)[0,1,2,3,4]可以映射为 [0,2,3,6,8](乘2),也可以映射为[1,2,3,4,5](加1)。它可以规约为0(元素求积)也可以规约为10(元素求和)。

面对复杂问题,古人教导我们要“分而治之”,英文中对应的词是”Divide and Conquer“。Map/Reduce其实就是Divide/Conquer的过程,通过把问题Divide,使这些Divide后的Map运算高度并 行,再将Map后的结果Reduce(根据某一个Key),得到最终的结果。

Googler发现这是问题的核心,其它都是共性问题。因此,他们把MapReduce抽象分离出来。这样,Google的程序员可以只关心应用逻 辑,关心根据哪些Key把问题进行分解,哪些操作是Map操作,哪些操作是Reduce操作。其它并行计算中的复杂问题诸如分布、工作调度、容错、机器间 通信都交给Map/Reduce Framework去做,很大程度上简化了整个编程模型。

MapReduce的另一个特点是,Map和Reduce的输入和输出都是中间临时文件(MapReduce利用Google文件系统来管理和访问这些文件),而不是不同进程间或者不同机器间的其它通信方式。我觉得,这是Google一贯的风格,化繁为简,返璞归真。

接下来就放下其它,研究一下Map/Reduce操作。(其它比如容错、备份任务也有很经典的经验和实现,论文里面都有详述)

Map的定义:

Map, written by the user, takes an input pair and produces a set of intermediate key/value pairs. The MapReduce library groups together all intermediate values associated with the same intermediate key I and passes them to the Reduce function.

Reduce的定义:

The Reduce function, also written by the user, accepts an intermediate key I and a set of values for that key. It merges together these values to form a possibly smaller set of values. Typically just zero or one output value is produced per Reduce invocation. The intermediate values are supplied to the user’s reduce function via an iterator. This allows us to handle lists of values that are too large to fit in memory.

MapReduce论文中给出了这样一个例子:在一个文档集合中统计每个单词出现的次数。

Map操作的输入是每一篇文档,将输入文档中每一个单词的出现输出到中间文件中去。

map(String key, String value):
    // key: document name
    // value: document contents
    for each word w in value:
        EmitIntermediate(w, “1″);

比如我们有两篇文档,内容分别是

A - “I love programming”

B - “I am a blogger, you are also a blogger”。

B文档经过Map运算后输出的中间文件将会是:

	I,1
	am,1
	a,1
	blogger,1
	you,1
	are,1
	a,1
	blogger,1

Reduce操作的输入是单词和出现次数的序列。用上面的例子来说,就是 (”I”, [1, 1]), (”love”, [1]), (”programming”, [1]), (”am”, [1]), (”a”, [1,1]) 等。然后根据每个单词,算出总的出现次数。

reduce(String key, Iterator values):
    // key: a word
    // values: a list of counts
    int result = 0;
    for each v in values:
        result += ParseInt(v);
    Emit(AsString(result));

最后输出的最终结果就会是:(”I”, 2″), (”a”, 2″)……

实际的执行顺序是:

  1. MapReduce Library将Input分成M份。这里的Input Splitter也可以是多台机器并行Split。
  2. Master将M份Job分给Idle状态的M个worker来处理;
  3. 对于输入中的每一个<key, value> pair 进行Map操作,将中间结果Buffer在Memory里;
  4. 定期的(或者根据内存状态),将Buffer中的中间信息Dump到本地磁盘上,并且把文件信息传回给Master(Master需要 把这些信息发送给Reduce worker)。这里最重要的一点是,在写磁盘的时候,需要将中间文件做Partition(比如R个)。拿上面的例子来举例,如果把所有的信息存到一个 文件,Reduce worker又会变成瓶颈。我们只需要保证相同Key能出现在同一个Partition里面就可以把这个问题分解。
  5. R个Reduce worker开始工作,从不同的Map worker的Partition那里拿到数据(read the buffered data from the local disks of the map workers), 用key进行排序(如果内存中放不下需要用到外部排序 – external sort)。很显然,排序(或者说Group)是Reduce函数之前必须做的一步。 这里面很关键的是,每个Reduce worker会去从很多Map worker那里拿到X(0<X<R) Partition的中间结果,这样,所有属于这个Key的信息已经都在这个worker上了。
  6. Reduce worker遍历中间数据,对每一个唯一Key,执行Reduce函数(参数是这个key以及相对应的一系列Value)。
  7. 执行完毕后,唤醒用户程序,返回结果(最后应该有R份Output,每个Reduce Worker一个)。

可见,这里的分(Divide)体现在两步,分别是将输入分成M份,以及将Map的中间结果分成R份。将输入分开通常很简单,Map的中间结果通常 用”hash(key) mod R”这个结果作为标准,保证相同的Key出现在同一个Partition里面。当然,使用者也可以指定自己的Partition Function,比如,对于Url Key,如果希望同一个Host的URL出现在同一个Partition,可以用”hash(Hostname(urlkey)) mod R”作为Partition Function。

对于上面的例子来说,每个文档中都可能会出现成千上万的 (”the”, 1)这样的中间结果,琐碎的中间文件必然导致传输上的损失。因此,MapReduce还支持用户提供Combiner Function。这个函数通常与Reduce Function有相同的实现,不同点在于Reduce函数的输出是最终结果,而Combiner函数的输出是Reduce函数的某一个输入的中间文件。

Tom White给出了Nutch[2]中另一个很直观的例子,分布式Grep。我一直觉得,Pipe中的很多操作,比如More、Grep、Cat都类似于一种Map操作,而Sort、Uniq、wc等都相当于某种Reduce操作。

加上前两天Google刚刚发布的BigTable论文,现在Google有了自己的集群 – Googel Cluster,分布式文件系统 – GFS,分布式计算环境 – MapReduce,分布式结构化存储 – BigTable,再加上Lock Service。我真的能感觉的到Google著名的免费晚餐之外的对于程序员的另一种免费的晚餐,那个由大量的commodity PC组成的large clusters。我觉得这些才真正是Google的核心价值所在。

呵呵,就像微软老兵Joel Spolsky(你应该看过他的”Joel on Software”吧?)曾经说过,对于微软来说最可怕的是[1],微软还在苦苦追赶Google来完善Search功能的时候,Google已经在部署下一代的超级计算机了。

The very fact that Google invented MapReduce, and Microsoft didn’t, says something about why Microsoft is still playing catch up trying to get basic search features to work, while Google has moved on to the next problem: building Skynet^H^H^H^H^H^H the world’s largest massively parallel supercomputer. I don’t think Microsoft completely understands just how far behind they are on that wave.

注1:其实,微软也有自己的方案 – DryAd。问题是,大公司里,要想重新部署这样一个底层的InfraStructure,无论是技术的原因,还是政治的原因,将是如何的难。

注2:Lucene之父Doug Cutting的又一力作,Project Hadoop - 由Hadoop分布式文件系统和一个Map/Reduce的实现组成,Lucene/Nutch的成产线也够齐全的了。

© 2009 - 2024 冰河的博客