<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN">
<HTML>
<HEAD>
  <META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=UTF-8">
  <META NAME="GENERATOR" CONTENT="GtkHTML/3.10.3">
</HEAD>
<BODY>
On Fri, 2006-11-10 at 12:06 +0100, Stephan Oepen wrote:
<BLOCKQUOTE TYPE=CITE>
<PRE>
<FONT COLOR="#000000">hi berthold,</FONT>

<FONT COLOR="#000000">&gt; it is really a large number of experiments. I started my first</FONT>
<FONT COLOR="#000000">&gt; experiment about a week ago, and I am not even into grandparenting yet.</FONT>
<FONT COLOR="#000000">&gt; Is there a way to speed things up, e.g. by dropping some less</FONT>
<FONT COLOR="#000000">&gt; interesting variation in parameters? Or is there any support for</FONT>
<FONT COLOR="#000000">&gt; multiprocessing?</FONT>
<FONT COLOR="#000000">&gt; </FONT>
<FONT COLOR="#000000">&gt; Some parameters are not really self-explanatory. Can you provide some</FONT>
<FONT COLOR="#000000">&gt; comments on grid.lisp? Which parameters are now supported in Pet? </FONT>

<FONT COLOR="#000000">looking at your log file, all seems to proceed as it should :-).  most</FONT>
<FONT COLOR="#000000">of the time goes into parameter estimation, and there is little we can</FONT>
<FONT COLOR="#000000">do about that (short of parallelizing experiments, which i would like</FONT>
<FONT COLOR="#000000">to implement one day). </FONT>
</PRE>
</BLOCKQUOTE>
As a quick workaround: would it work to just start 4 lisp processes with 4 different configuration files, say one for each level of grandparenting? <BR>
<BR>
<BLOCKQUOTE TYPE=CITE>
<PRE>
<FONT COLOR="#000000"> for each experiment, you get 18 grids:</FONT>

<FONT COLOR="#000000"> :variance '(nil 1e4 1e2 1e-2 1e-4 1e-6)</FONT>
<FONT COLOR="#000000"> :relative-tolerance '(1e-6 1e-8 1e-10))</FONT>

<FONT COLOR="#000000">one grid takes between five minutes and one hour (for your 15,000 Eiche</FONT>
<FONT COLOR="#000000">items), and by default each grid comprises two folds.  those hour-long</FONT>
<FONT COLOR="#000000">runs appear to be ones with either no prior (`variance') or a very low</FONT>
<FONT COLOR="#000000">relative tolerance; they often diverge.</FONT>
</PRE>
</BLOCKQUOTE>
<BR>
That's really useful to know. <BR>
<BR>
<BLOCKQUOTE TYPE=CITE>
<PRE>
<FONT COLOR="#000000">&nbsp; maybe you could trim down the</FONT>
<FONT COLOR="#000000">TADM parameter variation, e.g.</FONT>

<FONT COLOR="#000000"> :variance '(1e4 1e2 1e-2 1e-4 1e-6)</FONT>
<FONT COLOR="#000000"> :relative-tolerance '(1e-6 1e-8))</FONT>

<FONT COLOR="#000000">assuming the default LOGON `grid.lisp, you should get 192 experiments</FONT>

<FONT COLOR="#000000"> :grandparenting '(0 2 3 4)</FONT>
<FONT COLOR="#000000"> :active-edges-p '(nil t)</FONT>
<FONT COLOR="#000000"> :lexicalization-p nil</FONT>
<FONT COLOR="#000000"> :constituent-weight '(1 2 0)</FONT>
</PRE>
</BLOCKQUOTE>
What does this feature do?<BR>
<BR>
<BLOCKQUOTE TYPE=CITE>
<PRE>
<FONT COLOR="#000000"> :ngram-size '(0 2 3 4) :ngram-back-off-p '(nil t)</FONT>

<FONT COLOR="#000000">such that you are more than ten per cent done already :-).  so maybe my</FONT>
<FONT COLOR="#000000">defaults are overly generous with cpu days!  if your main interest is a </FONT>
<FONT COLOR="#000000">model to use with PET, you can cut out all variation but grandparenting</FONT>
<FONT COLOR="#000000">and active edges (aka partial configurations).  so maybe the following</FONT>

<FONT COLOR="#000000"> :grandparenting '(0 2 3 4)</FONT>
<FONT COLOR="#000000"> :active-edges-p '(nil t)</FONT>
<FONT COLOR="#000000"> :lexicalization-p nil</FONT>
<FONT COLOR="#000000"> :constituent-weight 0</FONT>
<FONT COLOR="#000000"> :ngram-size 0 :ngram-back-off-p nil</FONT>

<FONT COLOR="#000000">this would bring down the total to eight experiments, each of ten grids</FONT>
<FONT COLOR="#000000">... you will be done in no time!</FONT>

<FONT COLOR="#000000">when talking to zhang yi recently, we (think we) worked out what would</FONT>
<FONT COLOR="#000000">be needed for PET to also support those n-gram features (with selective</FONT>
<FONT COLOR="#000000">unpacking that is; i personally believe it is not really worth adapting</FONT>
<FONT COLOR="#000000">the non-selective universe for additional features).  but before making</FONT>
<FONT COLOR="#000000">the time to implement such extensions, we should know how much we gain</FONT>
<FONT COLOR="#000000">on top of the basic configurational features plus grandparenting.  from</FONT>
<FONT COLOR="#000000">past experience, that could be relatively little.  to know for sure, we</FONT>
<FONT COLOR="#000000">would have to complete more of those experiments in the above ...  but</FONT>
<FONT COLOR="#000000">it might still make sense to narrow down estimation parameters first.</FONT>

</PRE>
</BLOCKQUOTE>
Sure. How can I inspect the result of the experiments? Do I have to process the log files, or can I also inspect the tsdb profiles?<BR>
I would also like to do an error analysis. Is that possible with the virtual profile setup, or will I end up creating this one large profile? <BR>
<BR>
Another question: what happens with partially disambiguated and/or rejected parses. Is there a way to see how they contribute to the end result? Are they ignored? <BR>
<BR>
Finally, there are two measures of accuracy reported in the log file: eaccuracy and naccuracy. How doi they relate to each other?<BR>
<BR>
B<BR>
<BR>
<BLOCKQUOTE TYPE=CITE>
<PRE>
<FONT COLOR="#000000">                                      i hope this helps!  cheers  -  oe</FONT>

<FONT COLOR="#000000">+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++</FONT>
<FONT COLOR="#000000">+++ Universitetet i Oslo (IFI); Boks 1080 Blindern; 0316 Oslo; (+47) 2284 0125</FONT>
<FONT COLOR="#000000">+++     CSLI Stanford; Ventura Hall; Stanford, CA 94305; (+1 650) 723 0515</FONT>
<FONT COLOR="#000000">+++       --- <A HREF="mailto:oe@csli.stanford.edu">oe@csli.stanford.edu</A>; <A HREF="mailto:oe@ifi.uio.no">oe@ifi.uio.no</A>; <A HREF="mailto:stephan@oepen.net">stephan@oepen.net</A> ---</FONT>
<FONT COLOR="#000000">+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++</FONT>

</PRE>
</BLOCKQUOTE>
</BODY>
</HTML>